Tokenizer いろいろ比較

この資料のURL

自己紹介

発表の流れ

評価手法

NGram系 vs 形態素解析

  • NGramTokenizer は 1024文字しか処理しないので CJKよりもサイズが小さくなっている.
NGram系 CJK NGram(bi-gram)
時間(mm:ss) 13:45 9:05
サイズ(Gbyte) 7.37 6.75
形態素解析 Japanese(ipadic) Japanese(chasen)
時間(mm:ss) 36:53 51:45
サイズ(Gbyte) 6.75 7.12

3.1.0 vs 1.4.1

3.1.0 CJK NGram(bi-gram)
時間(mm:ss) 13:45 9:05
サイズ(Gbyte) 7.37 6.75
1.4.1 CJK NGram(bi-gram)
時間(mm:ss) 14:10 9:15
サイズ(Gbyte) 7.37 6.75

さいごに