【XOPS】アドオンで使用される単語のリスト
XOPSのアドオンミッションで使用される単語のリストを作成しました。
ソースコードなどはGitHubで公開しています。
レポジトリ名からわかるとおり、以前にも似たようなことを行っており、今回が3回目になります。
解析対象のアドオンデータについては管理人が数年前に作成したアーカイブを使用しているので、最新のアドオンデータは含まれていません。
形態素解析にはJuman++を使用しました。
形態素解析を行う際にテキストのクリーンアップを行っていますが、すべての記号を除去することはできず、最終的な結果にも一部の記号が含まれています。
出現頻度上位100件の単語は以下のとおりです。
単語 | 出現回数 |
---|---|
の | 6602 |
する | 6356 |
を | 6249 |
に | 5285 |
が | 4876 |
は | 4447 |
だ | 2559 |
と | 2093 |
いる | 2052 |
タ | 1454 |
で | 1443 |
ない | 1426 |
… | 1302 |
か | 1282 |
れる | 1099 |
ー | 990 |
も | 947 |
から | 938 |
ある | 930 |
…… | 826 |
ク | 787 |
エ | 785 |
無線 | 778 |
敵 | 755 |
: | 752 |
のだ | 750 |
ます | 747 |
。 | 689 |
ヌ | 686 |
ゲイツ | 654 |
この | 628 |
な | 627 |
ソ | 623 |
チ | 618 |
こと | 573 |
ようだ | 556 |
オ | 547 |
なる | 535 |
ぞ | 534 |
くれる | 529 |
自分 | 525 |
サ | 524 |
へ | 516 |
ル | 490 |
くる | 482 |
ケ | 460 |
コ | 445 |
ぬ | 435 |
フ | 430 |
無い | 406 |
来る | 404 |
_ | 400 |
世界 | 397 |
んだ | 389 |
ア | 388 |
その | 387 |
シ | 384 |
まで | 377 |
者 | 373 |
人 | 355 |
これ | 354 |
ここ | 347 |
」 | 343 |
しまう | 340 |
俺 | 338 |
ケース | 338 |
マ | 333 |
「 | 329 |
4988601004404 | 328 |
・・・ | 325 |
我々 | 317 |
私 | 316 |
社長 | 314 |
警官 | 314 |
ら | 313 |
ホ | 310 |
゙ | 310 |
いう | 300 |
セ | 298 |
奴 | 294 |
開始 | 288 |
よ | 284 |
ウ | 282 |
仲間 | 280 |
やる | 280 |
それ | 278 |
ス | 275 |
中 | 275 |
テ | 274 |
カ | 271 |
よい | 271 |
戦闘 | 270 |
何 | 267 |
キ | 267 |
君 | 262 |
せる | 252 |
そこ | 250 |
2 | 250 |
入る | 249 |
よる | 244 |
すべての結果については、GitHubレポジトリにあるgenkei_freqs.tsvを確認してください。