【XOPS】アドオンで使用される単語のリスト
XOPSのアドオンミッションで使用される単語のリストを作成しました。
ソースコードなどはGitHubで公開しています。
レポジトリ名からわかるとおり、以前にも似たようなことを行っており、今回が3回目になります。
解析対象のアドオンデータについては管理人が数年前に作成したアーカイブを使用しているので、最新のアドオンデータは含まれていません。
形態素解析にはJuman++を使用しました。
形態素解析を行う際にテキストのクリーンアップを行っていますが、すべての記号を除去することはできず、最終的な結果にも一部の記号が含まれています。
出現頻度上位100件の単語は以下のとおりです。
| 単語 | 出現回数 |
|---|---|
| の | 6602 |
| する | 6356 |
| を | 6249 |
| に | 5285 |
| が | 4876 |
| は | 4447 |
| だ | 2559 |
| と | 2093 |
| いる | 2052 |
| タ | 1454 |
| で | 1443 |
| ない | 1426 |
| … | 1302 |
| か | 1282 |
| れる | 1099 |
| ー | 990 |
| も | 947 |
| から | 938 |
| ある | 930 |
| …… | 826 |
| ク | 787 |
| エ | 785 |
| 無線 | 778 |
| 敵 | 755 |
| : | 752 |
| のだ | 750 |
| ます | 747 |
| 。 | 689 |
| ヌ | 686 |
| ゲイツ | 654 |
| この | 628 |
| な | 627 |
| ソ | 623 |
| チ | 618 |
| こと | 573 |
| ようだ | 556 |
| オ | 547 |
| なる | 535 |
| ぞ | 534 |
| くれる | 529 |
| 自分 | 525 |
| サ | 524 |
| へ | 516 |
| ル | 490 |
| くる | 482 |
| ケ | 460 |
| コ | 445 |
| ぬ | 435 |
| フ | 430 |
| 無い | 406 |
| 来る | 404 |
| _ | 400 |
| 世界 | 397 |
| んだ | 389 |
| ア | 388 |
| その | 387 |
| シ | 384 |
| まで | 377 |
| 者 | 373 |
| 人 | 355 |
| これ | 354 |
| ここ | 347 |
| 」 | 343 |
| しまう | 340 |
| 俺 | 338 |
| ケース | 338 |
| マ | 333 |
| 「 | 329 |
| 4988601004404 | 328 |
| ・・・ | 325 |
| 我々 | 317 |
| 私 | 316 |
| 社長 | 314 |
| 警官 | 314 |
| ら | 313 |
| ホ | 310 |
| ゙ | 310 |
| いう | 300 |
| セ | 298 |
| 奴 | 294 |
| 開始 | 288 |
| よ | 284 |
| ウ | 282 |
| 仲間 | 280 |
| やる | 280 |
| それ | 278 |
| ス | 275 |
| 中 | 275 |
| テ | 274 |
| カ | 271 |
| よい | 271 |
| 戦闘 | 270 |
| 何 | 267 |
| キ | 267 |
| 君 | 262 |
| せる | 252 |
| そこ | 250 |
| 2 | 250 |
| 入る | 249 |
| よる | 244 |
すべての結果については、GitHubレポジトリにあるgenkei_freqs.tsvを確認してください。