【XOPS】アドオンで使用される単語のリスト

XOPSのアドオンミッションで使用される単語のリストを作成しました。
ソースコードなどはGitHubで公開しています。

レポジトリ名からわかるとおり、以前にも似たようなことを行っており、今回が3回目になります。
解析対象のアドオンデータについては管理人が数年前に作成したアーカイブを使用しているので、最新のアドオンデータは含まれていません。

形態素解析にはJuman++を使用しました。
形態素解析を行う際にテキストのクリーンアップを行っていますが、すべての記号を除去することはできず、最終的な結果にも一部の記号が含まれています。

出現頻度上位100件の単語は以下のとおりです。

単語出現回数
6602
する6356
6249
5285
4876
4447
2559
2093
いる2052
1454
1443
ない1426
1302
1282
れる1099
990
947
から938
ある930
……826
787
785
無線778
755
752
のだ750
ます747
689
686
ゲイツ654
この628
627
ソ623
618
こと573
ようだ556
547
なる535
534
くれる529
自分525
524
516
490
くる482
460
445
435
430
無い406
来る404
_400
世界397
んだ389
388
その387
384
まで377
373
355
これ354
ここ347
343
しまう340
338
ケース338
333
329
4988601004404328
・・・325
我々317
316
社長314
警官314
313
310
310
いう300
298
294
開始288
284
282
仲間280
やる280
それ278
275
275
274
271
よい271
戦闘270
267
267
262
せる252
そこ250
2250
入る249
よる244

すべての結果については、GitHubレポジトリにあるgenkei_freqs.tsvを確認してください。

XOPS,ゲーム

Posted by 駄場さん