NLTK: 単語数をカウント
単語数をカウントすれば、ストップワードやレアワードの辞書を簡単に作ることが出来る。nltkではこれを行う関数が用意されている。
>>> from nltk import FreqDist
>>> text = "a a a b b a a c c d d e e w w a a z z d s q a f a a s w q f x a z a a a w e q d x x a s w a a a a b b b x s s s j y r r d a a z a a a a "
>>> fd = FreqDist(text)
>>> fd
FreqDist({' ': 68, 'a': 25, 's': 6, 'b': 5, 'd': 5, 'w': 5, 'x': 4, 'z': 4, 'e': 3, 'q': 3, ...})
>>> fd.most_common(5)
[(' ', 68), ('a', 25), ('s', 6), ('b', 5), ('d', 5)]
なんと便利だろう!!
参考文献
1. Language Processing and Python