NLTK: 単語数をカウント - Matter Mind Meaning

単語数をカウントすれば、ストップワードやレアワードの辞書を簡単に作ることが出来る。nltkではこれを行う関数が用意されている。

>>> from nltk import FreqDist

>>> text = "a a a b b a a c c d d e e w w a a z z d s q a f a a s w q f x a z a a a w e q d x x a s w a a a a b b b x s s s j y r r d a a z a a a a "

>>> fd = FreqDist(text)

>>> fd

FreqDist({' ': 68, 'a': 25, 's': 6, 'b': 5, 'd': 5, 'w': 5, 'x': 4, 'z': 4, 'e': 3, 'q': 3, ...})

>>> fd.most_common(5)

[(' ', 68), ('a', 25), ('s', 6), ('b', 5), ('d', 5)]

なんと便利だろう！！

参考文献