Matter Mind Meaning

思ったことを忘れてしまわないように書き留める

NLTK: 単語数をカウント

単語数をカウントすれば、ストップワードやレアワードの辞書を簡単に作ることが出来る。nltkではこれを行う関数が用意されている。

>>> from nltk import FreqDist

>>> text = "a a a b b a a c c d d e e w w a a z z d s q a f a a s w q f x a z a a a w e q d x x a s w a a a a b b b x s s s j y r r d a a z a a a a "

>>> fd = FreqDist(text)

>>> fd

FreqDist({' ': 68, 'a': 25, 's': 6, 'b': 5, 'd': 5, 'w': 5, 'x': 4, 'z': 4, 'e': 3, 'q': 3, ...})

>>> fd.most_common(5)

[(' ', 68), ('a', 25), ('s', 6), ('b', 5), ('d', 5)]

 

なんと便利だろう!!

 

参考文献

1. Language Processing and Python