Matter Mind Meaning

思ったことを忘れてしまわないように書き留める

NLTK : 英語の文章を文または単語単位で分割する

論文中で、nltkを使って文章を文単位に分割したという記述が出てきたので、具体的にどうやってやるのか調べた。

 

文単位の分割

>> from nltk.tokenize import sent_tokenize

>> text = "This is a pen. Is this a pen?"

>> sent_tokenize_list = sent_tokenize(text)

>> print sent_tokenize_list

出力 

['This is a pen.', 'Is this a pen?']

 

単語単位の分割

>> from nltk.tokenize import word_tokenize

>> text = "This is a test."

>> word_tokenize_list = word_tokenize(text)

>> print word_tokenize_list

出力

['This', "'s", 'a', 'test', '.']

 

非常にシンプルである!

 

[参考文献]

Dive Into NLTK, Part II: Sentence Tokenize and Word Tokenize | Text Mining Online | Text Analysis Online | Text Processing Online