NLTK : 英語の文章を文または単語単位で分割する

論文中で、nltkを使って文章を文単位に分割したという記述が出てきたので、具体的にどうやってやるのか調べた。

文単位の分割

>> from nltk.tokenize import sent_tokenize

>> text = "This is a pen. Is this a pen?"

>> sent_tokenize_list = sent_tokenize(text)

>> print sent_tokenize_list

出力

['This is a pen.', 'Is this a pen?']

単語単位の分割

>> from nltk.tokenize import word_tokenize

>> text = "This is a test."

>> word_tokenize_list = word_tokenize(text)

>> print word_tokenize_list

出力

['This', "'s", 'a', 'test', '.']

非常にシンプルである！

[参考文献]

Matter Mind Meaning