NLTK : 英語の文章を文または単語単位で分割する
論文中で、nltkを使って文章を文単位に分割したという記述が出てきたので、具体的にどうやってやるのか調べた。
文単位の分割
>> from nltk.tokenize import sent_tokenize
>> text = "This is a pen. Is this a pen?"
>> sent_tokenize_list = sent_tokenize(text)
>> print sent_tokenize_list
出力
['This is a pen.', 'Is this a pen?']
単語単位の分割
>> from nltk.tokenize import word_tokenize
>> text = "This is a test."
>> word_tokenize_list = word_tokenize(text)
>> print word_tokenize_list
出力
['This', "'s", 'a', 'test', '.']
非常にシンプルである!
[参考文献]