Matter Mind Meaning

思ったことを忘れてしまわないように書き留める

2015-04-01から1ヶ月間の記事一覧

NLTK: 英単語の語幹を取り出す(stemming)

語幹(stem)とは単語を構成する形態素のうち、主な意味を担うものである。nltkでは語幹を取り出す関数が用意されている。 >>> from nltk.stem.porter import PorterStemmer >>> st = PorterStemmer() >>> st.stem("unbelievable") u'unbeliev' >>> st.stem(…

NLTK: 単語数をカウント

単語数をカウントすれば、ストップワードやレアワードの辞書を簡単に作ることが出来る。nltkではこれを行う関数が用意されている。 >>> from nltk import FreqDist >>> text = "a a a b b a a c c d d e e w w a a z z d s q a f a a s w q f x a z a a a w …

論文紹介:Natural Language Processing from (almost) Scratch.

概要 フィードフォワードニューラルネットワークを用いて品詞タグ付け、チャンキング、固有表現抽出、意味役割付与のタスクに取り組む。意味役割付与以外は同じモデルを用いる。入力素性を作るための工学的負担は最小限にする。ラベル付けされていないデータ…

ニューラル言語モデルを高速化する2つの方法

ニューラル言語モデル(ニューラルネットワークによりn-gram確率を予測するモデル)は、2つの工夫をすることで、テスト時(学習が終わって、モデルを実際に使う段階)に高速化が可能である。 (1)出力層の正規化 ニューラル言語モデルは出力層にsoftmax関…

論文紹介: Modeling Events through Memory-based, Open-IE Patterns for Abstractive Summarization

概要 抽象的要約(Abstractive Summarization)は文の要点をみつけ、短い文で言い表すタスクである。ニュース記事の抽象的要約のためには、ひとつのイベントに言及するたくさんの文をまとめて抽象的に表すことが必要である。紹介論文では、文から抽出される…

論文紹介:Tagging the Web: Building a robust web tagger with neural network

概要 フィードフォワード・ニューラルネットワークを用いてWebテキストに品詞タグ付けを行う。ニューラルネットワークへの入力はWebテキストから学習された単語の分散表現と、スパースなn-gram に基づく素性が使われる。SANCL2012 shared taskによる評価では…

NLTK : 英語の文章を文または単語単位で分割する

論文中で、nltkを使って文章を文単位に分割したという記述が出てきたので、具体的にどうやってやるのか調べた。 文単位の分割 >> from nltk.tokenize import sent_tokenize >> text = "This is a pen. Is this a pen?" >> sent_tokenize_list = sent_tokeniz…

論文紹介: A Bayesian Approach to Unsupervised Semantic Role Induction

概要 紹介論文[Titov and Klementiev 2012] では、教師なし学習により意味役割を付与する。これは述語項同定と項のクラスタリングからなる2ステップで行われる。述語項同定は依存構造木からヒューリスティック手法を用いて判別する[Lang and Lapata 2011]。…

論文紹介:Information Extraction over Structured Data: Question Answering with Freebase

概要 FreeBase知識ベースを用いた質問応答は、open domain semantic parsingの発展のたたき台として注目されている。既存の多くの手法では、質問文を洗練された意味表現に直してから知識ベース中の回答候補と照応させている。これに対して、本論文(Yao et al…