Matter Mind Meaning

思ったことを忘れてしまわないように書き留める

論文紹介:Tagging the Web: Building a robust web tagger with neural network

概要

フィードフォワードニューラルネットワークを用いてWebテキストに品詞タグ付けを行う。ニューラルネットワークへの入力はWebテキストから学習された単語の分散表現と、スパースなn-gram に基づく素性が使われる。SANCL2012 shared taskによる評価では、2種類の素性を両方使うことにより、n-gram素性だけを使った場合に比べて1%ほど高い93.15の精度を得た。

 

背景

Webから情報を抽出する技術は自然言語処理の重要な研究分野であり、多くのタスクは品詞タグ付けを根本的な事前処理として必要とする。しかし、最高精度の品詞タガーは特定のコーパスに最適化されており、Webテキストに対する精度は十分ではない。

 

Webテキストは多様性に富み、品詞タグが付与された教師データよりも、アノテーションを受けていない生のデータの方が圧倒的に多い。従って、Webテキストに対する品詞タグ付けの精度を上げるためには、ラベル付されていないデータが持つ情報を積極的に活用することが必要と考えられる。

 

テキストデータの持つ統計的性質を教師なしで取り出す技術として、単語の分散表現が注目される。これは、各単語の他の単語との共起情報を、密なベクトル空間にマッピングする技術である。マッピングの方法としては、行列分解や、ニューラルネットワーク、トピックモデルなどが使われる。

 

手法

紹介論文では、まず単語の分散表現をWebテキストから学習し、次にその表現を用いて品詞タグ付けの教師あり学習を行う。

 

単語の分散表現はRBMを用いたn-gram言語モデルの推定によって学習される。このとき、入力層は一般的な離散表現ではなく、実数ベクトルを用いる。これにより、入力層の次元を大きく抑えることが可能になる。この入力層の実数ベクトルが単語の分散表現に対応する。4-gramをn-gramとして選択すると性能が最も良くなる。

 

品詞タグ付けの教師あり学習は、フィードフォワードニューラルネットワークにより行われる。入力層はn-gramの各単語のベクトル表現および既存手法で提案されたスパースな素性である。スパースな素性は紹介論文ではフォーカスされていない。中間層では(ニューラルネットワークの常として)入力層の値が非線形に混ぜ合わされる。出力層では、各ユニットが単語と品詞の全組み合わせのひとつを表す。最も出力の大きいユニットが、モデルが最も自信を持つ品詞タグ付けと解釈される。

 

品詞タグ付けは次のように行われる。まず、出力層のユニットの値が最大である単語・品詞ペアが選ばれ、そのペアに関しては品詞が決定する。次に、残りの単語に関して同じことを行う。これを単語が無くなるまで繰り返す。このような決定法はEasy First Taggingと呼ばれる。単に決定を行うだけでなく、それぞれの決定(この場合は各単語の品詞タグ付け)を行う順序までもシステムに任せるという考え方である。

 

学習はバックプロパゲーションによる。評価関数は、次式で定義されるマージン損失関数である。

 

            max(0, 1 + nn(w’,t’) - nn(w^,t^))   … (1)

 

ここで、単語・品詞ペア(w’,t’)はモデルと教師が食い違うペアの中で、モデルが最大の評価をしたものである。ペア(w^,t^)はモデルと教師が一致するペアの中で、モデルが最大の評価をしたものである。nn(w’,t’), nn(w^,t^)はニューラルネットワークがそれぞれのペアに対して行った評価を表す。実数1はマージンの値である。すなわち、この評価関数は正しい予測と間違っている予測との間の評価の差が1以上ならば満足し(0を出力)、1以下ならば文句(正の値を出力)を言う。

 

実験

実験ではSANCL2012 shared taskに取り組み、性能を評価した。このタスクはWebドメインで汎用的に使える構文解析システムを開発することを目的とする。ラベル付けされたデータとラベル付けされていないデータから構成されている。

 

事前処理として、括弧、数字、URL、引用符、連続する文字などがひとつの記号に置き換えられる。これはWebテキストの乱雑さを抑えるために必要であり、行わない場合には精度が落ちる。

 

実験結果によれば、単語の分散表現を使用しないで、既存のスパースな表現のみを用いた場合の精度は92.02であり、分散表現を使った場合の精度は93.15であった。

 

実験結果は、教師なし学習によって得られた単語の分散表現がラベル付けされたデータの不足したWebテキストの品詞タグ付けに役に立つことを示している。

 

参考文献

[Ma et al. 2014] Ji Ma, Yue Zhang, Tong Xiao, and Jingbo Zhu. 2014. Tagging the Web: Building a robust web tagger with neural network. In Proceedings of the Annual Meeting of the Association for Computational Linguistics, Proceedings of the Conference (ACL). The Association for Computer Linguistics.