Matter Mind Meaning

思ったことを忘れてしまわないように書き留める

論文紹介: Modeling Events through Memory-based, Open-IE Patterns for Abstractive Summarization

概要

抽象的要約(Abstractive Summarization)は文の要点をみつけ、短い文で言い表すタスクである。ニュース記事の抽象的要約のためには、ひとつのイベントに言及するたくさんの文をまとめて抽象的に表すことが必要である。紹介論文では、文から抽出されるイベントの表現(イベントパターン)を大量に集めてメモリ上に保存し、似通ったイベント表現のクラスタをイベントの抽象的表現とする。抽象的要約文を生成する場合は、元の文が属するクラスタを探し、次にそのクラスタに含まれる代表的なイベントパターンを選んで出力する。提案されたメモリに基づく手法は、ヒューリスティックに基づく手法、文圧縮に基づく手法と同一のコーパスを用いて比較され、人間の評価において可読性、有用性(情報の有用さ)がともに最高だった。

 

背景

情報抽出を超えた文書要約には、意味的表現を単語や句の表面的なレベルよりも抽象化し、その抽象化された意味表現から要約が生成されることが求められる。

 

ニュース記事で現れる文を抽象化するには、文からイベントに言及した表現(イベントパターン)を取り出し、イベントパターンを大量に集めてクラスタリングを行う。要約をするときは、はじめに与えられた文のイベントパターンが属するクラスタを同定する。次にそのクラスタに対応するイベントから簡潔なイベントパターンが選ばれ、簡潔な文に変換されて出力される。実際には、イベントパターン自体が文として完全であることを意図して作られる。従って、イベントパターンがそのまま要約文として出力される。

 

イベントパターンのクラスタを用いた意味表現の有用性は、イベントパターンやクラスタの質に左右される。多くの場合、イベントパターンは依存構造木の部分木を取り出すことで抽出される。具体的には知識ベースにおいて関係を持つ2つの実体に言及した文をみつけ、依存構造木でその2つの実体を指すノードを結ぶ経路をイベントパターンとして取り出す。この手法の問題は、抽出されたイベントパターンが文法的に正しいことが保証されないことである。これを解決するために、紹介論文ではニュース記事の見出しなど、文法的に正しいことが予めわかっている文をそのままイベントパターンとして保存する。

 

手法

抽象的要約においては、ヒューリスティックに基づく手法、文圧縮に基づく手法、メモリに基づく手法が考えられる。3つの手法は共に元の文を依存構造木として表現し、その部分木の集合の中からイベントを簡潔に表現しているものを選ぶ。

 

ヒューリスティックに基づく手法は、品詞タグの正規表現や、依存構造木から部分木を取り出す手書きルールなどを用いてイベントパターンを取り出す。この手法は関係抽出の分野でよく使われる。紹介論文で検討されている特定のヒューリスティック手法では、はじめに依存構造木上で2実体を結ぶ最小全域木をみつけ、そこから依存関係や品詞情報に着目した手書きルールを用いて部分木を拡大していく。

 

文圧縮に基づく手法は、依存構造木の各辺に重みを付け、いくつかの制約を満たす中で最小の重み和を持つ部分木を探す。既存手法とは別に紹介論文で提案されている新たな制約には、木の辺数(3から6)、実体が言及されていること、文節の主語が残っていること、木がひとつの文節に含まれることなどがある。

 

メモリに基づく手法は上述した2つの手法が持つ、イベントパターンの文法的正しさが保証されないという問題を克服する。あらかじめニュース記事の見出しなどの依存構造木をイベントパターンとしてメモリに保存しておく。入力文からイベントパターンを取り出したいときには、入力文の依存構造木の部分木で、メモリ上に存在するもの全てを取り出す。

 

イベントパターンの保存や検索を効率的に行うために幾つかの工夫がなされる。まず単語の表層を人名、場所、組織などのカテゴリに変換する。次に依存構造木を文字のベクトルとして表して、全てのイベントパターンをトライ木に保存する。

 

実験

実験では、抽象的要約の3つの手法が比較された。同じコーパスから各手法でイベントパターンを集める。次に同じアルゴリズムを使ってクラスタリングを行う。3つの手法で異なるのは文からどのようにしてイベントパターンを取り出すかである。

 

コーパスは2008年から2013年までにWeb上のニュース記事をクロールして得られたものを使う。事前処理として、品詞タグ付け、依存構造解析、共参照解析、FreeBaseおよびWikipediaを用いた実体リンク付けが行われた。コーパス中の文書は公開時間の近さと使用されている単語の種類によってグループ化された。

 

クラスタリングの手順は以下の通りである。

 

  1. コーパスからイベントパターンを全て取り出す
  2. 全てのニュース記事のグループCollと全ての実体の集合E(Eの例は{Jhon Smith, Mary Brown}など)に対して、Eの集合の要素である実体すべてに言及しているイベントパターンを集める。これらのイベントパターンは同じイベントに言及している可能性が高い
  3. クラスタリングアルゴリズムを走らせ、手順2で得られた各イベントパターン集合で互いに共起することが多いイベントパターンが同じクラスタに属するように学習する。学習アルゴリズムはNoisy-ORベイジアンネットワークを用いる

 

要約文生成の段階の手順は以下の通りである。ただし、一部簡単化してある。

 

  1. ニュース記事の見出しまたは最初の文が与えられた時、そこからイベントパターンを取り出す
  2. イベントパターンが属するクラスタを同定する
  3. クラスタを代表するイベントパターンを取り出す
  4. イベントパターンの文のうち、単語が単語のカテゴリに変換されているものを、入力文で対応する単語に置き換える

 

手法の性能の評価には2013年に集められた4万ほどのニュース記事が使われた。ニュース記事の文から各手法により簡潔な要約文が生成され、人間の評価者によって可読性、有用性(情報の有用さ)が5段階(高いほどよい)で評価された。評価の平均は以下の通りであった。

 

  • ヒューリスティック法:可読性3.95、有用性3.07
  • 文圧縮法:可読性3.98、有用性2.35
  • メモリ法:可読性4.20、有用性3.70

 

従って、論文で提案されていたメモリ法が他の手法を上回っていることがわかる。

 

参考文献

[Pighin et al. 2014] Pighin, D., Cornolti, M., Alfonseca, E., and Filippova, K. (2014). “Modelling Events through Memory-based, Open-IE Patterns for Abstractive Summarization.” In Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 892–901 Baltimore, Maryland. Association for Computational Linguistics.