文の意味を表すためのアイデア
文法に従って単語を組み合わせることで、言葉が生まれる。同様にして、ある枠組みに従って、具体的な情報を組み合わせることで言葉の意味が表現されると考える。この枠組みをフレームと呼ぼう。フレームにはスロットがある。
文の意味は、適切なフレームを選択して、そのフレームのスロットの値を埋めることで表現される。スロットに異なるフレームへのポインタを埋め込むことも出来る。スロットに値が埋め込まれたフレームに対して「驚き」を定義する。「犬は動物である」という文の意味をフレームで表現した時の驚きは小さくなってほしい。これを行うには、テキストを利用した教師なし学習によりテキスト中に存在する文の意味の驚きを最小化する。驚きは確率によって表現される。フレームを用いた推論は条件付き確率を計算することで行われる。犬が人を噛んだとき、その人がいい気分になったか悪い気分になったかは、次のように判断する:(1)犬が人を噛んだことを表すフレームAと、そのあとで噛まれた人の気分が{良く|悪く}なったことを表すフレームBを作成する。(2)条件付き確率P(B|A)を計算し、確率が大きい方を実際の出来事と判断する。
以上がアイデアの概要だが、これを具体的な形にするためには次のことを行わなければならない。
- フレームを網羅的に定義する
- 文からフレームを導出するための手続きを定める
- フレームから確率を求める手続きを定める
上の問題が解決されたと希望的に考えて、文が与えられた時にこのフレーム意味解析システムがどのように推論を行うかを以下に描く。[ ]で囲まれているのはスロットである。
___________________________________________________________
例文:
- 「リサはキッチンでニュースペーパーを取ってリビングルームに行った」
使用フレーム:
- [いつ]、[どこに]、[何が]あったか
- [いつ]、[誰が]、[何を]引き起こしたか
- [いつ]、[何が]、[どこから]、[どこに]移動したか
導出されたフレーム:
- [時間1に]、[キッチンに]、[リサが]あった
- [時間1に]、[キッチンに]、[ニュースペーパーが]あった
- [時間2に]、[リサが]、[*]を引き起こした
- *:[時間2に]、[ニュースペーパーが]、[キッチンから]、[リサに]移動した
- [時間3に]、[リサが]、[キッチンから]、[リビングルームに]移動した
次のフレームの驚きを計算しなさい:
- [時間3に]、[ニュースペーパーが]、[キッチンから]、[リビングルームに]移動した
結果:
- 摩訶不思議な確率推論システムにより、上のフレームの驚きは0.036だと求められた!!
- 推論システムはほとんど驚いていないようなので、ニュースペーパーがキッチンに行ったことは非常にもっともらしい
___________________________________________________________
この簡単な例でも、いろいろおかしいところがある。リサがニュースペーパーを取ったときに、ニュースペーパーはまだキッチンに存在している。この事実は上のフレーム表現では無視されている。さらに、ニュースペーパーはリサに行ったというよりも、リサの手に渡ったと言った方が正確である。
ということで、まだまだ不完全なアイデアである。
言語学者のジョージ・レイコフやレイ・ジャッケンドフなどの本を読んでこのアイデアについて考えるようになった。フレームのような様々な考えを表すのに共通して使える道具があるという点で二人は一致している。レイコフは身体的な経験からフレームを作り出し、メタファーによってフレームの使用範囲を広げるのだと主張している。ジャッケンドフはフレームは生得的に存在しており、形式的に表現可能であり、抽象的ルールを具体的対象に適用するのだとしている。
ただし、フレームに対して確率を計算することは自然言語処理で最近注目されている分散的意味表現の研究に影響を受けた。この考え方では、言語モデル(文章の途中までが与えられた時に、その後に続く単語列を予測するモデル)を学習したときに、モデルに存在する単語ごとのパラメータが単語の意味を表すのだと考える。素晴らしいのは、パラメータの値はテキストに現れる単語の統計的振る舞いを調べることで決定可能であるという点である。事実上、単語の意味の絶妙なニュアンスを表現する方法はこれ以外にないと思う。
形式主義とコネクショニズムの対立図式は、両者の中間に正しい答えが存在すると言われる。上で紹介したアイデアでは、このような「中庸」の精神は以下の特徴に現れている。
形式主義的な特徴:
- 統語構造として、(1)フレームの種類、(2)スロットの種類、(3)スロットへの埋め込み方法を備えている
- 意味構造として、フレームに対する確率を計算する方法を備えている
コネクショニズム的な特徴:
- フレームに対する確率モデルのパラメータは数値で表現される
- パラメータの値は統計的機械学習により定められる
完全に形式的な手法として論理を採用するならば、確率の代わりに真偽値を使う。そしてパラメータを学習によって獲得する代わりに、人手でゴリゴリと公理を書きまらなければならない。それは気の遠くなるような作業だろう(論理については全く無知なので、適当な予想だが)。