Matter Mind Meaning

思ったことを忘れてしまわないように書き留める

論文紹介:Information Extraction over Structured Data: Question Answering with Freebase

概要

FreeBase知識ベースを用いた質問応答は、open domain semantic parsingの発展のたたき台として注目されている。既存の多くの手法では、質問文を洗練された意味表現に直してから知識ベース中の回答候補と照応させている。これに対して、本論文(Yao et al 2014)では比較的率直な情報抽出技術をWebスケールで適用した手法を用いている。

タスク

ファクトイド質問に対して、FreeBaseを探索して答えを出す。データは(Berant et al.2013)で集められたWEBQUESTIONSを使う。これはGoogle Suggestサービスを利用して集められた5810個の質問文にAmazon Mechanical Turkで(複数の)答えを付与したコーパスである。答えの中の少なくともひとつはFreeBaseのノードを含んでいる。以下はコーパスの中の問題の例である。

   Q: What is the name of justin bieber brother → A: Jaxon Beber

質問文は文法的に誤りがあることに注意する。実際的な質問応答システムはこのようなノイズにも対処できなければならない。

 

手法

 既存手法では質問文を洗練された意味表現に変換してから知識ベースに照応していた。提案手法では、まずFreeBaseから大雑把に回答候補を抽出し、次に各回答候補が正解であるかどうかをロジスティック回帰により判別する。候補ごとに独立に判別を行うのは、質問に対する答えが複数存在する場合があるからである。

 

処理の流れ

人間がジャスティン・ビーバーの兄弟の名前は何かという質問の答えを探しだす場合、まずJustin Bieberで検索をかける。すると、FreeBaseは一種の意味ネットワークであるため、Justin Bieberのノードから出るリンクとリンクのもう一方のノードの一覧が表示される。この、Justin Bieberのノードを中心とする部分グラフ(FreeBaseトピックグラフ)から、siblingというリンクを辿り、正しい答えであるJaxon Bieberを見つけることができる。提案手法はこの過程をモデルにしている。以下に処理の流れをスッテプごとに示す:

①質問文を依存構造木に変換する(論文では、依存構造木は質問に答えるための有用な情報を多く含むと議論されている)

②依存構造木のノードにラベル付けする。ラベルはquestion featureと呼ばれ、question word, question verb, question focus, question topicの4種類がある:

  1. question word (qword): what, who, whom, how, when, where, which, why, whoseなどの疑問代名詞
  2. question verb (qverb): is/play/takeなど質問文の主動詞
  3. question focus (qverb): name/money/timeなど質問の答えが属するタイプの手がかり。例えば、What is the place of ~という質問文ならば、qfocus = placeとなる
  4. question topic (qtopic): FreeBaseでサーチを行うときのキーワードとなる単語。論文では単純に、固有表現を抽出してqtopicとしている。

③依存構造木を②で決められたラベルをもとに質問素性グラフと呼ばれる構造に変換する。具体的には、処理は以下の通り:

  1. もしもノードの単語がquestion featureを持つならば、what → qword=whatのように変換する
  2. (1の特殊な場合)もしもqtopicのquestion featureを持つ単語が固有表現であるならば、その単語を固有表現のタイプに変換する。例えば、bieber → qtopic=pesonのように変換する
  3. 前置詞、句読点、冠詞などのノードは除去する。

論文では、このステップ③によりステップ①で出来た依存構造木が変換される様子が図示されている。

④質問素性グラフからロジスティック回帰で使用される素性を取り出す。後述するように、この組成がそのまま使われるのではなく、FreeBaseのトピックグラフの素性と組み合わせて使われる。

⑤ステップ②でqtopicをラベル付された単語(トピック)を使って、FreeBaseに検索をかける。これによりそのトピックを中心ノードとする部分グラフが求められる。これはFreeBaseトピックグラフと呼ばれる。トピックグラフは複数あり得る。トピックとリンクで結ばれているノードが回答候補となる。

⑥トピックグラフのノードの素性が取り出される。素性は、ノードの属性およびトピックとの関係である。

⑦質問素性グラフの素性とトピックグラフのノードの素性の直積をとって、回答候補を評価するロジスティック回帰モデルの素性が作られる。

⑧ロジスティック回帰により、各回答候補が正解であるかどうかが判別される。

 

ロジスティック回帰モデルの重みパラメタはL1正規化を行った最尤法で求められる。L1正規化により重みのスパース性が促進され、約700万次元の素性ベクトルの要素のうち対応する重みが非ゼロであるものは3万個に抑えられた。

 

また、質問素性グラフから素性を取り出す際、FreeBaseの関係と自然言語の質問文とのマッピングを表す素性が付け加えられている。この素性は、大規模なClueWeb09コーパスの文からFreeBaseで関係を持つ2つのノードが含まれているものを取り出し、それらの文がFreeBaseにおける2ノードの関係を言及していると仮定して、確率 P(関係|質問文)を計算する。この確率をもとに素性が作られる。


実験結果
WEBQUESTIONSのうち、テストデータに選んだものを解いた結果は、精度38.8, リコール45.8, F値42.0となった。

参考文献

(Yao et al. 2014) Xuchen Yao and Benjamin Van Durme. 2014. Infor- mation extraction over structured data: Question an- swering with freebase. In Proceedings of ACL.
(Berant et al. 2013) Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. 2013. Semantic Parsing on Freebase from Question-Answer Pairs. In Proceedings of EMNLP.

 

脳はどうやって大きくなったか

ヒトとチンパンジーの遺伝子は95%ほど一致する。ところが脳の容積比は3対1と非常に大きい。ヒトだけが持つ5%の遺伝子のうちのどれかが人間の脳の大きさに影響を与えているはずである。この影響はどのようなものなのだろうか。これを知るためには、遺伝子の働きについて理解する必要がある。

生物学のセントラルドグマによれば、DNAはメッセンジャーRNAに転写され、メッセンジャーRNA酵素に翻訳される。酵素が集まって細胞が作られ、細胞が集まって身体が出来る。最も普通の遺伝子は、1種類の酵素を作るのに必要なDNAの連なりで、シストロンと呼ばれる。ただし、すべての遺伝子が酵素を符号化しているわけではない。オペロンという遺伝子はシストロンが発現するかどうか(つまり、酵素として翻訳されるのか無視されるのか)や、翻訳される場合にどれだけの量の酵素を生産するかを定めている。もちろん、オペロンが別のオペロンの発現を制御することもある。このようにして、プログラミング言語のサブルーチンのような階層構造が生まれる。

遺伝子がシストロンとオペロンに大別されるのだとすれば、ヒトとサルの脳容積の違いを説明する遺伝子もこれらのうちのどれかのカテゴリに分類できるはずである。もちろん、複数の遺伝子が関与しているだろうからそう簡単に答えられるものではない。それにもかかわらず、最新の研究成果ではオペロン説を支持する証拠が得られている。

この研究では、ヒトとサルの共通の先祖が持っていた遺伝子のうち、進化の過程で分化したものをみつけた。DNAの塩基配列のパターンもその機能も似通っているが、突然変異によって一部の塩基が{追加/削除/置換}されて変化している。この結果、機能にも若干の差異が生まれている。さらなる解析で、この遺伝子がオペロンであり、神経幹細胞の遺伝子の発現を制御することがわかった。

さて、研究者たちはこの遺伝子のヒトバージョンとサルバージョンを、遺伝子工学によってマウスの遺伝子に移植した。マウスは胚として子宮の中で育てられた。ただし、倫理的な問題(ヒトの脳の遺伝子を持つマウスを作っていいの?)から、子マウスは誕生する前に処分された。

マウスの胚は、ヒトバージョンの遺伝子を持つ方とサルバージョンの遺伝子を持つ方で劇的な差異を示した。ヒトバージョンの胚は、脳の容積が12%大きかったのである。12%は300%と比べると小さい。しかし、重要なのはたったひとつの遺伝子の違いだけで12%もの増大がもたらされたということである。遺伝子はオペロンであるため、それ自体は酵素に翻訳されない。つまり、新しい種類の神経細胞が出来たわけではない。むしろ、既存の神経細胞の生産数が増加したと考えられる。この結果は、ヒト進化における脳容積の増大が、主にオペロン型遺伝子の突然変異によるものであることを示唆している。

ヒトの知能の高さは、脳が大きいこと以外にも原因がある。実際、ヒトとチンパンジーでは脳に存在する酵素の種類に違いがある。従って、神経細胞の機能が異なることは大いに考えられる。結局のところ、神経細胞の高性能化と生産数の変化の両方が相乗効果を生んでいるという解釈が正しいだろう。

しかし、たった1個の遺伝子の違いが脳容積を劇的に変化させることは、脳の機能について楽観的な考えを生む。それは、遺伝子は神経細胞一個の設計については詳細に考えているが、複数の神経細胞が互いに協力して作る機能モジュールの設計は案外適当にやっているということである。何故なら、遺伝子が1個変化するだけで神経細胞の数が劇的に変化するのならば、それらが全体としてどう振る舞うべきかを考える暇など無いからである。

ところで、SF作家デイビッド・ブリンによる知性化シリーズでは、遺伝子工学によってイルカとチンパンジーの知能を人間並みにし、人類が宇宙に進出する際にも共に宇宙船に乗り組んでいる。イルカは空間感覚に優れるためにパイロットとして重宝される。チンパンジーは偏執狂で、ひとつのことに極端に集中するため、科学者として優秀である。それぞれの種族の個性が役に立っている様子が描かれて面白い。

この投稿で紹介した研究結果で、知性化シリーズは現実味を増す。もともと高度な知能を持つ高等動物(カラス、イルカ、チンプ、ゴリラなど)にヒトの遺伝子をいくらか移植するだけで知能が急に上昇するという話は、研究成果をみるかぎり十分考えられる。実際、倫理的な問題が無ければ明日にでも実現する可能性がある。

 

グレッグ・イーガン「白熱光」:銀河の中心での発見の物語

「白熱光」は、ハードSFの第一人者として知られるグレッグ・イーガンの邦訳最新作である。Kindle版を読んだ。面白かった。

小説は偶数章と奇数章で別の物語が展開され、章が進むにつれ2つの物語が接近していくという手法を用いている。

奇数章では、イーガンの小説でいうと「ディアスポラ」と似た世界が舞台になっている。人類を含む知的生物の多くはソフトウェアとしての体と物理的体を時と場合に応じて使い分けており、恒星間移動は銀河中に張り巡らされたネットワークを利用して人格ソフトウェアを送信することで行われる。送信時に人格データ は保存されないので、移動するたびに人格が分裂するという心配は無い。ただし、不足の事態に備えて覚醒していないバックアップは保存されており、合図があれば覚醒されるようになっている。こういうわけで、銀河系の生物は宇宙の終わりまで続く不死状態を手に入れてしまっている。

奇数章の主人公ラケシュは、「まだなされていないことはない。まだ発見ずみでないものはない」といって悩んでいる約一千歳の「若者」である。仲間と共に銀河ネットワークの中継ノードに暮らしており、新しい知識を持った旅人が現れるのを96年間待ち続けている。この時代、銀河は大きく2つの世界に分けられており、銀河の中心部に存在する孤高世界は、ラケシュたちが住む銀河の周辺部の融合世界との交流を拒んでいた。ある日、ラールという謎の人物がラケシュのもとを訪れた。孤高世界を見てきたという。孤高世界には、まだカタログに載っていないDNA型生物が存在することを知ったラケシュは、友人のパランザム(強気な少女。ソフトウェア生まれ。ラケシュは人類の子孫のDNA生まれ)を連れて孤高世界へと向かう。

偶数章では、適切な状況下に置かれた知的生物が電磁気学ニュートン力学の発展を通り越し、一世代で一般相対性理論を発見するまでの様子を描いている。 「適切な状況下」というのは 当然、人間の生活する状況とは全く異質なものである。銀河の中心、星々が密集し消滅と生成を繰り返す危険な領域、そこにスプリンターがある。スプリンターは、高重力の「ハブ」の周りを公転する 楕円形の小惑星である。スプリンターの中のトンネルに生息するのは、昆虫に似た社会性の動物で、社会の役に立つ労働を行うことに本能的な喜びを感じる。題名の白熱光とは、ハブの周りにある天体からの光が重力に引き寄せられてスプリンターに到達したものである。高重力のハブの周りを回っている ために生じる潮汐力と、高速で自転するために生じる遠心力が合わさり、スプリンター内部は地域によって重力の向きと大きさが異なり、公転円周を貫く中心部だけが無重力状態になっている。昆虫型生物はこのような環境で大きな危機に直面し、そのたびごとに科学技術を発展させて立ち向かっていく。

偶数章の主人公はロスという女性である(虫なんだけどね)。ある日、労働がもたらした帰属意識に満足しながら休息場所を探していると、ザックという老人に出会った。ザックはスプリンターの中心部で物体の「重さ」を支配する物理法則を研究しており、スプリンター全体の重さの地図を作るというプロジェクトを一人で行なっていた。 好奇心からザックに協力したロスは、ザックと共に理論を発展させていき、スプリンターが円周状の軌道をまわっていることを突き止める。ロスとザックが仲間を集め、空間と時間と重さの関係を支配する幾何学をみつける巨大事業を行おうとしていた矢先、スプリンターは光り輝く謎の物体と衝突し、軌道が不安定になってしまう。このときから、ロスとザックの物理学を応用してスプリンターを安定な軌道上に動かそうという試みが始まった。それまで慣習化された労働を 行なってきたスプリンターの住民に変化がおとずれ、科学を進めて新しい社会を築こうとする若い世代の天才たちが次々と現れ始める。摩擦熱によって光を発生 させる装置、光と鏡によって通信を行う装置、時計などが発明され、社会は急進的なスピードで発展していく。

奇数章で描かれるのは、銀河の中心部を舞台としたラケシュたちの冒険であり、偶数章はロスを中心とした人々による科学的知識の発見の物語である。ラケシュたちはスプリンターに似た天体をみつけはするものの、ロスの物語とラケシュの物語が直接交わることはない。しかし、2つの物語の関係は終盤で明かされ、孤高世界の起源や、なぜ孤高世界はラケシュたちを読んだのかについての謎が解かれる。最後に伏線を一気に回収するところが、この小説で最もセンスオブワンダー(=SFで描かれる世界への驚異を伴った感動)を感じる箇所だった。

 正直、ロスたちが頑張って考えた理論は全く理解出来なかった。数学的に高度な内容だというのももちろんあるが、何より複雑な位置関係が文章で説明されるので、想像力がついていけなかったのが大きい。ただ、「こいつら(ロスとザックと仲間たち)みんな頭いいんだなあ」と感心するばかりだった。とりあえず、なんとなく理論が正しそうに思えたらよいのではないだろうか。もちろん、通な読者は文章から数式や図を書き起こして、理論的に検証するという楽しみ方もあるのだろうけど。

細部の描写でおもしろいなと感じたのは、ラケシュたちが反射望遠鏡をたくさん作って、それらを宇宙空間で広げて配置することで、全体として巨大な望遠鏡を作ったところ。この望遠鏡で数光年離れたところの全長600メートルの小惑星を発見してしまう。

あとは、異星人の生殖方法。男は植物のように種を体の内側に作るのだが、種が熟すとそこから出る毒素によって耐え難い苦痛を感じる。その苦痛を取り除くには女が持っているハサミのような前脚が使われるという仕組みである。女は種を刈り取ったあと自分の体内で育てる。このとき快楽を多少は感じるが、男の種を刈り取る理由はむしろ哀れみによるものが大きいらしい。

この小説の異星人は人間とかなり似ていて、異質さが感じられるのは、労働による帰属意識とこの生殖方法ぐらいである。異星人のそういう描き方は、「龍の卵」というSF小説でのチーラに近いと思う。

全体として、時間的にも空間的にも圧倒的な「遠さ」を感じた。こういう現実離れした雰囲気に恍惚とするのが、この小説の楽しみ方だろう。

 

最後にグレッグ・イーガンについて少し。イーガンはSF作家の中でもドが付くほどのハード路線を貫いており、読みこなすには理数系科学の相当な知識を要求される。僕自身は理系だが、情報系専攻であるので(言い訳)、量子論相対性理論などが絡むともうついていけなくなる。だから、イーガン作品ではコンピュータサイエンスに大きな重点がある「順列都市」が一番理解しやすかった。

しかし、専門知識がなくてもイーガンの作品はおすすめできる。なぜなら、人間が抱く根源的な問題を扱っている作品が多いからだ。脳の快楽中枢をソ フトウェアにより制御することで自分が持つ価値観を自分で決める話(「しあわせの理由」)や、脳を破壊的にスキャンして意識をバーチャル世界にアップロー ドす るとき、ある種の夢をみるが、それが臨死体験に似ており、ならば意識のアップロードは死と何が違うのかという話(「移相夢」)などはテクノロジーによって 自分自身の精神を操作可能になった状況におけるアイデンティティの問題が取り上げられている。極端な例を想定して思考実験を行うのだが、科学的実現可能性を制約とすることで、実験の尤もらしさが増す効果を生んでいる。

イーガンの長編で邦訳されたものは「白熱光」の他に、「順列都市」、「宇宙消失」、「万物理論」、「ディアスポラ」がある。「順列都市」では人類がソフトウェア化されはじめ、物理的世界と仮想世界が共存する過渡期の世界が描かれている。「宇宙消失」は量子論観測問題を扱っている。「万物理論」は宇宙に存在する4つの力を統合する、物理学の究極的理論を発見する物語である。「ディアスポラ」では、ソフトウェア化された人類が銀河系を超えて宇宙全体に離散していく壮大な話が 語られる。

 

 

ボールドウィン効果ってすごい

あるところにラマルクという男とダーウィンという男がいた。ラマルクは、「生きている間に努力したことや学んだことは次の世代にも伝わるよ」と言った。ダーウィンは、「そんなわけ無いじゃん」と言った。時は流れ、獲得形質は遺伝しないということが確定した。ダーウィンの勝利である。

それにもかかわらず、生物の学習能力は進化に影響を与えるという。これは以下の過程に基づく。

  1. 生物が学習により生存に役立つ技能を獲得したとする
  2. その生物は自然淘汰に選択され、生物が役に立つ技能を学ぶ能力が子孫に伝達される(注意:技能そのものではなく技能を学ぶ能力が遺伝する)
  3. 次の世代では、競争が激しくなり、役に立つ技能をただ学ぶだけでなく、より速く学んだ個体が生き残るようになる
  4. 3のプロセスが何世代も繰り返されると、やがて生存に役立つ特定の技能を学ぶ能力は極限まで高められ、生まれた時からすでにその技能を持つようになる。すなわち初期の世代で学習により獲得された能力が、新しい世代にとっては本能になる
  5. こうして、長期的には獲得形質が子孫に伝わることになる

この過程はボールドウィン効果と呼ばれる。もちろん、ボールドウィンという人がはじめてこういうことを主張したからその名前が付いた。この説(学習能力が進化の方向を決めるという説)は、本能だけでなく、生物の身体の形がどのようにして進化したのかも説明する。

もしも、突然変異によって指の数が3本ではなく、5本になったならば、学習能力の無い生物は余分な2本の指を制御するような本能が無いために、生存上不利になる。ところが、学習能力のある生物は5本指の使い方を学び、うまく行けば3本指には夢にも思い浮かばないことを出来るようになり、その結果、他の個体との競争に勝てるかもしれない。いったん身体的特徴の変異を行えば、ボールドウィン効果が働き、はじめは学習によって使い方を学ぶとしても、最終的には生まれつきの本能によって制御出来るようになる。このようにして、身体的特徴の枝分かれが生じる。概して、学習能力が高ければ高いほど思い切った身体の改革を行えるので、進化による身体的特徴の多様化が進むことになる。どのような学習を行えるかが、生存に有利な突然変異の方向を定める。

5億年ほど前に起こったとされるカンブリア大爆発では、生物の遺伝的多様性が爆発的に増大し、現存ずるすべての生物の門(生物のボディプランに基づく分類)が突如として出揃った。カンブリア爆発の原因はひとつでは無いだろうが、ボールドウィン効果は明らかに関わっているだろう。よく言われるシナリオを以下に紹介する。

  • カンブリア紀に入り、何らかの理由(地質活動の非活発化?)により、海の水が澄んで、透明になった
  • すると、光を感じるセンサーを備えることの利点が高まり、目が誕生した
  • 視覚情報の複雑さに対処するため、神経系も複雑になった
  • 副次的な効果として、神経系の一般的な学習能力(容量、アルゴリズム)が上昇した
  • かくして、ボールドウィン効果が起こり、多様化が一気に進んだ

生得論と経験論のよくある論争は、こんな風に決着するのではないだろうか:生得能力も長い目で見れば学習されたものである。生得による能力と経験による能力の違いは、進化によって学習したのか、神経系の可塑性によって学習したのかの違いである。進化は試行錯誤による学習である。神経系の可塑性は、一般的には試行錯誤によるものであるとされる。ここから、両者はプログラムの2重ループのようなものだと考えられる。外側にあるループは進化による試行錯誤を表し、内側のループは個体の経験からの学習による試行錯誤を表す。

、とすると、近年流行しているビッグデータ主導のコネクショニスト認知パラダイムは案外正しいのかもしれない。つまり、コネクショニストは生得的能力に関する明らかな事実を無視するが、与えるデータが質的、量的に充分であるならば、学習単独でも進化の過程を再現して、生得的能力と同等のものを備えられるかもしれない。

 

 

文の意味を表すためのアイデア

文法に従って単語を組み合わせることで、言葉が生まれる。同様にして、ある枠組みに従って、具体的な情報を組み合わせることで言葉の意味が表現されると考える。この枠組みをフレームと呼ぼう。フレームにはスロットがある。

文の意味は、適切なフレームを選択して、そのフレームのスロットの値を埋めることで表現される。スロットに異なるフレームへのポインタを埋め込むことも出来る。スロットに値が埋め込まれたフレームに対して「驚き」を定義する。「犬は動物である」という文の意味をフレームで表現した時の驚きは小さくなってほしい。これを行うには、テキストを利用した教師なし学習によりテキスト中に存在する文の意味の驚きを最小化する。驚きは確率によって表現される。フレームを用いた推論は条件付き確率を計算することで行われる。犬が人を噛んだとき、その人がいい気分になったか悪い気分になったかは、次のように判断する:(1)犬が人を噛んだことを表すフレームAと、そのあとで噛まれた人の気分が{良く|悪く}なったことを表すフレームBを作成する。(2)条件付き確率P(B|A)を計算し、確率が大きい方を実際の出来事と判断する。

以上がアイデアの概要だが、これを具体的な形にするためには次のことを行わなければならない。

  • フレームを網羅的に定義する
  • 文からフレームを導出するための手続きを定める
  • フレームから確率を求める手続きを定める

上の問題が解決されたと希望的に考えて、文が与えられた時にこのフレーム意味解析システムがどのように推論を行うかを以下に描く。[ ]で囲まれているのはスロットである。

___________________________________________________________

例文:

  • 「リサはキッチンでニュースペーパーを取ってリビングルームに行った」

使用フレーム:

  • [いつ]、[どこに]、[何が]あったか
  • [いつ]、[誰が]、[何を]引き起こしたか
  • [いつ]、[何が]、[どこから]、[どこに]移動したか

導出されたフレーム:

  • [時間1に]、[キッチンに]、[リサが]あった
  • [時間1に]、[キッチンに]、[ニュースペーパーが]あった
  • [時間2に]、[リサが]、[*]を引き起こした
  • *:[時間2に]、[ニュースペーパーが]、[キッチンから]、[リサに]移動した
  • [時間3に]、[リサが]、[キッチンから]、[リビングルームに]移動した

次のフレームの驚きを計算しなさい:

  • [時間3に]、[ニュースペーパーが]、[キッチンから]、[リビングルームに]移動した

結果:

  • 摩訶不思議な確率推論システムにより、上のフレームの驚きは0.036だと求められた!!
  • 推論システムはほとんど驚いていないようなので、ニュースペーパーがキッチンに行ったことは非常にもっともらしい

___________________________________________________________

この簡単な例でも、いろいろおかしいところがある。リサがニュースペーパーを取ったときに、ニュースペーパーはまだキッチンに存在している。この事実は上のフレーム表現では無視されている。さらに、ニュースペーパーはリサに行ったというよりも、リサの手に渡ったと言った方が正確である。

ということで、まだまだ不完全なアイデアである。

言語学者のジョージ・レイコフやレイ・ジャッケンドフなどの本を読んでこのアイデアについて考えるようになった。フレームのような様々な考えを表すのに共通して使える道具があるという点で二人は一致している。レイコフは身体的な経験からフレームを作り出し、メタファーによってフレームの使用範囲を広げるのだと主張している。ジャッケンドフはフレームは生得的に存在しており、形式的に表現可能であり、抽象的ルールを具体的対象に適用するのだとしている。

ただし、フレームに対して確率を計算することは自然言語処理で最近注目されている分散的意味表現の研究に影響を受けた。この考え方では、言語モデル(文章の途中までが与えられた時に、その後に続く単語列を予測するモデル)を学習したときに、モデルに存在する単語ごとのパラメータが単語の意味を表すのだと考える。素晴らしいのは、パラメータの値はテキストに現れる単語の統計的振る舞いを調べることで決定可能であるという点である。事実上、単語の意味の絶妙なニュアンスを表現する方法はこれ以外にないと思う。

形式主義とコネクショニズムの対立図式は、両者の中間に正しい答えが存在すると言われる。上で紹介したアイデアでは、このような「中庸」の精神は以下の特徴に現れている。

形式主義的な特徴:

  • 統語構造として、(1)フレームの種類、(2)スロットの種類、(3)スロットへの埋め込み方法を備えている
  • 意味構造として、フレームに対する確率を計算する方法を備えている

コネクショニズム的な特徴:

  • フレームに対する確率モデルのパラメータは数値で表現される
  • パラメータの値は統計的機械学習により定められる

完全に形式的な手法として論理を採用するならば、確率の代わりに真偽値を使う。そしてパラメータを学習によって獲得する代わりに、人手でゴリゴリと公理を書きまらなければならない。それは気の遠くなるような作業だろう(論理については全く無知なので、適当な予想だが)。

 

 

 

確率モデルとしての脳

脳の機能は感覚入力を元に外界の状態を確率的に予測することであるという仮説が提唱されている。この仮説によれば、脳は事前知識と過去の感覚入力を 元に未来の感覚入力に対して確率的予測を計算する。このとき、この確率値の元で新たな感覚入力が与えられたときの尤度が最大となるように予測を行う。尤度 が高いほど驚きが少ないことから、脳の機能は驚きを最小化することであるとも解釈される。

もちろん、まともな認知理論はどれも不確かな情報を予測する理論を含まなければならない。この仮説が他と異なるのは、確率論に基づいて予測が行われるこ と、予測を脳の機能の中心とすることである。将来の感覚入力がどうなるかについての最良の予測を立てることに脳のすべての機能が関わると考える。

外界からの感覚入力に対する驚きを最小化するという枠組みは、学習、知識、運動、知覚、注意などの認知機能を統一的に扱うことが出来ると主張されている。

知覚は感覚入力に合わせて予測を更新することで将来の驚きを下げる。例えば、家から外に出て空が曇っていることに気付いたならば、道を歩くときに周りの通行人が傘を持ち歩いていることに対する驚きは少なくなる。

運動は予測に合うように外界の状態を変化させることで驚きを下げる。運動の意図は感覚入力に対する予測と区別されない。喉が渇いたときに水を飲みたいとい う欲求は、近い将来に水を飲むだろうという予測と区別されない。この場合、水を飲まないことは予測に反するために驚きを大きくする。従って、驚きを下げる ためには水を飲む行為を行うようになる。

知識や技能は予測のための事前分布であり、学習は事前分布のモデルやパラメータの値を決定する。空が曇ると雨が降りやすいという知識や、外で雨が降ったと きには傘をかけるという知識は、通行人が曇りの日に傘を持ち歩くだろうという予測を導く。知識の有用性は予測の結果生まれる驚きの大きさによって定まる。

注意は感覚入力の観測の方法を定める。情報処理能力に限界がある場合、情報量が最大となる情報源から集中的に観測データを取得することが最良の予測を行う 上で必要であり、感覚入力の一部に注意を向けることでこれが実行される。例えば、目の前にいる人の気分を知りたいときには、視線を動かしたり、意識を集中 することで、その人の顔に関わる感覚入力に注意を払うことが役に立つ。

この枠組みは、認知機能を統一的に扱える他に、以下のような利点を持つ。

第一に、確率的に予測することは感覚入力の性質に本質的に備わっている不確かさに最適に対処する。外界の状態がいくつかの可能性のうちのひとつに分類さ れ、どの可能性に分類されているかによって行うべき最善の行動が変わると仮定する。また、最善の行動とは行動の結果もたらされる効用が大きいものであると する。感覚入力だけから外界の状態を決定することは不可能であるので、外界の状態の可能性をひとつに絞ることは出来ない。従って、不確かな情報に基づいて 行うべき行動を決めなければならない。このとき、感覚入力を与えられたときの外界の状態の条件付き確率を知ることが出来れば、効用の期待値を最大化するこ とのできる行動を計算することが出来る。この意味で、確率的予測は感覚入力の不確かさを最もうまく処理することが出来る。

第二に、異なる感覚器官の情報を統合して予測を行うときにヒューリスティックを必要としない。外界に存在するあるひとつの要素の状態について、関連する感 覚入力が複数の経路から来るとしよう。例えば、鳥の鳴き声と姿を観測したという状況がこれに当てはまる。鳴き声と姿をもとに鳥の属する種を知ろうとするな らば、この2つの情報を統合しなければならない。確率モデルが外界の要素を表す変数と関連する感覚入力を表す変数を確率変数として含んでいれば、汎用的に 使うことが出来る数学的方法を使って、必要な計算を行うことが出来る。すなわち、モデルさえ定義してしまえば、計算方法を定義する必要はない。もちろん計 算量の問題から技巧的な近似計算法を利用することはあるが、それは別の話であり、原理的には公式の計算方法が存在するということが重要である。

第三に、記号に基づくトップダウンの理論では捉えられないような認知の柔軟な側面を表現することが可能になる。記号は認知過程や概念を簡潔に表すのに便利 だが、これらに付きまとう言葉では表せない側面を表現するのは困難である。例えば、動物のカテゴリに昆虫が入るかどうかは状況により変化し得る。このよう なカテゴリへの帰属の状況依存性は集合論に基づく記述的な理論では扱いにくい。確率モデルはこのような性質をパラメータとして数値的に表す。パラメータの 値は確率モデルの通常の推定方法で定めることが出来る。パラメータの意味に関して明確に議論することは不可能になるが、少なくとも暗黙的な方法で非記号的 な柔らかい知識を表現することが出来る。

第四に、確率モデルは科学的な概念であり、実験により検証することが可能である。モデルが説明する観測データに関する尤度とモデルの複雑さを考慮すること で、あるモデルが他のモデルに比べて良いか悪いかを比較することが出来る。特に、知覚、運動、情動、知識などの認知的な概念が厳密に定義されることが重要 である。これらの語彙は日常生活の際に使用されるもので、曖昧な意味を持つ。確率論に基づく厳密な定義を与えることで、認知理論は科学的な検証に耐えうる ものになる。

第五に、確率モデルは情報の符号化を効率的に行う。脳内にはいろいろな情報が行き来するが、それらは電気信号として符号化されている。当然、一定の情報量 を符号化するのに必要な符号の長さは短ければ短いほど良い。これを最もうまく達成するためには、情報の生成確率を知ることが必要である。確率モデルは常に 情報の確率分布を計算しているため、符号化を効率よく行うことが出来る。

では、脳が確率的予測機械であるとする仮説を支持する証拠はあるのだろうか。

欲しいのは、神経細胞の発火が確率変数の値や、統計量、予測誤差を符号化しており、感覚入力によって予測を更新していることを確かめられるような証拠である。神経細胞の符号化方式に関してわかっていることは少ないので、このような直接的証拠を得ることは技術的に難しい。

ここでは、視神経についての証拠を紹介する。視神経は網膜にある神経で、ここに視覚に必要なすべての感覚情報が入ってくる。しかし、視神経による情報は物 体認識などの高次の情報処理を行うには不適切である。カメラの画素のようなもので、それぞれの視神経は視野の特定の位置での色や明るさを符号化する。当 然、目に映る情報の意味については何も語らない。実際、同じ文字を見ているとしても、視線を少し動かしただけで、それぞれの視神経に入る光は全く異なった ものになってしまうので、視線を動かす前後で同じ文字をみていることは視神経の段階での情報処理では判断することが出来ない。このような高次の情報の処理 は視神経から大脳の中心部にある視床下部を中継し、第一次視覚野からはじまる視覚野で処理される。

視神経がカメラの画素に類似しているとしたが、大きな相違も存在する。それは、視神経の段階ですでに大規模な情報処理が行われていることである。この事実 は、神経細胞の情報処理の詳細について知らないでも、単純な事実によって理解することが出来る。それは、視神経から視床下部へ入力する神経線維(軸索)の 数は網膜に存在する視神経の総数の100分の1であるという事実である。すなわち、網膜で表現されている情報がどのようなものであれ、それは大脳の視覚野 に入るときには100分の1以下になっているということである。

なぜ、大脳に行く情報が網膜で処理される情報よりも圧倒的に少ないのか。脳が確率機械であるという見方は、この問いに答えを提供する。

視神経の特徴として空間的抑制と時間的抑制がある。空間的抑制は視神経に伝わる光がそれに隣り合う視神経に伝わる光と類似している場合、その視神経は発火 が抑えられるという性質を指す。視神経が光に対して最も敏感になるのは、光の絶対強度ではなく、まわりの比較したときの相対強度であり、空間的抑制は光の 強度の空間的差異を強調する効果を持つ。

時間的抑制は同一の視神経において、そこに入る光の強度の時間的差異を強調する。つまり、現在入る光の強度とその直前の光の強度の差が大きいほど発火しやすくなる。時間的抑制は視神経を「ちらつく」光に最も反応させるようにする。

空間的抑制と時間的抑制は、確率的情報処理の枠組みでは、予測符号化と呼ばれる技術を使用していると考えられる。予測符号化は、情報源符号化の一種であ る。送信者と受信者が情報源に対する確率モデルを共有しており、それまでに観測された情報を元にして、これから観測される情報を絶えず予測する。送信者 は、情報が予測と一致しない場合だけ、送信者に送る。情報が予測と一致する場合は、何も送らない。送信者は、受信者から信号が来ない場合は自分が持ってい る情報源の予測モデルを使って、情報源から発生した情報が何であったかを決まることが出来る。このようにして、予測符号化は予測した情報が実際に観測した 情報と正しい割合だけ、情報を圧縮することが出来る。

空間的・時間的抑制は、視神経が受け取る情報を空間的・時間的に予測し、予測と食い違う観測がなされた場合のみ発火を行わせることで情報を伝える。このよ うに考えれば、大脳へ連絡する軸索の数が視神経よりも少ない理由が説明できる。網膜で行われているのは予測と実際の観測結果の不一致を検出することであ り、検出された不一致のみが大脳に連絡される。不一致を検出するには実際の観測を行う必要があるので、それに見合った数の細胞を容易する必要があるが、情 報を送るだけならば、予測符号化により大幅に圧縮を行うことが出来る。

脳が確率機械であるという仮説を裏付ける証拠は今のところ少ない。しかし、この仮説が魅力的であることは確かである。