MIT の中国人博士共同執筆者: 確率プログラムモデリングを使用して世界モデルを解明!

言語は思考にどのように影響しますか?人間は言語からどのように意味を引き出すのでしょうか?

これら 2 つの基本的な疑問が、人間のような知性を構築するための鍵となります。

長い間、AIの理想は人間レベルのAIに到達することでした。このため、業界の巨人であるヤン・ルカンはかつて「世界モデル」という概念を提唱しました。

写真

彼のビジョンは、世界がどのように機能するかについての内部モデルを学習し、より速く学習し、複雑なタスクを計画し、新しい未知の状況に対応できるマシンを作成することです。

最近、MIT とスタンフォード大学の学者たちは、自然言語のニューラルモデルと確率モデルを組み合わせた言語情報思考の計算フレームワークである、合理的意味構築モデルを提案しました。

この論文の第一著者は、MITの脳認知科学科の博士課程5年生である。

写真

彼らは、言語的意味を、自然言語から確率的思考言語 (PLoT) への文脈依存のマッピング、つまり確率的生成的世界モデリングのための普遍的な記号基盤として定義しています。

このアーキテクチャは、これまで組み合わせられたことのない 2 つの強力な計算ツールを統合します。つまり、確率プログラムによる思考のモデル化と、大規模言語モデル (LLM) による意味構築のモデル化です。

写真

論文リンク: https://arxiv.org/abs//2306.12672

写真

Github リンク: https://github.com/gabegrand/world-models

昨今、ChatGPTに代表される大規模な言語モデルが人気を集めています。言語モデルと自然言語処理は混同されやすいのですが、ここでの「言語」と言語学にはどのような関係があるのでしょうか。

まず、科目区分で言うと、言語学は言語学、大規模言語モデルや自然言語処理は人工知能に属します。最初の概念は1つの科目に属し、2番目と3番目の概念は別の科目に属します。

大規模言語モデルと自然言語処理は「and」関係ではなく、つまり並列関係ではありません。自然言語処理とは、人工知能を使用してテキストコンテンツを処理する方法を研究することです。さまざまな方法がありますが、そのうちの 1 つは「言語モデル」と呼ばれます。

人工知能の観点から見ると、言語モデルはモデルというよりも、モデルをトレーニングするために使用される予測タスクです。

簡単に言えば、モデルが与えられたテキスト文字列に基づいて次の単語を予測するか、テキスト文字列から単語を取り出してモデルに空白を埋めるように要求する必要があります。モデルは継続的な反復を通じて予測パフォーマンスを向上させます。

一部のネットユーザーは、世界モデルの反復ルールを思慮深く要約しました。

写真

さて、ここまでの話を踏まえて、今回提案されたモデルアーキテクチャを見てみましょう。

モデルアーキテクチャ

言語情報に基づく思考に対する計算的アプローチは、神経記号連続体に依存しています。一方では、古典的な記号モデル (右上) は体系的かつ構造化された推論を生成しますが、通常は狭い言語領域に限定されており、多くの場合、手作業によるエンジニアリングが必要です。

写真

一方、大規模言語モデル (左上) は、オープンドメインの自然言語において優れた機能を実現しますが、首尾一貫した推論、予測、計画をサポートする一貫した世界の状態について推論するのは困難です。

私たちの合理的な意味構築フレームワークは、言語情報思考を 2 つのモジュールに分解します。

意味関数は、自然言語を、シンボリック世界モデルで言語の意味を表す確率的プログラミング言語 (PPL) ステートメントに変換します。

推論関数は、言語情報と一致し、言語情報に基づいて条件付けられた可能な世界空間の確率を計算します。

従来の認知の見方と同様に、思考の核心は、不確実性の下で合理的かつ首尾一貫した推論をサポートし、目標を達成するための行動を計画するのに十分な、世界の実体と出来事をモデル化するための一般的な表現の構築です。

次に、言語がこのアーキテクチャとどのように関連して言語ベースの思考をサポートするか、つまり言語がどのように世界のモデリングと推論を構築して下流の思考を導き、制約し、推進し、新しい思考能力を育むかを検討します。

写真

以下は、この論文の論点の中核となる 4 つの領域です。

確率的推論では、綱引きゲームの勝者など、不確実なイベントの結果を予測するために、まばらな証拠を統合する必要があります。
関係的推論には、関係情報に基づいて構造化された領域 (家系図など) に関する一貫した信念を維持および更新することが含まれます。
知覚的および物理的な推論は、言語を、テーブルの上の台所用品など、外界にある物体の感覚や直感的な物理的知識に結び付けます。
社会的推論には、他のエージェントの考え、たとえば、そのエージェントが世界を生きていく上で、そのエージェントの目標、好み、環境がエージェントの行動にどのように影響するかなどについての推論が含まれます。

すべてのドメインにわたって、人間のような推論を容易にするために、言語を確率的プログラミング言語のコードに変換する統一されたフレームワークを提案します。

彼らは、合理的かつ確率的な観点から、生物学的知能と人間の言語について 3 つの観察を行っています。

知的思考に対する合理的な視点

生物学的知能には多くの計算能力が含まれます。ここで私たちが関心を持っている心の基本的な概念は、自分自身の目的を達成するための合理的な推論と意思決定に中心を置いており、この観点から見ると、心は世界をモデル化するシステムで構成されています。

言語の合理的な見方

思考と同様に、言語も多くのシステムと機能から構成されており、私たちは言語を広く合理的な視点で捉えています。つまり、言語は思考を外部化して他の知的存在とコミュニケーションをとるために使用される目標指向の行動システムであると考えています。

言語と思考に関する資源合理主義的視点

最後に、言語と思考に対する私たちの統合計算アプローチは、人間が限られた時間と記憶の制約下で有用な推論を行うために計算リソースを賢明に割り当てる、リソース合理的な思考者であるという広範な証拠に基づいています。

写真

私たちのフレームワークを説明するために、事前に指定された世界のモデルを前提とした言語についての推論に焦点を当てた具体的なシナリオを考えてみましょう。

友人が最近行われた綱引きゲームについて話しているとします。

(A) 生成モデルは、強さと怠惰という 2 つの潜在特性を定義し、それらがどのように相互作用してチームの強さを決定するかを指定します。 (A) と (B) を組み合わせることで、LLM に自由形式の自然言語 (C) を Church 文 (D) に翻訳および変換するよう簡単に指示し、ドメインの言語的意味を捉えることができます。

結果として得られる確率的推論は、モデルの信念を透過的に表現し、プレイヤーの根本的な特性に関する人間のような直感を自然に捉えます。

世界モデルの不確実性に直面して、私たちは「彼らが再び対戦する場合、ジョシュはゲイブに勝つだろうか？」などの質問を入力します。

私たちのフレームワークでは、質問を Church のクエリに変換して、関心の程度を評価します。

クエリを呼び出すと、これまでに行われた観察によって制約されたモデルの下で可能な世界をシミュレートする確率計算がトリガーされます。

クエリ式はシミュレートされた各世界で評価され、対象の値の事後分布を形成する複数のサンプルが生成されます。

この作品の例全体を通して、自然な会話の中で事実の陳述の間に時折疑問が現れるのと同じように、クエリと条件文を自由に織り交ぜています。

この動作は、クエリ会話履歴のその時点までに発生したすべての条件ステートメントを評価する読み取り評価印刷ループ (REPL) を介して実装されます。

私たちのモデルでは、ユーザーが各発話が条件であるかクエリであるかを指定することを想定していますが、大規模な言語モデルでは注釈が付いていない発話を正確に分類できる可能性があります。

結論は

人間の言語の意味の理論は、言語が人間の思考とどのように関係しているかを説明するべきであるというビジョンは、人間の言語と意味の理論の中心ですが、人工知能の最も広いビジョンは、コンピューターが人間の言語を共有し、私たちが他の人間に理解されることを期待するのと同じくらい意味のある形で私たちを理解できるというものでした。

今日の大規模言語モデルは、多くの重要な点でこの現実の構築に向けて驚くべき進歩を遂げており、初めて人間と流暢に会話できるコンピュータシステムを構築しました。

しかし、私たち自身と言語との関係を捉えるには、まださらなる取り組みが必要です。私たちは大規模な言語モデルのように言語を学習しません。私たちはまず考え、それから、はるかに少ない入力から、言語が私たちの考えにどのように対応しているかを学びます。

私たち自身の世界観や信念は、言語から得られる脆弱な副産物ではありません。それらは私たちの認識にとって根本的かつ核心的なものであり、私たちの意図や願望のために意図的に構築され、維持されているのです。

ニューラルモデルを使用して文章を確率プログラムに変換することで、不確実な状況、関係構造、具体的な状況、目標指向の推論を記述する言語から世界モデルがどのように意味を抽出するか、および推論エンジンがどのように推論するかについて説明します。

また、フレームワークをより複雑な言語に拡張する方法や、新しいドメインの意味表現を構築するプロセスを自動化する方法など、多くの未解決の問題が残っています。

これらの質問を組み合わせることで、人工知能と認知科学の多くのサブフィールドにまたがる言語、推論、およびそれらの相互作用をモデル化する上での中核的な課題に対処するためのロードマップが提供されます。

参考文献:

出典: http://arxiv.org/pdf/2306.12672.pdf

https://twitter.com/arankomatsuzaki/status/1672048278886658049

<<: 派手なものはやめましょう！ ChatGPT の最も強力な 7 つのプラグインをチェックしてください。プロンプトを書いたり、外国語を学んだり、ビデオを要約したり、ChatGPT を個人秘書にしたりできます。

>>: ChatGPT-4 に基づく IDEA スマートアシスタントの使い方を教えます