「汎用人工知能」を実現するには？ LSTMの著者の一人、Sepp Hochreiter: シンボリックAIとニューラルAIの融合

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

意識、認知、意思決定などを含む人間の知性は、人類が記録され始めた瞬間から、数え切れないほどの哲学者の思考を惹きつけてきたようです。同様に、AI が誕生した瞬間から、科学者たちは「AI はどうすれば人間のような知能を獲得できるのか」という疑問を抱いてきました。

最近、LSTMの提案者および創始者であり、オーストリア人工知能先端研究所（IARAI）の創始者であり、IEEE CIS 2021ニューラルネットワークパイオニア賞の受賞者であるSepp Hochreiter教授が、ACMの通信においてAIが達成している現在の知能レベルについての見解を述べました。

セップ・ホッホライター氏は、現在のAI開発は幅広いAIを目指していると指摘した。彼は、従来のロジックベースのシンボリックAIと既存のデータベースニューラルAIを組み合わせたバイラテラルAIが、汎用AIを実現する最も有望な方法であると強調しました。

1. 既存のニューラルネットワークの欠点

ディープニューラルネットワークは、今日の AI の主流の実装方法です。驚くべきパフォーマンスを達成できますが、人間の知能と比較するとまだ多くの欠点があります。ホックライター教授は、ニューヨーク大学の認知科学者ゲイリー・マーカスによるニューラルネットワークに対する批判を引用し、(1)ニューラルネットワークは大量のデータを消費する、(2)転送能力が限られており、新しいタスクやデータ分布に効果的に転送できない、(3)世界の知識や事前の知識を完全に統合できない、と考えた。

そのため、ホッホライター教授は、現実のシナリオではデータは常に変化し、ノイズが多く、さらには不足しているため、意思決定者は実際のデータに適用する際のこれらのモデルの有効性に懐疑的であると警告した。実際、ディープラーニング技術の応用は、需要は高いものの安全性や説明可能性が重視される医療、航空、無人運転などの分野にはまだ限られています。

2. 「幅広いAI」

それにもかかわらず、ホッホライター教授は、現在のAIはすでにこれらの欠点を克服しようとしており、「幅広いAI」を現在のAIの新たな目標として設定していると指摘しました。

汎用AIとはどのようなシステムでしょうか？

特定のタスク向けに設計された既存の狭義のAIとは異なり、スキルの習得と問題解決に重点を置いています。この見解は、Google で働き、Keras の作者でもある François Chollet 氏のもので、同氏はかつて論文の中で知能の定義について言及したことがあります。ショレ氏は、第 2 レベルの知能における汎用 AI (下図参照) には、知識の転送と相互作用、堅牢性、抽象化と推論の能力、高い効率性といった重要な特性が備わっているべきだと考えています。汎用 AI は、感覚認識、過去の経験、学習したスキルを最大限に活用して、さまざまなタスクを正常に実行します。

図1: AIのさまざまなレベルに対応する機能

ホッホライター教授は、既存のアーキテクチャ、ネットワーク、または方法が、ある程度、Broad AI の要件を満たしていると考えています。彼は、転移可能性を実証するために自己教師ありトレーニングに対照学習を使用する学習方法、コンテキストと過去の経験を最大限に活用する現代のホップフィールドネットワーク、知識と推論を組み合わせたニューラルシンボリックコンピューティングモデルを挙げました。

3 モビリティ

ネットワークの移転可能性を効果的に向上できる既存のモデル学習方法は、小サンプル学習です。少量のトレーニングデータのみを使用して優れたパフォーマンスを実現できます。そして、これは既存の「事前の知識」または「経験」のおかげです。この事前知識は、大規模なデータや基礎モデルを含む事前トレーニングタスクから恩恵を受けることがよくあります。このようなデータは、対照学習や自己教師ありトレーニングを通じて有用な表現を抽出するためによく使用されます。事前トレーニング済みモデルが学習されると、タスクで獲得された事後知識が新しい下流タスクの事前知識となり、モデルを新しい状況、顧客、製品、プロセス、データなどに適切に転送できるようになります。

ホッホライター教授は、視覚言語クロスモダリティの分野における対照学習事前トレーニング法である CLIP について具体的に言及しました。 CLIP は、昨年の ICML で OpenAI が発表した研究です。画像とテキストのマッチングというシンプルな事前トレーニングタスクを使用して、対照学習を通じてより強力な画像表現を学習します。このタスクでは、インターネットから収集された 4,000 万個の画像とテキストのペアがトレーニングに使用されました。

図1: CLIPは画像とテキストのマッチングを使用してトレーニングします

予想通りの驚きは、データトレーニングなしで 30 を超えるコンピュータービジョンタスクで、以前の完全教師ありアプローチに匹敵するパフォーマンスを達成し、優れた「ゼロサンプル学習」を実現できることです。 Hochreiter 教授が称賛したように、この高度な移植性と堅牢性は、実際のデータを扱う業界での導入に非常に好まれる機能です。

実際、CLIP の発明以来、その後の転移学習の研究の多くは CLIP に基づいています。これは、NLP タスクにおける Bert に似た、視覚言語の統一に絶対に欠かせない部分であると言っても過言ではありません。今日人気のプロンプト学習方法の多くも、CLIP を利用している、または CLIP フレームワークに基づいています。

4. 経験を活用する

汎用 AI は、記憶と密接に関連するコンテキストと過去の経験も最大限に活用する必要があります。この点については、ホッホライター教授が適切な発言をするかもしれない。結局のところ、彼は長期短期記憶ネットワークの発明者の一人なのだから。認知科学では、一部の学者が短期記憶の概念を提唱しています。これは、人間が画像や単語などの刺激を受け取ると、その刺激をすぐに抽象的な概念カテゴリに変換し、長期記憶に関連する情報と関連付けるというものです。「刺激-概念化-連想」のプロセスはほとんど無意識のうちに起こりますが、日常の物事の理解や言語コミュニケーションにおいて非常に重要な役割を果たします。

図1：「刺激-概念化-連想」の認知プロセス

この点に関して、ホッホライター氏は、実際には彼自身の指導の下で完成されたモダン・ホップフィールド・ネットワーク (MHN) の成果を引用しました。ホップフィールドニューラルネットワークは、1982 年に早くも提案されました。これは、ストレージシステムとバイナリシステムを組み合わせたニューラルネットワークであり、人間の記憶のモデルをシミュレートします。 MHN は、Transformer の自己注意メカニズムは連続状態を持つホップフィールドネットワークの更新規則であると考えており、ホップフィールドネットワークの観点から自己注意の新しい解釈を与えています。メモリの説明の一部は、データ内の共分散構造、つまりデータ内で特徴がどのように一緒に現れるかを利用することです。 MHN はこの共起を増幅します。この相関関係は、記憶の関連部分をトリガーし、既存の知識を効果的に活用するものと考えることができます。

ホッホライター氏は、MHN はデータ間の豊富な相関関係を発見することができ、それが現代の方法にありがちな「ショットカット学習」のリスクを回避できる利点であると指摘した。「ショートカット学習」とは、モデルが、実際には意思決定には使用されず、飛行機が常に画像の上半分に表示されるなどの特別な相関関係のみを見つける「特徴」を学習することを意味します。（詳細は、前回のAI技術レビュー「ディープラーニングは「近道」で失敗する」をご覧ください）

5 神経記号システム統合

ニューラルネットワークとシンボリックシステムは、AI モデルと世界知識および抽象的推論機能との統合をより効果的に促進できます。

合理主義に基づく記号システムは、論理と記号表現に基づいており、人間の推論を機械に直接エンコードします。その利点は、強力な抽象化能力と、より少ないデータを使用してより良い結果を達成できることにあります。しかし、現実世界の知識は複雑で、多様性があり、構造化されていないため、それを機械が読み取り可能なルールに完全にエンコードすることは困難です。

経験主義に基づくニューラルネットワークは、大量のデータを直接利用し、暗黙的 (教師なし) または明示的に (教師あり) モデルをガイドしてデータの有用な表現を学習し、複雑なルールを設計することなく驚くべきパフォーマンスを実現します。しかし、ニューラルネットワークは、解釈可能性の低さやデータの不足などの課題にも直面しています。

これら 2 つを有機的に組み合わせる方法は、AI 分野の学者がよく考える問題でもあります。興味深いことに、これは人類の歴史におけるイデオロギー闘争とも関連しています。合理主義と感情主義の盛衰もまた議論の的となっているテーマです。

ホッホライター教授は、以前から開発が進められているグラフニューラルネットワーク（GNN）がこの方向性を代表するものだと考えています。これは、IJCAI'20 で公開された調査からの意見でもあり、GNN をタイプ 1 ニューラルシンボリックシステムに分類しています。この記事は、両者に次のような共通点があると考えています。どちらもニューラルネットワーク入力の豊富なベクトル化表現を求めており、どちらもツリーとグラフ構造を使用してデータとそれらの関係を表現しています。ホッホライター教授は、分子特性、ソーシャルネットワークモデリング、工学分野における予測など、動的な相互作用と推論を重視する分野でこれらのアルゴリズムが優れたパフォーマンスを発揮すると考えています。

図1: GNNグラフ構造の概略図

<<: 無人タクシーが警察に止められた後逃走！ AI: 怖かったです。

>>: 2022 年のエンタープライズ向け人工知能のトップ 10 トレンド