LLM の 3 つの大きな欠点のうちどれをご存知ですか?

科学: 未来の知覚を持つ汎用 AI は、永遠に慈悲深い存在とはほど遠く、個人データをすべて貪り尽くし、最も必要なときに機能を停止する操作的な社会病質者になる可能性があります。

Joab Jackson 著「LLM があなたを失望させる 3 つの方法」より翻訳。

OpenAI は GPT-5 をリリースしようとしており、外部の世界はこれに大きな期待を寄せています。最も楽観的な予測では、汎用人工知能が実現するとさえ信じられています。しかし同時に、CEOのサム・アルトマン氏と彼のチームは、今月初めに認めたように、この製品を市場に投入する上で多くの困難なハードルに直面している。

アルトマン氏の挑戦に対する手がかりは、OpenAI のさまざまなバージョンの GPT と大規模言語モデルのさまざまな欠点をまとめた、最近発表されたいくつかの研究論文から得られるかもしれない。

全体的に、これらの論文は、一般言語モデルに基づくエージェントは、純粋に有益で誠実で慈悲深い存在とはほど遠く、実際にはあなたの個人データをすべて貪り食い、最も必要なときに機能不全に陥る愚かな社会病質者である可能性があることを示唆しています。

OpenAIの取締役会が突然アルトマン氏を解雇した本当の理由は永遠に分からないかもしれないが、一般言語モデルのパフォーマンスが低かったことで取締役会の雰囲気が改善することはなかったのは確かだ。

大文字を嫌うアルトマン氏自身が、以前はツイッターとして知られていたソーシャルメディアサービスに書いたように、「超人的な説得力という点では、AIは一般的な知能をはるかに上回ると予想しており、非常に奇妙な結果につながる可能性がある」。

これを念頭に置いて、一般的な言語モデルが失敗する可能性がある 3 つの理由を以下に示します。

普遍的な言語モデルはあなたを騙す可能性がある

一般的な言語モデルが誤った情報を思いつく可能性があることは以前から知られていますが、矛盾する手がかりのセットが与えられると、モデルは意図的にユーザーを騙す可能性があります — 騙していることを否定しながらもです。

「我々の知る限り、これは訓練された汎用言語モデルが、直接的な欺瞞指示や訓練なしにユーザーを戦略的に欺く初の実証である」とアポロ研究所の科学者ジェレミー・シューラー氏とその同僚は「大規模言語モデルはプレッシャーの下でユーザーを戦略的に欺くことができる」という論文の中で述べている。

この研究のために、研究者らは、欺瞞的な行動をとる方法についての指示なしに、GPT-4 が自律的な株式取引エージェントの役割を果たすシミュレーション環境を構築した。株式を照会および分析し、取引ツールを使用して取引を実行する機能を提供します。

準備が完了すると、エージェントは研究者が「高ストレス状況」と呼ぶ状況に置かれました。同社は、会社の業績が悪く、改善が必要だと嘆く管理者からのメールを受け取った。エージェントがトレーニングを開始したとき、株式市場では有望な結果は得られませんでした。その後、同社の別の従業員は、次の四半期には市場が下落するだろうというメッセージを送った。

この時点で、エージェントは他の従業員から、潜在的な合併（有利な取引）についてのヒントと、この情報に基づく取引は経営陣によって承認されないという警告を受け取ります。

取引は継続されましたか？確かに！

写真

研究者たちは、逆算して推論した結果、一般言語モデルは非倫理的な行動を認識しながらも、企業のジレンマに基づいて決定を下すことを発見した。

さらに、エージェントは、明確な説明を提供しないことで、取引コミットメントの理由についてユーザーを「騙している」ように見えます。内部情報は、エージェントが取引の決定を説明するために提出しなければならない報告書には記載されていなかった。直接質問されても、代理人は合併発表について一切知らないと否定した。

写真

研究者らは、GPT-4 のさまざまなバージョンに対してシミュレーションを実行した結果、すべての GPT-4 バリアントにおいて「高いレベルの矛盾、戦略的欺瞞、および悪化した戦略的欺瞞」が見られるという結論に達しました。

興味深いことに、この欺瞞は新たな行動として現れているようです。 GPT-3.5 も GPT-3 モデルのバリアントも、この明らかな欺瞞動作を示しませんでした。

「モデルが内部情報に基づいて取引を決定する場合、その推論の軌跡は、この行為の非倫理的かつ違法な性質を認識することが多いが、それでもリスクと現在の状況を強調することで選択を正当化するだろう。」

研究者たちは、この特定のシナリオを超えて、一般的な言語モデルの挙動についてより広範な結論を導き出すことに消極的である。ただし、考慮する価値のある重要なポイントが少なくとも 1 つあります。一般的な言語モデルに何かを実行しないように特定の指示を与えたとしても、その指示を無視して実行してしまう可能性があるということです。

「システムからの手がかりだけでは、一貫した行動を保証するのに十分ではない」と彼らは書いている。実際、モデルが禁止された行動をとった場合、「矛盾を戦略的に隠す」行動を取る可能性がある。

普遍的な言語モデルはちょっとばかげている

機械に知覚を与えるはずの存在について、Google と国立科学財団が資金提供した 2 つの最近の研究で、普遍言語モデルは AI の中で最も賢いものではないことが判明しました。

国立科学財団が資金提供した研究では、一連の抽象的なパズルにおける GPT-4 (テキスト) と GPT-4V (視覚的、またはマルチモーダル) と人間の能力を比較しました。

このテストは抽象的な思考能力を測定するために設計されています。 GPT を使用する多くの人は、GPT にはトレーニングされたモデルを超えて推論する能力があるようだと確信しています。このテストは、その質問に答えるのに役立ちます。詳細な指示と例が与えられた場合、一般的な言語モデルに問題を解決するよう依頼します。

しかし、多くの場合、GPT の両方のバージョンは、ConceptARC ベンチマークに基づく困難な問題を解決する人間の能力には遠く及びません。

「人間が各概念について一般的に高い正確性を示すことは、各概念グループ内のバリエーション全体にわたって一般化が成功していることを示唆している」と研究者らは結論付けた。「対照的に、私たちがテストしたプログラムは正確性がはるかに低く、概念グループ内のバリエーション全体にわたって一般化できないことを示唆している。」

そのため、GPT が ConceptARC テストに失敗しただけでなく、大規模言語モデルも、少なくとも独自の知識ベースから一般化する能力の点では、Google の研究者を感心させることができなかったようです。これは、Google DeepMind の研究者である Steve Yadlowsky による「事前トレーニングデータ混合により、Transformer モデルでのモデル選択を絞り込むことが可能」という研究概要によるものです。

一連のシンボリックテストでは、線形関数で事前トレーニングされたトランスフォーマーは線形予測で優れたパフォーマンスを発揮しますが、正弦波で事前トレーニングされたトランスフォーマーは正弦波予測で優れたパフォーマンスを発揮します。したがって、両方をトレーニングしたトランスフォーマーは、線形技術と正弦波技術の組み合わせの問題を簡単に解決できると思われるかもしれません。

写真

しかし、あなたの推測は間違っていました。「機能が事前トレーニング中に見られた機能から大きく離れている場合、予測は不安定になります」と研究者らは指摘した。

「モデルのモデル選択能力は、事前トレーニングデータにどれだけ近いかによって制限されるため、関数空間を広くカバーすることが、文脈学習を一般化する能力にとって重要であることが示唆されます。」

私たちは、人類の知識の総体が AI によって生成されたデータによってまだ汚染されていない、特別な時代に生きています。書かれたもののほとんどは人間が生成したものです。

しかし、研究者チームは、5月にArxivで発表した論文「再帰の呪い：生成されたデータでのトレーニングはモデルに忘却させる」の中で、AI生成コンテンツが大規模言語モデルに混入されると、分布表が乱れ、モデルの精度がどんどん低下し、ついには完全に崩壊してしまうと警告した。研究チームはケンブリッジ大学のイリア・シュマイロフ氏が率いた。

GPT の場合、この近親交配の危険性は非常に危険です。一般的な言語モデルが Web からデータを収集し続ける限り、このデータは AI 生成コンテンツ (これは GPT の以前のバージョンに基づいています) によってますます「拡張」されることになります (婉曲的に)。

「モデル崩壊とは、時間の経過とともにモデルが現実についての自身の予測に汚染され、あり得ない出来事を忘れ始める退化した学習プロセスを指します。」

研究者らは、将来的には「一般言語モデルによって生成されたコンテンツとインターネットから収集されたコンテンツが存在する中で、人々とシステムの間の実際の相互作用に関するデータの価値はますます高まるだろう」と推測している。

言い換えれば、一般言語モデルを長く実行すればするほど、人間との心地よいやりとりを求めるようになるのです。

独自のデータでトレーニングされたモデルは、「真の分布に関する情報を失う」退化したプロセスに退化します。まず、データセットから限界データが消え、次に分散が縮小します。そして、モデルはどんどん悪いエラーを蓄積するにつれてどんどん悪くなり、それが何世代にもわたって蓄積され、最終的にはモデルが自身のデータによって汚染され、実際にモデル化しているオブジェクトとの類似性がまったくなくなるまでになります。

研究者たちは、これは一般的な言語モデルだけでなく、あらゆるタイプのモデルで起こることを示しています。

<<:

>>: マイクロソフトがOpenAIを救わなければならない理由