靴職人が3人いるほうが、諸葛亮1人より優れている?それは本当かもしれません。複数の小さなモデルを混ぜると、GPT3.5と同等のパフォーマンスを発揮できることが証明されています。

靴職人が3人いるほうが、諸葛亮1人より優れている?それは本当かもしれません。複数の小さなモデルを混ぜると、GPT3.5と同等のパフォーマンスを発揮できることが証明されています。

会話型人工知能 (AI) の研究では、ChatGPT に代表されるモデルのように、より多くのパラメータを持つモデルを開発する傾向があります。これらの大規模なモデルは、より優れた会話応答を生成できるようになりますが、大量のコンピューティング リソースとメモリも必要になります。この研究で検討された質問は、「小さなモデルのグループを連携させることで、単一の大きなモデルと同等かそれ以上のパフォーマンスを達成できるのか?」です。

この記事では、革新的でシンプルなアプローチであるハイブリッド化について紹介します。

著者らは、少数の会話型 AI からランダムに応答を選択した場合、結果として得られる会話型 AI はパフォーマンスと魅力に優れ、桁違いに大きなパラメータを持つシステムよりも優れていることを示しています。著者らは、ハイブリッド モデルは「最適な」特性を持っているように見えると指摘しています。ハイブリッド モデルでは、特定のプロパティを持つ単一のモデルが、会話履歴に基づいて応答を調整することで、他のシステムの機能を学習できます。より魅力的で多様な応答と使用体験をユーザーに提供できます。

著者らは、CHAI プラットフォーム上で大規模な A/B テストを実施することで、ハイブリッド モデルの有効性を実証しました。実際のユーザーによるテストでは、6~130億のパラメータを持つ3つのLLMで構成されるハイブリッドモデルが、OpenAIの1750億以上のパラメータを持つChatGPTよりも優れたパフォーマンスを発揮しました。さらに、ハイブリッド モデルのユーザー維持率は ChatGPT ベースの会話型 AI よりも大幅に高く、ハイブリッド モデルでは推論コストとメモリ オーバーヘッドがわずかしかかからないにもかかわらず、ユーザーはハイブリッド会話型 AI をより魅力的で、楽しく、実用的だと感じていることがわかります。

  • 論文: ブレンディングこそが​​、必要なすべて: 1兆パラメータ LLM のより安価で優れた代替手段
  • 論文リンク: https://arxiv.org/pdf/2401.02994.pdf
  • モデルリンク: https://huggingface.co/ChaiML

ハイブリッドモデル

会話型AI

会話型 AI の目標は、人々が対話するための魅力的で楽しい対話を生成できるシステムを設計することです。 uk はユーザーの k 番目の会話ターンを表します。各ユーザーターンは単語のシーケンスであり、uk = (w (k) 1 . . . , w (k) |uk| ) です。同様に、rkはシステムによって生成されたk番目の応答を表します。これも単語のシーケンスで、rk = (w (k) 1、...、w (k) |rk|)となります。暗黙的言語モデルとして、θ としてパラメータ化された特定の会話 AI は、以前の会話履歴に基づいて次の応答を予測する確率をモデル化します。

トレーニング中、システムは、流暢で、魅力的で、質の高い応答に高い確率を割り当てることを暗黙的に学習します。したがって、確率的方法またはビーム検索のような近似検索手順のいずれかを使用して、分布からランダムにサンプリングすることによって出力を取得することが可能です。

InstructGPT に触発された最先端の会話型 AI は、通常、3 段階のパイプラインに従います。まず、事前トレーニング済み言語モデル (PrLM) を微調整します。これは、魅力的なチャットボットの設計に使用する興味深い文献など、関連するテキスト ドメインでトレーニングされます。次に、明示的な人間からのフィードバックを使用して報酬モデルをトレーニングします。最後に、報酬モデルは、近似ポリシー最適化を採用するか、単純な拒否サンプリング戦略を使用することによって、元の PrLM を改善するために使用されます。

特定の会話型 AI を開発する場合、ベースとなる PrLM、微調整に使用する会話データ、システムの更新に使用する人間からのフィードバックなど、設計上の選択肢は多数あります。さまざまなアプローチとトレーニング データにより、それぞれが独自の長所と特性を示す非常に多様なシステムが生成されることが予想されるかもしれません。次に、会話型 AI のグループを組み合わせて、全体的な特性がより優れたシステムを形成する方法を検討します。

統合された

ベイズ統計の原理に基づいて、特定の応答に割り当てられる確率は、すべての可能性のある会話型 AI パラメータに対する限界期待値として概念化できます。

実際には、会話型 AI システムの有限セット {θ1、θ2...θN} のみにアクセスできる場合、連続積分は離散和として近似できます。さらに、PΘ(θ) はこれらのシステム全体に均一に分布している、つまり PΘ(θn) = 1/N であると仮定できます。セットに同様のパフォーマンスを持つモデルが含まれている場合、これは有効な仮定であり、次の近似値を得ることができます。

ミックス

著者らが提案した方法は、真のアンサンブル分布(式8)から近似的にサンプリングすることを目的としている。この近似を実現するために、各ラウンドで、対話混合モデルは、現在の応答を生成した会話型 AI θ をランダムに (均一に) を選択します。このプロセスについては、以下のアルゴリズム 1 で詳しく説明します。会話中、特定の会話型 AI によって生成された応答は、以前に選択された会話型 AI によって生成された以前のすべての応答に条件付けられることに注意することが重要です。これは、さまざまな会話型 AI が現在の応答の出力に暗黙的に影響を与える可能性があることを意味します。したがって、現在の対応は、個々の会話型 AI の強みを組み合わせて連携し、全体的に魅力的な会話を生み出すというものです。

実験

Chai Research プラットフォームに展開された各会話型 AI について、著者らは A/B テスト設定 (記事のセクション 4.2 の式 15) に従って各日 k のユーザー エンゲージメントを計算しました。 20 日目 (k = 20) を考慮すると、図 1 はハイブリッド モデル、その構成要素である会話型 AI、および OpenAI の GPT-3.5 のエンゲージメント率を示しています。著者らは、中規模の会話型 AI (Pygmillion、Vicuna、ChaiLLM) のエンゲージメントは GPT3.5 よりも大幅に低いことを観察していますが、これは GPT3.5 のパラメータ数が桁違いに多いため予想されることです。しかし、これら 3 つの基本的な会話型 AI を組み合わせると、ハイブリッド モデルの結果は各コンポーネント システムよりもエンゲージメントが高くなるだけでなく、パフォーマンスも大幅に向上し、ハイブリッド モデルは OpenAI の GPT3.5 を上回るパフォーマンスを発揮します。他の会話型 AI と比較したハイブリッド モデルの成功は、図 1 に示すように、ユーザー維持率を k = 20 (記事のセクション 4.1 の式 10) と比較することによっても計算できます。

ハイブリッドモデルには合計 25 億のパラメーターがあり、OpenAI には 1750 億のパラメーターがあります。さらに、ハイブリッド モデルの応答は単一の会話型 AI からランダムにサンプリングされるため、推論コストは単一の 6B/13B システムと同等になります。図 2 と 3 では推論速度に大きな違いが見られ、ハイブリッド モデルではエンゲージメントとユーザー維持のパフォーマンスが大幅に向上している一方で、速度は小規模な会話型 AI と同等であることがわかります。これには重要な意味があります。品質を向上させるためにシステムを拡大するのではなく、複数の小規模なオープンソース システムを単純に組み合わせるだけで、推論コストを増やすことなく、ユーザーの会話エクスペリエンスを大幅に向上させることができます。これは、魅力的で成功する会話型 AI を設計する際に、単純なモデル パラメータのスケーリングよりもモデルのコラボレーションの方が重要であることを示しています。

客観的な比較として、表 1 に単一のメトリックの概要を示します (論文のセクション 3.3)。著者らは、ピグミリオンを対照群として、対照群と比較したテストのエンゲージメント率指標∆αと∆γ、および対照群と比較したテストの保持率指標∆ζと∆βを示しています。ハイブリッド モデルは、相対的な初期エンゲージメント ∆α が最も高く、エンゲージメント比率の減衰率 ∆γ も最も優れています。 Vicuna の保持率減衰率 ∆β はハイブリッド モデルよりも優れていますが、Vicuna の初期保持率 ∆ζ は大幅に低く、上記の図 2 および 3 に示すように、Vicuna がハイブリッド モデルの保持スコア 6 に到達するにはより長い時間が必要であることを示しています。全体的に、ハイブリッド モデルは、複数の小規模な会話型 AI を連携させることで、単一の大規模な会話型 AI (OpenAI の GPT3.5) よりも高品質の会話を提供するのに効果的であることは明らかです。

<<: 

>>:  金メダルレベルの数学スキル:DeepMindの幾何学的推論モデルがNatureに掲載され、コードはオープンソースで、フィールズ賞受賞者が賞賛

ブログ    

推薦する

ネイチャー誌の表紙:AIの翼に乗って、データが計算社会科学を「担う」

シュメール王国の時代から、この賢明な王国の人々はデータを記録し、国勢調査を実施し、食糧を配給し始めま...

スタンフォード大学は4年連続でAIレポートを発表しています。今年はどんな内容が取り上げられたのでしょうか?

2021年スタンフォードAIインデックスレポートが正式にリリースされ、過去1年間のAIの全体的な発...

...

...

コンピューティングパワーがボトルネックにならないように、Xiaohongshu の機械学習の異種ハードウェア推論を最適化する方法

多くの企業が GPU コンピューティング能力の開発を組み合わせて、自社の機械学習の問題に対するソリュ...

ノーベル賞を予約しますか? DeepMind の創設者が「ノーベル賞」ラスカー賞を受賞、AlphaFold が「科学のための AI」のベンチマークに

9月21日、生理学・医学分野の最高賞であるラスカー賞が発表されました!ラスカー賞には、基礎医学研究賞...

ディープラーニングモデルを本番環境に簡単に導入

[51CTO.com クイック翻訳] データから学習し、パターンを識別し、人間の介入を最小限に抑えて...

経済の冬の後には人工知能の春が来る

企業が選択する経済発展の道は、多くの場合、時代の背景によって決まります。さまざまな経済状況下で適切な...

ロボット工学の可能性を解き放つ:産業に革命を起こし、人々の生活を向上させる

ロボット工学は、SF の世界の概念から、あらゆる分野を変え、人間の生活を向上させる現実のものへと進化...

アルゴリズム王国では中国が他国を追い抜くかもしれない

今年の初め、世界中で人工知能の発展に注目していた人たちの注目を集めた出来事が2つありました。一つは、...

専門家の視点:量子コンピューティングの開発動向

量子コンピューティングとは、量子理論の原理に基づいたコンピューター技術の開発に焦点を当てた研究分野を...

機械学習研究の10年

[[271167]] 10年前のMSRAの夏、私が初めて機械学習の研究に挑戦したとき、科学研究におけ...

AIアルゴリズム企業パシフィック・フューチャー・テクノロジーの文化観光ソリューションがOCTカラープラネットに上陸

ディープな旅行がますます高品質の観光オプションに浸透するにつれて、観光型の観光はもはや現代人の旅行ニ...

AIは病気の診断や新薬の設計に大きな可能性を秘めている

ヘルスケア業界は常にイノベーションの先駆者であり続けています。しかし、病気やウイルスが変異し続ける中...