靴職人が3人いるほうが、諸葛亮1人より優れている?それは本当かもしれません。複数の小さなモデルを混ぜると、GPT3.5と同等のパフォーマンスを発揮できることが証明されています。

靴職人が3人いるほうが、諸葛亮1人より優れている?それは本当かもしれません。複数の小さなモデルを混ぜると、GPT3.5と同等のパフォーマンスを発揮できることが証明されています。

会話型人工知能 (AI) の研究では、ChatGPT に代表されるモデルのように、より多くのパラメータを持つモデルを開発する傾向があります。これらの大規模なモデルは、より優れた会話応答を生成できるようになりますが、大量のコンピューティング リソースとメモリも必要になります。この研究で検討された質問は、「小さなモデルのグループを連携させることで、単一の大きなモデルと同等かそれ以上のパフォーマンスを達成できるのか?」です。

この記事では、革新的でシンプルなアプローチであるハイブリッド化について紹介します。

著者らは、少数の会話型 AI からランダムに応答を選択した場合、結果として得られる会話型 AI はパフォーマンスと魅力に優れ、桁違いに大きなパラメータを持つシステムよりも優れていることを示しています。著者らは、ハイブリッド モデルは「最適な」特性を持っているように見えると指摘しています。ハイブリッド モデルでは、特定のプロパティを持つ単一のモデルが、会話履歴に基づいて応答を調整することで、他のシステムの機能を学習できます。より魅力的で多様な応答と使用体験をユーザーに提供できます。

著者らは、CHAI プラットフォーム上で大規模な A/B テストを実施することで、ハイブリッド モデルの有効性を実証しました。実際のユーザーによるテストでは、6~130億のパラメータを持つ3つのLLMで構成されるハイブリッドモデルが、OpenAIの1750億以上のパラメータを持つChatGPTよりも優れたパフォーマンスを発揮しました。さらに、ハイブリッド モデルのユーザー維持率は ChatGPT ベースの会話型 AI よりも大幅に高く、ハイブリッド モデルでは推論コストとメモリ オーバーヘッドがわずかしかかからないにもかかわらず、ユーザーはハイブリッド会話型 AI をより魅力的で、楽しく、実用的だと感じていることがわかります。

  • 論文: ブレンディングこそが​​、必要なすべて: 1兆パラメータ LLM のより安価で優れた代替手段
  • 論文リンク: https://arxiv.org/pdf/2401.02994.pdf
  • モデルリンク: https://huggingface.co/ChaiML

ハイブリッドモデル

会話型AI

会話型 AI の目標は、人々が対話するための魅力的で楽しい対話を生成できるシステムを設計することです。 uk はユーザーの k 番目の会話ターンを表します。各ユーザーターンは単語のシーケンスであり、uk = (w (k) 1 . . . , w (k) |uk| ) です。同様に、rkはシステムによって生成されたk番目の応答を表します。これも単語のシーケンスで、rk = (w (k) 1、...、w (k) |rk|)となります。暗黙的言語モデルとして、θ としてパラメータ化された特定の会話 AI は、以前の会話履歴に基づいて次の応答を予測する確率をモデル化します。

トレーニング中、システムは、流暢で、魅力的で、質の高い応答に高い確率を割り当てることを暗黙的に学習します。したがって、確率的方法またはビーム検索のような近似検索手順のいずれかを使用して、分布からランダムにサンプリングすることによって出力を取得することが可能です。

InstructGPT に触発された最先端の会話型 AI は、通常、3 段階のパイプラインに従います。まず、事前トレーニング済み言語モデル (PrLM) を微調整します。これは、魅力的なチャットボットの設計に使用する興味深い文献など、関連するテキスト ドメインでトレーニングされます。次に、明示的な人間からのフィードバックを使用して報酬モデルをトレーニングします。最後に、報酬モデルは、近似ポリシー最適化を採用するか、単純な拒否サンプリング戦略を使用することによって、元の PrLM を改善するために使用されます。

特定の会話型 AI を開発する場合、ベースとなる PrLM、微調整に使用する会話データ、システムの更新に使用する人間からのフィードバックなど、設計上の選択肢は多数あります。さまざまなアプローチとトレーニング データにより、それぞれが独自の長所と特性を示す非常に多様なシステムが生成されることが予想されるかもしれません。次に、会話型 AI のグループを組み合わせて、全体的な特性がより優れたシステムを形成する方法を検討します。

統合された

ベイズ統計の原理に基づいて、特定の応答に割り当てられる確率は、すべての可能性のある会話型 AI パラメータに対する限界期待値として概念化できます。

実際には、会話型 AI システムの有限セット {θ1、θ2...θN} のみにアクセスできる場合、連続積分は離散和として近似できます。さらに、PΘ(θ) はこれらのシステム全体に均一に分布している、つまり PΘ(θn) = 1/N であると仮定できます。セットに同様のパフォーマンスを持つモデルが含まれている場合、これは有効な仮定であり、次の近似値を得ることができます。

ミックス

著者らが提案した方法は、真のアンサンブル分布(式8)から近似的にサンプリングすることを目的としている。この近似を実現するために、各ラウンドで、対話混合モデルは、現在の応答を生成した会話型 AI θ をランダムに (均一に) を選択します。このプロセスについては、以下のアルゴリズム 1 で詳しく説明します。会話中、特定の会話型 AI によって生成された応答は、以前に選択された会話型 AI によって生成された以前のすべての応答に条件付けられることに注意することが重要です。これは、さまざまな会話型 AI が現在の応答の出力に暗黙的に影響を与える可能性があることを意味します。したがって、現在の対応は、個々の会話型 AI の強みを組み合わせて連携し、全体的に魅力的な会話を生み出すというものです。

実験

Chai Research プラットフォームに展開された各会話型 AI について、著者らは A/B テスト設定 (記事のセクション 4.2 の式 15) に従って各日 k のユーザー エンゲージメントを計算しました。 20 日目 (k = 20) を考慮すると、図 1 はハイブリッド モデル、その構成要素である会話型 AI、および OpenAI の GPT-3.5 のエンゲージメント率を示しています。著者らは、中規模の会話型 AI (Pygmillion、Vicuna、ChaiLLM) のエンゲージメントは GPT3.5 よりも大幅に低いことを観察していますが、これは GPT3.5 のパラメータ数が桁違いに多いため予想されることです。しかし、これら 3 つの基本的な会話型 AI を組み合わせると、ハイブリッド モデルの結果は各コンポーネント システムよりもエンゲージメントが高くなるだけでなく、パフォーマンスも大幅に向上し、ハイブリッド モデルは OpenAI の GPT3.5 を上回るパフォーマンスを発揮します。他の会話型 AI と比較したハイブリッド モデルの成功は、図 1 に示すように、ユーザー維持率を k = 20 (記事のセクション 4.1 の式 10) と比較することによっても計算できます。

ハイブリッドモデルには合計 25 億のパラメーターがあり、OpenAI には 1750 億のパラメーターがあります。さらに、ハイブリッド モデルの応答は単一の会話型 AI からランダムにサンプリングされるため、推論コストは単一の 6B/13B システムと同等になります。図 2 と 3 では推論速度に大きな違いが見られ、ハイブリッド モデルではエンゲージメントとユーザー維持のパフォーマンスが大幅に向上している一方で、速度は小規模な会話型 AI と同等であることがわかります。これには重要な意味があります。品質を向上させるためにシステムを拡大するのではなく、複数の小規模なオープンソース システムを単純に組み合わせるだけで、推論コストを増やすことなく、ユーザーの会話エクスペリエンスを大幅に向上させることができます。これは、魅力的で成功する会話型 AI を設計する際に、単純なモデル パラメータのスケーリングよりもモデルのコラボレーションの方が重要であることを示しています。

客観的な比較として、表 1 に単一のメトリックの概要を示します (論文のセクション 3.3)。著者らは、ピグミリオンを対照群として、対照群と比較したテストのエンゲージメント率指標∆αと∆γ、および対照群と比較したテストの保持率指標∆ζと∆βを示しています。ハイブリッド モデルは、相対的な初期エンゲージメント ∆α が最も高く、エンゲージメント比率の減衰率 ∆γ も最も優れています。 Vicuna の保持率減衰率 ∆β はハイブリッド モデルよりも優れていますが、Vicuna の初期保持率 ∆ζ は大幅に低く、上記の図 2 および 3 に示すように、Vicuna がハイブリッド モデルの保持スコア 6 に到達するにはより長い時間が必要であることを示しています。全体的に、ハイブリッド モデルは、複数の小規模な会話型 AI を連携させることで、単一の大規模な会話型 AI (OpenAI の GPT3.5) よりも高品質の会話を提供するのに効果的であることは明らかです。

<<: 

>>:  金メダルレベルの数学スキル:DeepMindの幾何学的推論モデルがNatureに掲載され、コードはオープンソースで、フィールズ賞受賞者が賞賛

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

AIは学習しません!ネイチャー誌の最新研究が人工知能のブラックボックスを解読

人工知能(AI)は急速に進歩していますが、人間にとってその強力なモデルは「ブラックボックス」です。モ...

3億7500万人の労働者が転職する?人工知能が代替できない分野はどれですか?

人工知能は急速に発展しています。データによると、2016年から2020年にかけて、中国の人工知能市場...

AIOps ツールがクラウド コンピューティングに新たな命を吹き込む理由

[[331103]] AIOps ツールは IT 分野で幅広い応用が期待されていますが、クラウド テ...

人工知能によるテキスト検出の実践的有効性に関する議論

AI 支援による記事執筆は今やどこにでもあります。ChatGPT は多くの言語ベースの AI アプリ...

...

AIが材料科学を覆す!ディープマインドの主要な研究がネイチャー誌に掲載され、220万の結晶構造を予測し、人類より800年も先を行く

テレンス・タオ氏は、ChatGPT が数学的証明を覆すだろうと常に楽観的でしたが、現在、化学分野にお...

世界を理解する、最新のレビューは自動運転の新しい時代を開く

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

自然災害はサイバーセキュリティに影響を与える:異常気象や停電に対抗するにはAIが必要

10月28日、サンフランシスコのニュース予報では、29日の強風により再び停電が発生するだろうと報じら...

人工知能が医師の「映画鑑賞」を支援:診断精度は95%を超える

[[233292]]最近、北京天壇病院は、世界初のCTおよびMRI神経画像人工知能支援診断製品「Bi...

ChatGPT を使用して Web アプリケーションを構築する方法は?

翻訳者 |ブガッティレビュー | Chonglou ChatGPTの最大のセールスポイントの 1 つ...

人工知能はビッグデータの保存と管理の効率をどのように向上させるのでしょうか?

ビッグデータのソースが多数存在し、企業が利用できるデータの量も増加しているため、ストレージ管理者にと...

...

孫正義:今後30年の人工知能とモノのインターネット

これは非常に興味深いスピーチです。これは、MWC 2017でソフトバンクの孫正義氏が行ったスピーチで...

5G技術と人工知能のインテリジェントな組み合わせ

5GとAIは未解決の問題に解決策を見つけることができる5G はエッジの究極の未来です。 5G は、普...