LLM-Blender: 大規模な言語モデルも学習に統合可能

LLM-Blender: 大規模な言語モデルも学習に統合可能

最近、arxiv を見ていたときに、Ensemble メソッドを使用して大規模な言語モデルを統合できる LLM-Blender という興味深いフレームワークを見つけました。

公式の紹介は次のとおりです。LLM-Blender は、複数のオープンソースの大規模言語モデル (LLM) のさまざまな長所を活用して、一貫して優れたパフォーマンスを実現できる統合フレームワークです。

LLM統合

アンサンブル学習は、予測モデルのパフォーマンスと堅牢性を向上させることを目的とした機械学習手法であることは誰もが知っています。複数の異なる学習器 (決定木、ニューラル ネットワークなど) を 1 つに組み合わせて、単一の学習器よりも優れた予測結果を実現します。たとえば、この方法は最も一般的な Kaggle コンペティションで広く使用されています。

では、大規模な言語モデルを統合する必要があるのでしょうか?

この論文では次のような見解が示されている。

データ、アーキテクチャ、ハイパーパラメータの多様性により、LLM はそれぞれ異なる長所と短所を示し、相互に補完し合います。そして、現在のところ、すべての例を支配する単一のオープンソース LLM は存在しません。 LLM の出力 (入力、タスク、ドメインに基づく) を統合することで、さまざまな例にわたって一貫して優れたパフォーマンスを提供できます。それぞれのユニークな貢献を組み合わせることで、個々の LLM のバイアス、エラー、不確実性を軽減し、出力を人間の好みと一致させることができます。

LLM-ブレンダー

そこでこの論文ではLLM-Blenderのフレームワークを提示する。

LLM-Blender には、PairRanker と GenFuser という 2 つのモジュールがあります。 PairRanker は複数のモデルの出力を比較し、最も高いランクの出力を出力します。 GenFuser は、ランク付けされた上位数個の出力を結合して、最終出力を生成します。

1. PairRanker はどのように機能しますか?

PairRanker モジュールは、候補モデル出力間の微妙な違いを効果的に識別し、品質に応じてランク付けするために使用されます。 N 個のモデルの出力が収集され、合計 N(N-1)/2 通り (合計 N 個の項目から 2 つの項目を選択する組み合わせの数) でペアリングされます。次に、入力プロンプトに基づいて、どの候補の出力が優れているかに基づいて結果が評価されます。

推論中に、ペア比較の結果を表すロジットを含む行列が計算されます。この行列に基づいて、GenFuser モジュールの上位 k 個の出力を決定して選択します。

2. GenFuser はどのように機能しますか?

GenFuser モジュールは、PairRanker モジュールの上位ランクの出力を使用して、エンド ユーザー向けに改善された可能性のある出力を生成します。このモジュールは、上位 N 件の結果のうち上位 K 件を融合し、それぞれの長所を活かして弱点を軽減した改善された出力を生成します。

ベンチマーク

この論文では、命令追跡タスクにおける LLM のアンサンブル モデルのベンチマークを行うための、MixDirective と呼ばれる新しいデータセットを紹介しています。このデータセットには、Alpaca-GPT4、Dolly-15K、GPT4-ALL-LAION、ShareGPT からの大規模な命令例セットが含まれています。トレーニング用の例が 100,000 件、検証用の例が 50,000 件、テスト用の例が 50,000 件あります。

テストには、N = 11 の一般的なオープン ソース LLM が使用されます。候補出力は、すべての候補ペアに対して ChatGPT を使用して評価されます。各ペアについて、ChatGPT はどちらが優れているかを判断するように求められます。

各LLMにはそれぞれ異なる長所と短所があることがわかります。トップレベルの LLM 取得者が必ずしもテストで最高の成績を収めるとは限りません。 PairRanker は他の LLM よりも優れています。 LLM と Blender の組み合わせは、他のどの単一モデルよりも優れています。

制限

重要なのは効率です。PairRanker で上位 K 個の出力をソートするプロセスでは、最適なパフォーマンスを実現するためにモデルを O(n²) 回呼び出す必要があるためです。この問題に対処する 1 つの方法は、バブル ソートを複数回実行して、必要な推論の数を減らすことです。時間効率を向上させるもう 1 つの方法は、PairRanker の推論を独立して並列に実行すること、つまり複数のモデルを同時に推論することです。

現在の論文では、ChatGPT の助けを借りて自動評価を使用しています。自動評価は良い選択肢ではありますが、人間による評価の方が信頼性が高く包括的な評価結果を提供できます。

<<:  AIは仕事を楽にする?これらの人々は反対します。「仕事量が倍増しました!」

>>:  人工知能とモノのインターネットの動的統合の探究(I)

ブログ    
ブログ    

推薦する

正解率が7.8%アップしました!最初のマルチモーダルオープンワールド検出モデルMQ-DetがNeurIPS 2023に掲載されました

現在のオープンワールド オブジェクト検出モデルのほとんどは、テキスト クエリ モデル、つまりカテゴリ...

...

医学物理学におけるAIの応用に関する簡単な分析

近年、バイオメディカルにおける人工知能 (AI) と機械学習 (ML) アルゴリズムの応用は拡大し続...

GPT-4より18倍高速、世界最速の大型モデルGroqが登場!毎秒500トークンが記録を破る、自社開発LPUはNVIDIA GPUの10倍

気がつくと、1 秒あたり 500 トークンを出力できる Groq モデルがインターネット上に広まって...

一貫性のあるハッシュアルゴリズムとJava実装

コンシステント ハッシュ アルゴリズムは、1997 年にマサチューセッツ工科大学によって提案された分...

...

...

人工知能の力: ウェブ開発者がいまだに雇用されている理由

記事ソース| https://dzone.com/articles/the-power-of-ai-...

ハッカーが、さまざまなネットワーク攻撃コードを自動生成できる悪質なAIツールFraudGPTを公開

7月31日、「ハッカーがAIを使って犯罪ツールを作る」という研究者の懸念が徐々に現実のものとなりつつ...

自動運転車はすでに登場していますが、船舶が AI に取って代わられるまでには長い時間がかかるのでしょうか?

次回フェリーに乗るときは、ブリッジをよく見ることを忘れないでください。舵を取っているのは人間ではない...

人工知能の長所と短所について知っておくべき10の事実

[[202058]] 1. 人工知能があなたの仕事を奪いに来ます。自分のキャリアを守るためには、機械...

人工知能、AI、ロボットは雇用に影響を与えるでしょうか?劉強東さんの答えに人々は拍手喝采しました!

[[220982]]人工知能とロボットはどちらも破壊的であり、人類社会の発展の新たな時代を導くでし...

...

マスク氏の非嫡出双子が初めて暴露される!ニューラリンクの女性幹部に付き添われ、AIの終焉を憂いながら赤ちゃんを散歩させていた

マスク氏の非嫡出双子が初めて世間に公開される!最近、「スティーブ・ジョブズ」の著者であり伝記作家でも...

人工知能技術が医療の精度をさらに向上

マクロ的な視点で見ると、人工知能(AI)は労働力を補完する存在です。AIはデータに基づく意思決定のツ...