最近、arxiv を見ていたときに、Ensemble メソッドを使用して大規模な言語モデルを統合できる LLM-Blender という興味深いフレームワークを見つけました。 公式の紹介は次のとおりです。LLM-Blender は、複数のオープンソースの大規模言語モデル (LLM) のさまざまな長所を活用して、一貫して優れたパフォーマンスを実現できる統合フレームワークです。 LLM統合アンサンブル学習は、予測モデルのパフォーマンスと堅牢性を向上させることを目的とした機械学習手法であることは誰もが知っています。複数の異なる学習器 (決定木、ニューラル ネットワークなど) を 1 つに組み合わせて、単一の学習器よりも優れた予測結果を実現します。たとえば、この方法は最も一般的な Kaggle コンペティションで広く使用されています。 では、大規模な言語モデルを統合する必要があるのでしょうか? この論文では次のような見解が示されている。 データ、アーキテクチャ、ハイパーパラメータの多様性により、LLM はそれぞれ異なる長所と短所を示し、相互に補完し合います。そして、現在のところ、すべての例を支配する単一のオープンソース LLM は存在しません。 LLM の出力 (入力、タスク、ドメインに基づく) を統合することで、さまざまな例にわたって一貫して優れたパフォーマンスを提供できます。それぞれのユニークな貢献を組み合わせることで、個々の LLM のバイアス、エラー、不確実性を軽減し、出力を人間の好みと一致させることができます。 LLM-ブレンダーそこでこの論文ではLLM-Blenderのフレームワークを提示する。 LLM-Blender には、PairRanker と GenFuser という 2 つのモジュールがあります。 PairRanker は複数のモデルの出力を比較し、最も高いランクの出力を出力します。 GenFuser は、ランク付けされた上位数個の出力を結合して、最終出力を生成します。 1. PairRanker はどのように機能しますか?PairRanker モジュールは、候補モデル出力間の微妙な違いを効果的に識別し、品質に応じてランク付けするために使用されます。 N 個のモデルの出力が収集され、合計 N(N-1)/2 通り (合計 N 個の項目から 2 つの項目を選択する組み合わせの数) でペアリングされます。次に、入力プロンプトに基づいて、どの候補の出力が優れているかに基づいて結果が評価されます。 推論中に、ペア比較の結果を表すロジットを含む行列が計算されます。この行列に基づいて、GenFuser モジュールの上位 k 個の出力を決定して選択します。 2. GenFuser はどのように機能しますか?GenFuser モジュールは、PairRanker モジュールの上位ランクの出力を使用して、エンド ユーザー向けに改善された可能性のある出力を生成します。このモジュールは、上位 N 件の結果のうち上位 K 件を融合し、それぞれの長所を活かして弱点を軽減した改善された出力を生成します。 ベンチマークこの論文では、命令追跡タスクにおける LLM のアンサンブル モデルのベンチマークを行うための、MixDirective と呼ばれる新しいデータセットを紹介しています。このデータセットには、Alpaca-GPT4、Dolly-15K、GPT4-ALL-LAION、ShareGPT からの大規模な命令例セットが含まれています。トレーニング用の例が 100,000 件、検証用の例が 50,000 件、テスト用の例が 50,000 件あります。 テストには、N = 11 の一般的なオープン ソース LLM が使用されます。候補出力は、すべての候補ペアに対して ChatGPT を使用して評価されます。各ペアについて、ChatGPT はどちらが優れているかを判断するように求められます。 各LLMにはそれぞれ異なる長所と短所があることがわかります。トップレベルの LLM 取得者が必ずしもテストで最高の成績を収めるとは限りません。 PairRanker は他の LLM よりも優れています。 LLM と Blender の組み合わせは、他のどの単一モデルよりも優れています。 制限重要なのは効率です。PairRanker で上位 K 個の出力をソートするプロセスでは、最適なパフォーマンスを実現するためにモデルを O(n²) 回呼び出す必要があるためです。この問題に対処する 1 つの方法は、バブル ソートを複数回実行して、必要な推論の数を減らすことです。時間効率を向上させるもう 1 つの方法は、PairRanker の推論を独立して並列に実行すること、つまり複数のモデルを同時に推論することです。 現在の論文では、ChatGPT の助けを借りて自動評価を使用しています。自動評価は良い選択肢ではありますが、人間による評価の方が信頼性が高く包括的な評価結果を提供できます。 |
<<: AIは仕事を楽にする?これらの人々は反対します。「仕事量が倍増しました!」
>>: 人工知能とモノのインターネットの動的統合の探究(I)
インテリジェント製造は、世界中の工業製造企業が追求する目標です。インテリジェント化のプロセスには、設...
フランスのミストラルAIは設立からわずか9か月で、GPT-4に次ぐモデルを開発した。 API 経由で...
画像処理の分野では、AIブラシがますます目立つようになってきています。以前、AIロスレス画像拡大、A...
[[393927]] Raft は、リーダーを基準としてノード間のログの一貫性を実現するコンセンサス...
7月6日、Googleはプライバシーポリシーを更新し、BardやCloud AIなどのさまざまな人...
暗号化アルゴリズムは主にソフトウェアとハードウェアを通じて実装されます。ソフトウェア実装には柔軟...
[[405587]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
クロード 3 のアリーナ ランクがついに登場:わずか 3 日間で 20,000 票が集まり、リストの...
著者 | Tu Chengyeレビュー | Chonglou前の記事:「人材が足りないのではなく、A...
最近、テクノロジーが私たちを支配していることに疑いの余地はありません。 COVID-19のパンデミッ...
現在、人工知能技術は急速に発展しており、非常に注目を集めています。しかし、数多くの方法があるにもかか...
研究者たちは、研究室の中を動き回り、人間のように科学実験を行うことができる画期的なロボット研究助手を...
Cactiパーセンタイル監視アルゴリズムcacti のテンプレート自体はハードディスクの使用サイズし...
IDCは2019年9月の時点で、2023年までに人工知能技術への支出が3倍以上の979億ドルに達する...