LLM-Blender: 大規模な言語モデルも学習に統合可能

LLM-Blender: 大規模な言語モデルも学習に統合可能

最近、arxiv を見ていたときに、Ensemble メソッドを使用して大規模な言語モデルを統合できる LLM-Blender という興味深いフレームワークを見つけました。

公式の紹介は次のとおりです。LLM-Blender は、複数のオープンソースの大規模言語モデル (LLM) のさまざまな長所を活用して、一貫して優れたパフォーマンスを実現できる統合フレームワークです。

LLM統合

アンサンブル学習は、予測モデルのパフォーマンスと堅牢性を向上させることを目的とした機械学習手法であることは誰もが知っています。複数の異なる学習器 (決定木、ニューラル ネットワークなど) を 1 つに組み合わせて、単一の学習器よりも優れた予測結果を実現します。たとえば、この方法は最も一般的な Kaggle コンペティションで広く使用されています。

では、大規模な言語モデルを統合する必要があるのでしょうか?

この論文では次のような見解が示されている。

データ、アーキテクチャ、ハイパーパラメータの多様性により、LLM はそれぞれ異なる長所と短所を示し、相互に補完し合います。そして、現在のところ、すべての例を支配する単一のオープンソース LLM は存在しません。 LLM の出力 (入力、タスク、ドメインに基づく) を統合することで、さまざまな例にわたって一貫して優れたパフォーマンスを提供できます。それぞれのユニークな貢献を組み合わせることで、個々の LLM のバイアス、エラー、不確実性を軽減し、出力を人間の好みと一致させることができます。

LLM-ブレンダー

そこでこの論文ではLLM-Blenderのフレームワークを提示する。

LLM-Blender には、PairRanker と GenFuser という 2 つのモジュールがあります。 PairRanker は複数のモデルの出力を比較し、最も高いランクの出力を出力します。 GenFuser は、ランク付けされた上位数個の出力を結合して、最終出力を生成します。

1. PairRanker はどのように機能しますか?

PairRanker モジュールは、候補モデル出力間の微妙な違いを効果的に識別し、品質に応じてランク付けするために使用されます。 N 個のモデルの出力が収集され、合計 N(N-1)/2 通り (合計 N 個の項目から 2 つの項目を選択する組み合わせの数) でペアリングされます。次に、入力プロンプトに基づいて、どの候補の出力が優れているかに基づいて結果が評価されます。

推論中に、ペア比較の結果を表すロジットを含む行列が計算されます。この行列に基づいて、GenFuser モジュールの上位 k 個の出力を決定して選択します。

2. GenFuser はどのように機能しますか?

GenFuser モジュールは、PairRanker モジュールの上位ランクの出力を使用して、エンド ユーザー向けに改善された可能性のある出力を生成します。このモジュールは、上位 N 件の結果のうち上位 K 件を融合し、それぞれの長所を活かして弱点を軽減した改善された出力を生成します。

ベンチマーク

この論文では、命令追跡タスクにおける LLM のアンサンブル モデルのベンチマークを行うための、MixDirective と呼ばれる新しいデータセットを紹介しています。このデータセットには、Alpaca-GPT4、Dolly-15K、GPT4-ALL-LAION、ShareGPT からの大規模な命令例セットが含まれています。トレーニング用の例が 100,000 件、検証用の例が 50,000 件、テスト用の例が 50,000 件あります。

テストには、N = 11 の一般的なオープン ソース LLM が使用されます。候補出力は、すべての候補ペアに対して ChatGPT を使用して評価されます。各ペアについて、ChatGPT はどちらが優れているかを判断するように求められます。

各LLMにはそれぞれ異なる長所と短所があることがわかります。トップレベルの LLM 取得者が必ずしもテストで最高の成績を収めるとは限りません。 PairRanker は他の LLM よりも優れています。 LLM と Blender の組み合わせは、他のどの単一モデルよりも優れています。

制限

重要なのは効率です。PairRanker で上位 K 個の出力をソートするプロセスでは、最適なパフォーマンスを実現するためにモデルを O(n²) 回呼び出す必要があるためです。この問題に対処する 1 つの方法は、バブル ソートを複数回実行して、必要な推論の数を減らすことです。時間効率を向上させるもう 1 つの方法は、PairRanker の推論を独立して並列に実行すること、つまり複数のモデルを同時に推論することです。

現在の論文では、ChatGPT の助けを借りて自動評価を使用しています。自動評価は良い選択肢ではありますが、人間による評価の方が信頼性が高く包括的な評価結果を提供できます。

<<:  AIは仕事を楽にする?これらの人々は反対します。「仕事量が倍増しました!」

>>:  人工知能とモノのインターネットの動的統合の探究(I)

推薦する

合理性への回帰とアプリケーションとの統合 - AI時代のモバイル技術革新カンファレンス

人工知能の出現により、ますます多くの企業がそれを業務や生産に応用しています。新しいモバイル開発技術が...

機械学習の人気のトレンドの概要

Google トレンドを使ったことがありますか? かなり便利です。キーワードをいくつか入力すると、G...

60歳以上のインターネット利用者は音声検索やAI学習ツールを活用し、急速に増加している

高齢者間の「情報格差」解消を求める声は衰えず、高齢者はインターネットへのアクセスに対する新たな要求に...

Pythonでゲームボーイエミュレーターを作成し、AIモデルをトレーニングする:デンマーク人の大学のプロジェクトが大ヒット

Atari ゲームを使って人工知能を研究するのは、ちょっと現実的ではないと感じますか?これでゲームボ...

機械学習の発展が吹き替え技術の向上にどのように役立つか

翻訳者 | 李睿校正 | 梁哲、孫淑娟人工知能 (AI) テクノロジーはここ数年で急速に発展し、ビジ...

「リーフチップ」が小型ロボットに油圧パワーを提供

[[186706]]マサチューセッツ工科大学(MIT)は最近、同校の研究者らが樹木や植物のポンプ機構...

マスク氏は激怒:マイクロソフトはAI用のデータ収集にWindowsを使用しているが、登録なしでは使用できない

マスク氏が投稿したXダイナミックにより、Microsoft Windowsは論争の中心となった。事件...

ナレッジグラフの紹介

1.1 ナレッジグラフの開発履歴ナレッジグラフは 1950 年代に始まり、大きく 3 つの開発段階に...

AI ロボットは製造業にどのような変化をもたらすのでしょうか?

AIロボットとは?人工知能 (AI) ロボットは、現実世界の環境で動作する人工知能エンティティです...

清華大学がJittorをオープンソース化:国内初の大学開発のディープラーニングフレームワーク、PyTorchへのワンクリック変換が可能

Theano、Caffeに続き、大学主導のディープラーニングフレームワークがオープンソース化され、国...

サプライチェーン管理における自動化の重要性

今日のペースが速く競争の激しいビジネス環境において、サプライ チェーン管理は成功に不可欠な要素です。...

死角なしの360度!カリフォルニア大学バークレー校、中国で3DHMフレームワークをリリース:1枚の写真であらゆるビデオアクションを模倣可能

任意のポーズの写真を入力し、写真の人物に「指定された動画」の動きを真似してもらうのは簡単ではありませ...

生徒のエッセイ採点における新たな傾向: 教師と AI の共同モデル

テクノロジーが進歩するにつれ、それが従来の人間の仕事をどのように変えたり、置き換えたりするのかという...

最初の機械学習APIをデプロイする

[[432622]] 【51CTO.com クイック翻訳】はじめにこのプロジェクトでは、簡単なコード...

人工知能は将来の仕事や生活にどのような影響を与えるのでしょうか?

記憶の道をたどってみると、この時代に人類がどれだけ進歩したかがわかるでしょう。昔は、愛する人に手紙を...