アルパカ科全体よりも優れたMeta AIの新しい自己アライメント手法は、人間の注釈データをほとんど必要としません

アルパカ科全体よりも優れたMeta AIの新しい自己アライメント手法は、人間の注釈データをほとんど必要としません

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

手動ラベル付けデータは不足していますか?

Mata の新しい方法は、少量のシード データのみを使用して、高品質の命令に従う言語モデルを構築します。

言い換えれば、大規模な言語モデルでは、微調整のために手動で注釈を付けられた大量の指示データが必要になりますが、現在ではモデルはオンライン コーパス内のラベルのないテキストから指示を自動的に推測できます。

そして、自分で生成した指導データを使ってトレーニングを行うので、自社生産・自社販売に匹敵します。

そして、この方法を使用してトレーニングされたモデルは、Alpaca ベンチマークにおいてオープンソースの Alpaca とその派生モデルシリーズを上回ります

LeCun 氏は、この研究はモデルの自己整合という点でセンセーショナルだとツイートした。

ネットユーザーの一言でまとめると、次のようになります。

アルパカは自ら訓練を始めました。

2 つの文で要約すると次のようになります。

元々は、コマンド>応答データセットが必要でしたが(手動でラベル付けする必要がありました)、現在は、応答>コマンドを実行するための「リバースモデル」をトレーニングするだけで済みます。任意のテキストを自由に指示データセットに変換できます。

ネットユーザーの中には、次のような自問自答する質問を投げかける者もいた。

これが超知能への道のように見えると思うのは私だけでしょうか?追加の高品質な外部データを必要とせずに、どんどん賢くなる LLM を取得できる場合、それは自己改善型のクローズド システムです。

おそらく必要なのは、信号を提供する強化学習システムだけであり、残りの作業は LLM 自体の反復によって実行できます。

アルパカ:自分のデータを使ってクジラを訓練してみた

この新しいスケーラブルな方法は命令バックトランスレーションと呼ばれ、Mata はこの方法を使用してトレーニングされたモデルをHumpbackと名付けました。

(研究者らは、ラクダの背との関連性と、ラクダの背の方が大きいため、モデルのスケールも大きいことからこの名前が付けられたと述べた。)

ザトウクジラをトレーニングする手順は、少量のラベル付きデータから始めて、言語モデルを使用してラベルなしテキストに対応する指示を生成し、候補トレーニング データを形成するだけです。次に、モデルを使用してデータの品質を評価し、再トレーニング用の高品質のデータを選択します。このプロセスを繰り返して、モデルをさらに改善します。

上図に示すように、準備する必要がある「材料」は次のとおりです。

  • 基本モデル - LLaMa
  • Open Assistant データセットの3200 個の例で構成されるシード データ。各例にはコマンドと対応する出力が含まれています。
  • ClueWeb コーパスから、重複排除、フィルタリング、潜在的に低品質なセグメントの削除が行われた、ラベルなしテキストの 502K セグメント (ラベルなしデータ) が抽出されました。

注釈付きの例とコーパス ソースができたので、次のステップは自己拡張段階です。

研究者らはシードデータを使用してベースモデル LLaMa を微調整し、命令予測モデルを取得しました。この命令予測モデルは、ラベルのないテキストの候補命令を推測するために使用されます。次に、候補命令はテキスト(命令と出力のペア)と結合され、候補拡張トレーニング データとなります。これが上図の拡張データ A です。

しかし、ラベルなしテキスト自体の品質が大きく異なり、生成された候補指示にもノイズが含まれるため、A のデータは直接トレーニングには使用できません。

したがって、モデルを使用してデータの品質を予測し、トレーニング用の高品質のサンプルを選択するには、重要な自己キュレーション手順が必要です。

具体的には、研究者らはシードデータのみで微調整された指示モデルを使用して候補データを採点しました。満点は5点で、より高い得点を取った人だけが次のラウンドの候補データとして選ばれます。

モデル指示予測の品質を向上させるために、研究者は候補データを使用してモデルを反復的にトレーニングし、反復トレーニング中にデータの品質はどんどん向上しました。

さらに、シード データと拡張データを組み合わせてモデルを微調整する際には、2 つのデータ ソースを区別するために異なるシステム ヒント タグも使用しました。

  • シードデータ使用のヒント「AIアシスタント風に答える」
  • 「Web 検索からの知識で回答してください」というプロンプトを使用してデータをフィルタリングします。

2 回の反復を経て、最終モデルが完成します。

2種類のトレーニングデータをマージする: 1+1>2

研究者の分析結果は次のとおりです。

△シードデータと拡張データの命令多様性。内側の円は一般的な語源の動詞、外側の円はそれに対応する普通名詞です。

上の図は、8% のシード データと 13% の拡張データ統計を使用した命令の多様性を示しています。

ロングテール部分の強化データはより多様化しており、強化データは既存の手動で注釈付けされたシードデータを補完し、シードデータに表示されないタイプを補っていることが直感的にわかります。

次に、研究者らは3つの拡張データセットを比較した。拡張データ、すべて(自己管理なし)

実験では、データセットは小さくなったものの、トレーニング データの品質が向上したため、モデルのパフォーマンスが大幅に向上したことが観察されました。

△ 自己スクリーニングを使用して、さまざまなデータサイズと品質の自己拡張データを評価します。 Y 軸は、指定されたデータ サイズと品質で LLaMa 7B を微調整した場合の text-davinci-003 に対する勝率を示しています。

(text-davinci-003、強化学習を使用して人間が書いた指示データ、出力、モデル応答、および人間の好みに基づいて微調整された GPT-3 ベースの指示追従モデル)

最後にアルパカランキングの結果を見てみましょう。 Humpback は、抽出されたデータに依存せずに他の方法を大幅に上回り、独自のモデルとのギャップを埋めます。

非蒸留とは、いかなる形式の監督としても外​​部モデルに依存しないトレーニング モデルを指します。蒸留とは、外部モデルから蒸留されたデータを使用するなど、トレーニング プロセス中により強力な外部モデルを導入することを指します。独自とは、独自のデータとテクノロジを使用してトレーニングされたモデルを指します。

△text-davinci-003に対する勝率

オープンソースモデルの LIMA 65B、Guanaco 65B、Falcon-Instruct 40B、および独自モデルの davinci-003 と Claude と比較すると、Humpback のパフォーマンスは人間の好みにより合致しています。

さらに、研究者らはこの方法の限界についても指摘した。

トレーニングに使用されるテキスト データは Web コーパスから取得されるため、微調整されたモデルによって Web データのバイアスが増幅される可能性があります。ベースモデルと比較すると、微調整されたモデルでは逸脱を検出する精度が向上します。しかし、これで問題が完全に解決されるわけではありません。

ポータル: https://arxiv.org/abs/2308.06259 (論文リンク)

<<:  MIT、物体を拾うための「最強のアシスタント」を発表、少量のトレーニングサンプルで自然言語制御を実現

>>:  Google DeepMindは少なくとも21の新しい生成AI機能を開発中

ブログ    
ブログ    

推薦する

ビデオ映像から間取り図を推測する新たなAI研究は目を見張るものがある

フロアプランは、空間を視覚化したり、ルートを計画したり、建物のデザインを伝えたりするのに役立ちます。...

科学者が人工結晶で大きな進歩を遂げ、コンピューターをより低電力で動作可能に

コンピューターは小型化、高性能化していますが、動作には大量のエネルギーが必要です。過去 10 年間で...

画像内の文字の教師なし学習

[[201526]]人間の行動に関する研究が最近、Nature の子会社である Nature Hum...

最高人民検察院は、虚偽訴訟の監視に人工知能とビッグデータを活用することを検討している。

虚偽の訴訟は、他人の正当な権利と利益を侵害するだけでなく、社会の健全性を著しく損ない、司法の公平性、...

2022 年に AI はサイバーセキュリティ分野に何をもたらすでしょうか?

[[439421]] [51CTO.com クイック翻訳]近年、人工知能(AI)は私たちの日常生活...

デジタルヒューマンとは何か、そしてその将来性はどのようなものでしょうか?

今日の技術的に進歩した世界では、生きているようなデジタルヒューマンが大きな関心を集める新たな分野とな...

...

ChatSQL: ChatGPT を有効にしてプレーンテキストで SQL クエリを作成できるようにする

翻訳者 |ブガッティレビュー | Chonglou ChatGPTは2020年6月にリリースされ、 ...

Google MobileNetを超えろ! Huawei がエッジツーエッジ ニューラル ネットワーク アーキテクチャ GhostNet を提案 | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ビジネスを阻害する 6 つの AI 神話

AI テクノロジーは職場環境に深く浸透しており、単調で反復的な手作業を置き換えるだけでなく、他の仕事...

ディープラーニングは本当にゼロから始められるのでしょうか?

[[203908]]誰かが尋ねたディープラーニング — どこから始めればよいですか?今はTenso...

原理から応用まで: ロジスティック回帰アルゴリズムの簡単な説明

ロジスティック回帰は、バイナリ分類タスクで最も一般的に使用される機械学習アルゴリズムの 1 つです。...

30歳以下の人はどこへ行ってしまったのでしょうか? OpenAIは若者を引き付けるために懸命に努力している

編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)ビル・ゲイ...

...