今年は、ChatGPTやGPT-4に代表される大規模言語モデル(LLM)が急速に発展しました。それに続いて、MetaのオープンソースLLaMaおよびLlama 2シリーズモデルもAIコミュニティに大きな波紋を巻き起こしました。しかし、これには絶え間ない論争が伴います。LLM には制御不能なリスクがあり、人類の生存に潜在的な脅威をもたらすと考える人もいます。 これらの課題に対処するために、LLM アライメントの研究がますます重要になっています。一部の研究者は指示に従うことを提案していますが、この方法では多くの手動注釈が必要です。しかし、このような高品質の指示に従うデータセットに注釈を付けるには、非常にコストがかかります。 この論文では、Meta AIの研究者らが、対応する命令に自動的に注釈を付けることで高品質の命令準拠言語モデルを構築するスケーラブルな方法である命令バックトランスレーションを提案しました。 論文アドレス: https://arxiv.org/pdf/2308.06259.pdf 具体的には、研究はシードモデルとしての言語モデルから始まり、少量のシードデータと Web コーパスで微調整されます。シード モデルの役割は、トレーニング サンプルを作成し、それらのサンプルから高品質のサンプルをいくつか選別し、これらのデータを使用してより強力なモデルを微調整することです。 LLaMa を 2 ラウンドの反復データセットで微調整した後、結果として得られたモデル Humpback は、Alpaca リーダーボードで LIMA、Claude、Guanaco などの他の既存の非蒸留モデルよりも優れたパフォーマンスを発揮しました。 Humpback はもともとザトウクジラを意味し、ザトウクジラとしても知られています。Meta はこのモデルを Humpback と名付けましたが、これには特別な意味があるのかもしれません。 この翻訳は、機械翻訳における古典的な逆翻訳手法を利用しており、人間が書いた翻訳対象文に、モデルが生成した別の言語の原文が自動的に注釈付けされるため、指示逆翻訳と呼ばれています。研究者らによると、この手法は機械翻訳における古典的な逆翻訳手法を利用しているとのことです。 チューリング賞受賞者のヤン・ルカン氏は、研究アプローチの概要を説明し、アライメント研究に重要な貢献をしたメタを称賛しました。 別のネットユーザーは、この研究について、データの品質は確かに大規模モデルにとって重要であるとうまくまとめています。研究中、彼らはさまざまなレベルのフィルタリングされたデータを使用してモデルを微調整しました。その結果、最良のサンプルだけが、他のサンプルよりも優れたパフォーマンスを発揮するモデルを生成できることが示されました。 この論文では、2 つのステップを必要とする新しいデータ拡張パラダイムを提案します。まず、より優れた命令データを生成するために、シード(命令、出力)ペアのセットとコーパスが必要です。 次の図は、Humpback といくつかのオープンソース モデルおよび独自モデルを比較したものです。 以下の表 4 は、65B および 33B モデル スケールの両方において、当社の方法が非蒸留モデルの中で最も優れたパフォーマンスを発揮するモデルであることを示しています。 具体的な方法を以下で見ていきましょう。 方法の紹介この研究では、一般的に基本言語モデル、少量のシードデータ、ラベルなしのサンプルセット(Web コーパスなど)へのアクセスを前提とした自己トレーニング アプローチを提案しています。ラベルなしデータは、多くの場合、人間が作成したさまざまな形式の大量のドキュメントであり、人間が興味を持つさまざまなトピックに関するコンテンツが含まれていますが、最も重要なのは、指示が付いていないことです。 ここでは 2 つの重要な前提があります。最初の前提は、この非常に大きなテキスト セット (ラベルなしのサンプル セット) には、特定のユーザー指示の生成サンプルとして適したサブセットがいくつかあるということです。 2 番目の仮定は、これらの候補回答に対する指示を予測することができ、それを使用して、指示に従うモデルをトレーニングするための高品質のサンプル ペアを形成できるということです。 下の図 1 に示すように、この研究では、命令の逆翻訳プロセスは次の 2 つの主要なステップで構成されていると提案されています。
自己管理手順で使用されるプロンプトを以下の表 1 に示します。 実験と結果この記事のデータセットには、主にシードデータと拡張データが含まれています。具体的な情報は表 2 と図 2 に示されています。 図 3 は、データ サイズが増加したにもかかわらず、自己キュレーションなしで拡張データを使用してモデルをトレーニングすると、指示に従うパフォーマンスが向上しないことを示しています。 次の図は、さまざまな命令チューニング データセットのデータ効率を比較したものです。 データとモデルの共同拡張: 調査の結果、7B モデルで観察されたデータ拡張の傾向は、より大規模なモデルにも当てはまることがわかりました。たとえば、65B シード モデルに高品質の拡張データを追加すると、さらなる改善が実現します。 常識的推論: この調査は、SIQA、PIQA、Arc-Easy、Arc-Challenge、Openbook QA (OBQA) の 5 つの常識的推論ベンチマークでテストされました。結果は表 5 にまとめられています。結果は、基本モデルと比較して、社会的推論などの多くの側面で私たちのモデルのパフォーマンスが向上したことを示しています。 MMLU: 表 6 は、MMLU (大規模マルチタスク言語理解) に関するさまざまなモデルの結果をまとめたものです。微調整されたモデルは、ベースモデルと比較してゼロショットの精度が向上しますが、5 ショットのコンテキストの例ではパフォーマンスが低下します。 |
>>: GPT-4 は AGI のきっかけとなるだけでしょうか? LLMは最終的に廃止され、世界モデルが未来となる
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[原文は51CTO.comより] 国家の不動産市場マクロコントロール政策の導入以来、住宅購入の敷居は...
画像を生成するための大規模なモデルがコンピュータービジョンやグラフィックスの基礎となっている一方で、...
Nvidia の Huang 氏は、新世代の GPU チップ H200 で再び市場に参入しました。公...
無線通信の急速な発展に伴い、屋内測位のための無線ネットワークと RFID 技術の組み合わせがますます...
2019年10月26日、Testinが主催する第2回NCTS中国クラウドテスト業界サミットが北京で開...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
2020年は多くの人々にとって忘れられない年です。新型コロナウイルス感染症の突然の発生は、ほぼすべて...
今日は、実際の戦闘でよく使われる26のヒントを紹介します。これにより、出力がより効果的になります。見...
ご家族の皆さん、世界中で人気の魔法のダンス「Subject Three」、まさか兵馬俑も踊り始めると...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
この新しいフェーズは、ディープ テクノロジーの開発と採用のかつてない増加、世界の人口動態の大きな変化...
01 トラフィック監視セキュリティ任務におけるドローンの有望な用途の 1 つは、交通監視システムの...