GPT-3.5 を選択すべきでしょうか、それとも Llama 2 などのオープンソースモデルを微調整すべきでしょうか?総合的に比較した結果、答えは

GPT-3.5 の微調整には非常にコストがかかることはよく知られています。この論文では、手動で微調整されたモデルが、わずかなコストで GPT-3.5 のパフォーマンスに近づくことができるかどうかを実験的に検証します。興味深いことに、この記事はまさにそれを行っています。

この論文では、SQL タスクと機能表現タスクの結果を比較して、次のことがわかりました。

GPT-3.5 は、両方のデータセット (Spider データセットと Viggo 機能表現データセットのサブセット) で、Lora で微調整された Code Llama 34B よりもわずかに優れたパフォーマンスを発揮します。
GPT-3.5 はトレーニングに 4 ～ 6 倍のコストがかかり、展開にもコストがかかります。

この実験の結論の 1 つは、GPT-3.5 の微調整は初期検証作業には適しているが、その後は Llama 2 のようなモデルが最適な選択肢になる可能性があるということです。簡単にまとめると、

特定のタスク/データセットに対して微調整が適切なアプローチであることを検証する場合、または完全に管理された環境が必要な場合は、GPT-3.5 を微調整します。
コストを節約したい場合、データセットから最大限のパフォーマンスを引き出したい場合、トレーニングおよびデプロイメントインフラストラクチャの柔軟性を高めたい場合、または一部のデータを非公開にしたい場合は、Llama 2 などのオープンソースモデルを微調整してください。

次に、この記事がどのように実装されているかを見てみましょう。

下の図は、SQL タスクと機能表現タスクで収束するようにトレーニングされた Code Llama 34B と GPT-3.5 のパフォーマンスを示しています。結果は、GPT-3.5 が両方のタスクで優れた精度を達成することを示しています。

ハードウェアの使用に関しては、実験では A40 GPU が使用され、1 時間あたり約 0.475 ドルのコストがかかりました。

さらに、この実験では、Spider データセットのサブセットと Viggo 機能表現データセットという、微調整に非常に適した 2 つのデータセットが選択されました。

GPT-3.5 モデルと公平に比較するために、Llama は最小限のハイパーパラメータの微調整を受けました。

私たちの実験における 2 つの重要な選択は、完全なパラメータの微調整ではなく、Code Llama 34B と Lora の微調整を使用することです。

実験は、Lora ハイパーパラメータの微調整に関するルールにほぼ従いました。Lora アダプターは次のように構成されました。

次に、SQL ヒントの例を示します。

SQLプロンプトは部分的に表示されています。完全なプロンプトについては元のブログを参照してください。

この実験では完全なSpiderデータセットは使用しなかった。

 department : Department_ID [ INT ] primary_key Name [ TEXT ] Creation [ TEXT ] Ranking [ INT ] Budget_in_Billions [ INT ] Num_Employees [ INT ] head : head_ID [ INT ] primary_key name [ TEXT ] born_state [ TEXT ] age [ INT ] management : department_ID [ INT ] primary_key management.department_ID = department.Department_ID head_ID [ INT ] management.head_ID = head.head_ID temporary_acting [ TEXT ]

この実験では、sql-create-context データセットと Spider データセットの交差部分を使用することを選択します。モデルに提供されるコンテキストは、次のような SQL 作成コマンドです。

 CREATE TABLE table_name_12 (class VARCHAR, frequency_mhz VARCHAR, city_of_license VARCHAR)

SQL タスクコードとデータアドレス: https://github.com/samlhuillier/spider-sql-finetune

機能表現のヒントの例を以下に示します。

機能表現のヒントは部分的に表示されています。完全なヒントについては元のブログをご覧ください。

出力は次のようになります。

 verify_attribute(name[Little Big Adventure], rating[average], has_multiplayer[no], platforms[PlayStation])

評価フェーズでは、2 つの実験はすぐに収束しました。

機能表現タスクコードとデータアドレス: https://github.com/samlhuillier/viggo-finetune

詳細については、元のブログをご覧ください。

<<: OpenAIは静かにその中核となる価値観を改訂し、汎用人工知能の構築に注力する

>>:

ロボットに25分で6つの動作を学習させるトレーニング、バークレーは効率的なロボット操作フレームワークを開発

ブログ

世界の自動運転「M&A」を4大勢力が攻勢

ブログ

DeLu Deep Visionが蘇州スマート博覧会に登場、3Dフルスタックでマシンビジョンの新時代を切り開く

GPT-3.5 を選択すべきでしょうか、それとも Llama 2 などのオープンソースモデルを微調整すべきでしょうか?総合的に比較した結果、答えは

ロボットに25分で6つの動作を学習させるトレーニング、バークレーは効率的なロボット操作フレームワークを開発

世界の自動運転「M&A」を4大勢力が攻勢

DeLu Deep Visionが蘇州スマート博覧会に登場、3Dフルスタックでマシンビジョンの新時代を切り開く

BERT の素晴らしさはすべてデータセットのおかげであるのでしょうか?大きなモデルがリストを独占することは、学術界にとって大惨事となるかもしれない

「AI医薬品製造」の新時代が到来！人工知能がより良い抗がん剤の組み合わせを予測

人工知能は視覚効果アーティストの役割に取って代わるでしょうか?

K近傍教師あり学習マシンアルゴリズムの詳細な分析

推薦する

Tensorflowを使用して畳み込みニューラルネットワークを構築する

データ + 進化的アルゴリズム = データ駆動型進化的最適化?進化的アルゴリズムと数学的最適化

職場におけるAIと自動化の重要性

2024年の8つの主要テクノロジートレンド

デフォルトの心配はありません!ファーウェイとSTマイクロエレクトロニクスが共同でチップを設計

C# バイナリツリートラバーサルアルゴリズムの実装の簡単な分析

業界の未来を牽引する8つのデジタル変革トレンド

Windows Update で使用される指数アルゴリズムにより、XP マシンの速度が大幅に低下する

ヘルスケアにおける人工知能の機会とリスク

人工知能チップの過去、現在、そして未来

無料の Python 機械学習コース 6: ニューラルネットワークアルゴリズム

テクノロジー大手はAI人材の獲得に競い合い、新卒でも巨額の給与を得られる