1800億パラメータ、世界最高峰のオープンソース大型モデルFalconが正式発表！ Crush LLaMA 2、GPT-4に近いパフォーマンス

一夜にして、世界で最も強力なオープンソースの大型モデル Falcon 180B がインターネット全体を熱狂させました。

1,800億のパラメータを持つFalconは、3.5兆トークンのトレーニングを完了し、Hugging Faceランキングでトップになりました。

ベンチマークテストでは、Falcon 180B が推論、コーディング、熟練度、知識テストなどさまざまなタスクで Llama 2 に勝ちました。

実際、Falcon 180B は Google PaLM 2 に匹敵し、そのパフォーマンスは GPT-4 に近いです。

しかし、Nvidiaの上級科学者ジム・ファン氏はこれに疑問を呈した。

- Falcon-180B トレーニングデータでは、コードが占める割合は 5% のみです。

コードは、推論力の向上、ツールの使用の習得、AI エージェントの強化に最も役立つデータです。実際、GPT-3.5 は Codex に基づいて微調整されています。

- エンコードベンチマークデータはありません。

コーディングスキルがなければ、「GPT-3.5 よりも優れている」または「GPT-4 に近い」と主張することはできません。それは事前トレーニングレシピの不可欠な部分であるべきであり、事後に微調整されるべきではありませんでした。

- パラメータが 30B を超える言語モデルの場合、専門家の混合 (MoE) を採用する時期です。これまでのところ、OSS MoE LLM < 10B のみが確認されています。

Falcon 180B がどのようなものなのか見てみましょう。

世界で最も強力なオープンソースモデル

これまで、ファルコンは 1.3B、7.5B、40B の 3 つのモデルサイズを発売してきました。

公式発表によると、ファルコン180Bは40Bのアップグレード版で、アブダビにある世界有数の技術研究センターであるTIIによって打ち上げられ、商業利用は無料です。

今回、研究者らは、モデルのスケーラビリティを向上させるためにマルチクエリアテンションを使用するなど、ベースモデルに技術革新を加えました。

トレーニングプロセスでは、Falcon 180B は、Amazon クラウドマシンラーニングプラットフォームである Amazon SageMaker をベースに、最大 4096 個の GPU で 3.5 兆個のトークンのトレーニングを完了しました。

合計 GPU 計算時間は約 7,000,000 です。

Falcon 180B のパラメータサイズは Llama 2 (70B) の 2.5 倍ですが、トレーニングに必要な計算量は Llama 2 の 4 倍です。

具体的なトレーニングデータのうち、Falcon 180B は主に RefinedWe データセット (約 85% を占める) です。

また、会話、技術論文、小さなコードなど、厳選されたさまざまなデータに基づいてトレーニングされます。

この事前トレーニングデータセットは十分に大きいため、3.5 兆個のトークンでも 1 エポック未満しかかかりません。

関係者は、Falcon 180B が現在「最高」のオープンソース大型モデルであり、次のような具体的な性能を備えていると主張しています。

MMLU ベンチマークでは、Falcon 180B は Llama 2 70B および GPT-3.5 よりも優れたパフォーマンスを発揮します。

これは、HellaSwag、LAMBADA、WebQuestions、Winogrande、PIQA、ARC、BoolQ、CB、COPA、RTE、WiC、WSC、ReCoRD における Google の PaLM 2-Large と同等です。

さらに、Hugging Face オープンソース大規模モデルリストでは、LlaMA 2 (67.35) を上回り、最高得点のオープン大規模モデル (68.74 ポイント) となりました。

ファルコン180Bが利用可能

同時に、研究者らはチャット対話モデル「Falcon-180B-Chat」もリリースした。このモデルは、Open-Platypus、UltraChat、Airoboros をカバーする会話とコマンドのデータセットに基づいて微調整されています。

今なら誰でもデモを体験できます。

アドレス: https://huggingface.co/tiiuae/falcon-180B-chat

プロンプト形式

基本モデルは、大規模な会話モデルではなく、指示によるトレーニングも行われないため、プロンプト形式がなく、会話形式で応答しません。

事前トレーニング済みモデルは微調整に最適なプラットフォームですが、直接使用することはおそらく避けるべきです。対話モデルにはシンプルな対話モードがあります。

 System: Add an optional system prompt here User: This is the user input Falcon: This is what the model generates User: This might be a second turn input Falcon: and so on

トランスフォーマー

Transformers 4.33 以降では、Falcon 180B を Hugging Face エコシステムで使用およびダウンロードできます。

Hugging Face アカウントにログインし、最新バージョンのトランスフォーマーがインストールされていることを確認してください。

 pip install --upgrade transformers huggingface-cli login

bfloat16

bfloat16 で基本モデルを使用する方法は次のとおりです。 Falcon 180B は大型モデルなので、ハードウェア要件に注意してください。

このためのハードウェア要件は次のとおりです。

Falcon 180B をフルにファインチューニングしたい場合、少なくとも 8X8X A100 80G が必要であることがわかります。推論のみの場合、8XA100 80G GPU も必要です。

 from transformers import AutoTokenizer, AutoModelForCausalLM import transformers import torch model_id = "tiiuae/falcon-180B" tokenizer = AutoTokenizer.from_pretrained(model_id) model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.bfloat16, device_map="auto", ) prompt = "My name is Pedro, I live in" inputs = tokenizer(prompt, return_tensors="pt").to("cuda") output = model.generate( input_ids=inputs["input_ids"], attention_mask=inputs["attention_mask"], do_sample=True, temperature=0.6, top_p=0.9, max_new_tokens=50, ) output = output[0].to("cpu") print(tokenizer.decode(output)

次のような出力が生成される場合があります。

 My name is Pedro, I live in Portugal and I am 25 years old. I am a graphic designer, but I am also passionate about photography and video. I love to travel and I am always looking for new adventures. I love to meet new people and explore new places.

8ビットと4ビットのビットとバイトの使用

さらに、Falcon 180B の 8 ビットおよび 4 ビットの量子化バージョンは、評価の点では bfloat16 とほとんど区別がつきません。

これは推論にとって朗報であり、ユーザーは量子化されたバージョンを自信を持って使用してハードウェア要件を削減できます。

推論は 4 ビットバージョンよりも 8 ビットバージョンの方がはるかに高速であることに注意してください。量子化を使用するには、「bitsandbytes」ライブラリをインストールし、モデルをロードするときに対応するフラグを有効にする必要があります。

 model = AutoModelForCausalLM.from_pretrained( model_id, torch_dtype=torch.bfloat16, **load_in_8bit=True,** device_map="auto", )

会話モデル

前述のように、会話を追跡するために微調整されたモデルのバージョンでは、非常に簡単なトレーニングテンプレートが使用されます。雑談的な推論を実行するには、同じパターンに従う必要があります。

参考までに、チャットデモの [format_prompt] 関数を見てみましょう。

 def format_prompt(message, history, system_prompt): prompt = "" if system_prompt: prompt += f"System: {system_prompt}\n" for user_prompt, bot_response in history: prompt += f"User: {user_prompt}\n" prompt += f"Falcon: {bot_response}\n" prompt += f"User: {message}\nFalcon:" return prompt

上記のように、ユーザーのインタラクションとモデルの応答の前には、 User: と Falcon: の区切り文字が付きます。これらを連結して、会話履歴全体を含むプロンプトを形成します。この方法では、生成スタイルを調整するためのシステムヒントを提供できます。

ネットユーザーからの熱いコメント

多くのネットユーザーがファルコン180Bの真の実力について熱く議論した。

まったく信じられない。 GPT-3.5 を上回り、Google の PaLM-2 Large と同等です。これはゲームチェンジャーです!

あるスタートアップ企業の CEO は、「Falcon-180B 会話型ロボットをテストしたが、Llama2-70B チャットシステムより優れていることはなかった」と語った。 HF OpenLLM ランキングでも、さまざまな結果が示されました。はるかに大きなサイズと大きなトレーニングセットを考えると、これは驚くべきことです。

例えば：

いくつかのエントリを指定して、Falcon-180B と Llama2-70B に個別に回答させて、パフォーマンスを確認します。

Falcon-180B は誤ってサドルを動物としてカウントします。 Llama2-70Bは簡潔に答え、正しい答えを出しました。

<<:

>>: