清華大学の第2世代60億パラメータChatGLM2がオープンソース化されました！中国語ランキングはGPT-4を圧倒して1位となり、推論速度は42%向上しました。

ChatGLM-6Bは3月のリリース以来、AIコミュニティで人気を博し、GitHubで29.8kのスターを獲得しています。

ChatGLM の第 2 世代が登場しました。

清華大学KEGとデータマイニンググループ（THUDM）は、中国語と英語のバイリンガル対話モデルChatGLM2-6Bをリリースしました。

写真

プロジェクトアドレス: https://github.com/THUDM/ChatGLM2-6B

ハギングフェイス: https://huggingface.co/THUDM/chatglm2-6b

最新バージョンの ChatGLM2-6B には多くの機能が追加されています:

- ベースモデルがアップグレードされ、より強力なパフォーマンスを実現

- 8K-32kコンテキストをサポート

- 推論パフォーマンスが42%向上

- 学術研究に完全に開放され、商業的な許可も許可されている

中国の C-Eval リストでは、ChatGLM2 が 71.1 ポイントで 1 位となり、GPT-4 を圧倒したことは特筆に値します。最新バージョンのChatGLM2-6Bは51.7ポイントで6位にランクされました。

写真

ChatGLM2-6B アップグレードのハイライト

ChatGLM-6B の第 2 世代バージョンは、スムーズな会話や導入のハードルの低さなど、第 1 世代モデルの優れた機能を多く引き継いでおり、さらに多くの新機能が追加されています。

1. より強力なパフォーマンス

第一世代の ChatGLM モデルの開発経験に基づいて、ChatGLM2-6B のベースモデルが完全にアップグレードされました。

ChatGLM2-6B は GLM のハイブリッド目的関数を使用し、1.4T の中国語と英語の識別子で事前トレーニングされ、人間の好みの調整でトレーニングされています。

評価結果によると、第 1 世代モデルと比較して、ChatGLM2-6B は MMLU (+23%)、CEval (+33%)、GSM8K (+571%)、BBH (+60%) などのデータセットで大幅なパフォーマンス向上を達成し、同じサイズのオープンソースモデルの中で非常に競争力があります。

2. より長い文脈

研究者らは、FlashAttention テクノロジーに基づいて、ベースモデルのコンテキスト長を ChatGLM-6B の 2K から 32K に拡張し、対話段階で 8K のコンテキスト長のトレーニングを使用して、より多くの対話ラウンドを可能にしました。

ただし、ChatGLM2-6B の現在のバージョンでは、単一ラウンドの非常に長いドキュメントを理解する能力が限られているため、その後の反復的なアップグレードでは最適化に重点が置かれることになります。

3. より効率的な推論

ChatGLM2-6B は、Multi-Query Attention テクノロジーに基づいて、より効率的な推論速度とより低いビデオメモリ使用量を実現します。

公式モデル実装では、推論速度が第 1 世代と比較して 42% 向上し、INT4 量子化では、6G ビデオメモリでサポートされる会話の長さが 1K から 8K に増加しました。

4. よりオープンなプロトコル

ChatGLM2-6B ウェイトは学術研究に完全に開放されており、正式な書面による許可を得た後は商用利用も許可されます。

効果

ChatGLM2-6Bは、第1世代モデルと比較して、さまざまな面で機能が大幅に向上しました。

数学的論理

写真

知識推論

写真

長い文書の理解

写真

評価結果

研究チームは評価のためにいくつかの典型的な中国語と英語のデータセットを選択しました。以下は、MMLU（英語）、C-Eval（中国語）、GSM8K（数学）、BBH（英語）におけるChatGLM2-6Bモデルの評価結果です。

MMLU

写真

C評価

写真

BBH

推論パフォーマンス

ChatGLM2-6B は、Multi-Query Attention を使用して生成速度を向上させます。 2000 文字を生成する平均速度の比較は次のとおりです。

マルチクエリアテンションは、生成プロセス中の KV キャッシュのメモリ使用量も削減します。

さらに、ChatGLM2-6B は対話トレーニングに Causal Mask を使用し、継続的な対話中に前のラウンドの KV キャッシュを再利用できるため、メモリ使用量がさらに最適化されます。

したがって、INT4 量子化推論に 6GB のビデオメモリを搭載したグラフィックカードを使用する場合、第 1 世代の ChatGLM-6B モデルはビデオメモリが不足していることを通知する前に最大 1119 文字を生成できますが、ChatGLM2-6B は少なくとも 8192 文字を生成できます。

写真

研究チームは量子化がモデルのパフォーマンスに与える影響もテストしました。結果は、量子化がモデルのパフォーマンスに与える影響が許容範囲内であることを示しています。

写真

使い方

環境設備

まず、このリポジトリをダウンロードする必要があります:

 git clone https://github.com/THUDM/ChatGLM2-6B cd ChatGLM2-6B

次に、pip を使用して依存関係をインストールします: pip install -r requirements.txt。最適な推論パフォーマンスを得るには、Transformers ライブラリの推奨バージョンは 4.30.2 であり、Torch バージョンは 2.0 以降である必要があります。

コードコール

ChatGLM2-6B モデルは、次のコードを通じて呼び出して会話を生成することができます。

 >>> from transformers import AutoTokenizer, AutoModel>>> tokenizer = AutoTokenizer.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True) >>> model = AutoModel.from_pretrained("THUDM/chatglm2-6b", trust_remote_code=True, device='cuda') >>> model = model.eval() >>> response, history = model.chat(tokenizer, "你好", history=[]) >>> print(response)你好👋!我是人工智能助手ChatGLM2-6B,很高兴见到你,欢迎问我任何问题。 >>> response, history = model.chat(tokenizer, "晚上睡不着应该怎么办", history=history) >>> print(response)晚上睡不着可能会让你感到焦虑或不舒服,但以下是一些可以帮助你入睡的方法: 1. 制定规律的睡眠时间表:保持规律的睡眠时间表可以帮助你建立健康的睡眠习惯,使你更容易入睡。尽量在每天的相同时间上床,并在同一时间起床。 2. 创造一个舒适的睡眠环境:确保睡眠环境舒适,安静,黑暗且温度适宜。可以使用舒适的床上用品,并保持房间通风。 3. 放松身心:在睡前做些放松的活动,例如泡个热水澡,听些轻柔的音乐,阅读一些有趣的书籍等,有助于缓解紧张和焦虑,使你更容易入睡。 4. 避免饮用含有咖啡因的饮料:咖啡因是一种刺激性物质,会影响你的睡眠质量。尽量避免在睡前饮用含有咖啡因的饮料,例如咖啡,茶和可乐。 5. 避免在床上做与睡眠无关的事情:在床上做些与睡眠无关的事情,例如看电影,玩游戏或工作等,可能会干扰你的睡眠。 6. 尝试呼吸技巧:深呼吸是一种放松技巧,可以帮助你缓解紧张和焦虑,使你更容易入睡。试着慢慢吸气,保持几秒钟,然后缓慢呼气。如果这些方法无法帮助你入睡,你可以考虑咨询医生或睡眠专家,寻求进一步的建议。

Hugging Face Hub からモデルをダウンロードする前に、Git LFS をインストールして次のコマンドを実行する必要があります。

 git clone https://huggingface.co/THUDM/chatglm2-6b

チェックポイントのダウンロード速度が遅い場合は、モデル実装のみをダウンロードできます。

 GIT_LFS_SKIP_SMUDGE=1 git clone https://huggingface.co/THUDM/chatglm2-6b

次に、モデルパラメーターファイルを手動でダウンロードし、ローカルの chatglm2-6b ディレクトリ内のファイルを置き換えます。

アドレス: https://cloud.tsinghua.edu.cn/d/674208019e314311ab5c/

モデルがローカルにダウンロードされたら、上記のコード内の THUDM/chatglm2-6b をローカルの chatglm2-6b フォルダーのパスに置き換えて、ローカルからモデルをロードします。

<<: ChatGPT「おばあちゃんの抜け穴」がまた人気です！亡くなった祖母のふりをして、寝る前に物語を語り、Win11 のシリアル番号をだます

>>: 米国のテクノロジー業界が冬を乗り切る中、プログラマーたちは仕事を維持するために率先して給与を削減している。 35歳の会社員：給料をもう少し下げてもいい

Google AIオープンソース：携帯電話で3D物体検出が可能、しかもリアルタイム

清華大学の第2世代60億パラメータChatGLM2がオープンソース化されました！中国語ランキングはGPT-4を圧倒して1位となり、推論速度は42%向上しました。

ChatGLM2-6B アップグレードのハイライト

効果

評価結果

推論パフォーマンス

使い方

Google AIオープンソース：携帯電話で3D物体検出が可能、しかもリアルタイム

ハッカーが、さまざまなネットワーク攻撃コードを自動生成できる悪質なAIツールFraudGPTを公開

AIファースト戦略への移行に向けた5つのポイント

53ページのPDFが広く出回り、中核社員が次々と退職。OpenAIにはどんな秘密があるのか？

機械分野では人材不足が起きているのでしょうか？人工知能の時代はあなたが思っているよりもずっと早く来ています!

Microsoft が Copilot の統合バージョンをリリース、Windows、Edge、その他のプラットフォームにも近日登場

また一人の科学者が学界に復帰、AI産業の発展は冷え込みつつあるのか？

Google が地図「タイムマシン」を公開: 100 年前のあなたの街はどんな様子だったでしょうか?

MITが提案：医療モニタリングのためのベイジアンディープラーニングの導入

周浦データの粘り強さと抑制力：有用性はデータインテリジェンスのゴールドスタンダード

推薦する

AIと機械学習における暗黙のアルゴリズムバイアス

AIがコロナホールを発見し宇宙天気予報を自動化

世界のコンピューティングパワーを飲み込む！ Google GeminiはGPT-4の5倍の計算能力を持ち、TPUの切り札でOpenAIを圧倒していると言われている

ディープラーニングのパイオニア、ヤン・ルカン氏、叱責を受けてツイッターを辞める「皆さんはもうすべて知っています。これからは何も言いません」

人間の農業の将来は主にロボットに依存することになるのでしょうか?基本的に人間の介入は必要ありません

AI モデルのデータセンターのエネルギー消費を効果的に削減するにはどうすればよいでしょうか?

プロセス産業におけるグリーン製造における人工知能の機会と課題

人工知能、機械学習、ディープラーニング

Vision Pro が 50 億ドルで売却され、ザッカーバーグは大喜び! Metaは500億ドルを燃やし、VR復活の希望がここにある

Python データ分析の基礎: 外れ値の検出と処理

未来学者が2099年に世界がどのように変化するかを予測

ハーバード大学コンピュータサイエンス学部の旗艦プロジェクトはAIをメンターとして採用している