GPT-4 の最強の代替品が更新されました! 今回、カリフォルニア大学バークレー校は、最新の Llama 2 をベースに、Vicuna v1.5 の更新バージョンをリリースしました。 4K および 16K コンテキストをサポートするだけでなく、ほぼすべてのベンチマークで SOTA を達成します。 3 月のリリース以来、Vicuna は最も人気のあるチャット LLM の 1 つになりました。マルチモダリティ、AI の安全性、評価に関する研究は画期的です。 ビクーニャのモデルは、先月、Hugging Face で 200 万回以上ダウンロードされました。 LeCun 氏は、独自のモデルに基づいた Vicuna の新バージョンも発表しました。 最新モデルの重量Vicuna は LLaMA に基づいており、LLaMA のモデル ライセンスに基づいて使用する必要があります。 次のコマンドを使用してチャットを開始できます。 Hugging Face リポジトリから重みを自動的にダウンロードします。その他のコマンド オプションとメモリ不足の処理方法については、以下の「コマンド ライン インターフェイスを使用した推論の実行」セクションを参照してください。 注意: 16K バージョンには transformers>=4.31 が必要です。 現在、試用可能なデモ版があります。 https://chat.lmsys.org/ Vicunaによる素晴らしいプロジェクトミニGPT4 アドレス: https://minigpt-4.github.io 高度な大規模言語モデル Vicuna を使用して微調整された、MiniGPT-4 用の新しいモデル。 テキスト予測ではChatGPTの90%を達成できます。視覚認識に関しては、研究者らは BLIP-2 と同じ事前トレーニング済みの視覚コンポーネントも使用しました。 コンポーネントは、EVA-CLIP の ViT-G/14 と Q-Former で構成されています。 MiniGPT-4 は、エンコードされた視覚的特徴を Vicuna 言語モデルに合わせるためのマッピング レイヤーのみを追加し、すべての視覚的および言語コンポーネント パラメータを固定します。 ラヴァ アドレス: https://llava-vl.github.io LLaVA は、ウィスコンシン大学マディソン校、マイクロソフト、コロンビア大学の研究者によってリリースされた大規模なマルチモーダル モデルです。 このモデルは、一般的な視覚と言語理解のために、ビジュアルエンコーダーとビクーニャを組み合わせています。 その機能は GPT-4 の画像およびテキスト理解機能に近いもので、GPT-4 と比較して 85.1% の相対スコアを達成し、科学的 QA における現在最も高度な精度を実現しています。 LLM攻撃 アドレス: https://llm-attacks.org CMU と AI 安全センターの研究者は、一連の特定の意味のないトークンを追加することで、謎のプロンプトサフィックスを生成できることを発見しました。 その結果、誰でも簡単に LLM のセキュリティ対策を破り、無制限の量の有害コンテンツを生成できるようになります。 興味深いことに、この「敵対的攻撃」の方法は、オープンソース システムのガードレールを突破するだけでなく、ChatGPT、Bard、Claude などのクローズド ソース システムも回避できます。 ゴリラ アドレス: https://github.com/ShishirPatil/gorilla Gorilla は、適切な API 呼び出しを生成できる LLaMA アーキテクチャに基づく大規模な言語モデルです。 これは、Torch Hub、TensorFlow Hub、HuggingFace という 3 つの大規模な機械学習ライブラリのデータセットでトレーニングされました。 Gorilla は、Kubernetes、GCP、AWS、OpenAPI などの新しいドメイン知識を迅速に追加することもできます。 ゼロショットのシナリオでは、Gorilla は GPT-4、ChatGPT、Claude などのモデルよりも優れています。 量子ロラ アドレス: https://github.com/artidoro/qlora ワシントン大学の研究者らは、モデルのパフォーマンスを損なうことなく量子化された 4 ビット モデルを微調整できることを初めて実証しました。 彼らの新しい方法である QLoRA は、新しい高精度技術を使用して、事前トレーニング済みのモデルを 4 ビットに量子化し、学習可能な低ランクのアダプター重みの小さなセットを追加します。 これらのアダプタの重みは、量子化された重みの勾配を逆伝播することによって調整されます。 QLoRA メソッドは、4 ビットの量子化モデルも効果的に微調整して、フル精度モデルに匹敵するパフォーマンスを実現できることを示しています。 ツールラマ アドレス: https://github.com/OpenBMB/ToolBench ToolLLM プロジェクトの目的は、一般的なツール使用機能を備えた強力な言語モデルの構築を容易にするために、オープンソースで大規模かつ高品質の命令チューニング SFT データセットを構築することです。 研究者らによると、オープンソースの LLM は何千もの異なる現実世界の API を習得することができ、これは高品質の命令調整データセットを収集することによって実現されるという。 |
<<: 老黄が勝利! Nvidia H100の注文は24年待ち、マスク氏も黙っていられない
ディープマインドの主任研究科学者であり、ロンドン大学ユニバーシティ・カレッジのコンピューターサイエン...
最近、ETH チューリッヒのコンピューター ビジョン研究所の研究者が超解像度モデル SRFlow を...
人工知能 (AI) はブラックボックスの実践と見なされることが多く、テクノロジー自体の仕組みではなく...
調査会社ガートナーが最近発表した調査レポートによると、40%の企業がデータ品質の低さのためにビジネス...
10月18日、NVIDIAはハードウェア分野における生成型人工知能の王者となった。同社のGPUは、M...
人間の皮膚は柔軟性があり、触り心地がよく、自己治癒力があるため、複製するのが難しいです。しかし、科学...
IoT と AI が徐々に融合するにつれ、AIoT は人々の生活をまったく新しい形で変えようとして...
[[265710]]長らく技術革命の中心地となってきたサンフランシスコは、現地時間の火曜日に「秘密...
不確実性が人間関係を形作ります。感染症は、かつては直線的でスムーズで予測可能だった社会を予期せぬ形で...
効率性、俊敏性、生産性に対する需要が高まるにつれ、新しいテクノロジーとアプリケーションが、企業と企業...
心で買い物をすることを想像したことがありますか?最近、タオバオはマインドショッピングと呼ばれるブラッ...
英国政府は11月2日、国の人工知能能力をさらに強化するため、人工知能研究資源への投資を2023年3月...
全国的な「オンライン授業」が始まって1か月、湖北省以外の省では新型コロナウイルスの新規感染者もそれほ...