NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

最近、米国のトップ 10 テクノロジー ブログの 1 つである Latent Space が、終了したばかりの NeurIPS 2023 カンファレンスの厳選されたレビューと概要を作成しました。

NeurIPS カンファレンスで採択された 3,586 件の論文のうち、受賞した 6 件の論文以外にも、他の論文も優秀かつ潜在性があり、AI 分野における新たなブレークスルーの先駆けとなる可能性もあります。

一緒に見てみましょう!

論文タイトル: QLoRA: 量子化 LLM の効率的な微調整

論文アドレス: https://openreview.net/pdf?id=OUIFPHEgJU

この論文では、メモリを節約するためにいくつかの最適化トリックを使用する、メモリ効率は高いが速度が遅い LoRA のバージョンである QLoRA を提案しています。

全体として、QLoRA を使用すると、大規模な言語モデルを微調整するときに使用する GPU メモリが少なくなります。

彼らは、単一の GPU でわずか 24 時間の微調整で新しいモデル Guanaco をトレーニングし、Vicuna ベンチマークで以前のモデルを上回るパフォーマンスを達成しました。

一方、研究者たちは、同様の効果を持つ 4 ビット LoRA 量子化などの他の方法を開発しました。

論文タイトル: DataComp: 次世代のマルチモーダルデータセットの探求

論文アドレス: https://openreview.net/pdf?id=dVaWCDMBof

マルチモーダル データセットは、CLIP、Stable Diffusion、GPT-4 などの最近のブレークスルーで重要な役割を果たしていますが、その設計はモデル アーキテクチャやトレーニング アルゴリズムほど研究の注目を集めていません。

機械学習エコシステムにおけるこのギャップを埋めるために、研究者らは、Common Crawl の新しい候補プールから抽出した 128 億の画像とテキストのペアのデータセットで実験を行うためのテストベッドである DataComp を導入しました。

ユーザーは、DataComp を試して、新しいフィルタリング手法を設計したり、新しいデータ ソースをキュレートしたり、標準化された CLIP トレーニング コードを実行して結果のモデルを 38 のダウンストリーム テスト セットでテストすることで、新しいデータセットを評価したりできます。

結果によると、CLIP ViT-L/14 モデルを最初からトレーニングできる最高のベンチマーク DataComp-1B は、ImageNet でゼロショット精度 79.2% を達成し、OpenAI の CLIP ViT-L/14 モデルよりも 3.7 パーセントポイント高くなっており、DataComp ワークフローの方が優れたトレーニング セットを生成できることが実証されています。

論文タイトル: 視覚的指導の調整

論文アドレス: https://arxiv.org/pdf/2304.08485v1.pdf

この論文では、研究者らは、言語のみに依存する GPT-4 を使用して、データに従ってマルチモーダル言語画像指示を生成する最初の試みを提示しています。

この生成されたデータに対する指示を微調整することで、一般的な視覚と言語理解のためにビジュアルエンコーダーと LLM を接続してエンドツーエンドでトレーニングされた大規模なマルチモーダルモデルである LLaVA: Large Language and Vision Assistant を導入します。

初期の実験では、LLaVA が優れたマルチモーダル チャット機能を発揮し、時には目に見えない画像やコマンドに対してマルチモーダル GPT-4 の動作を示し、合成マルチモーダル コマンド フォロー データセットで GPT-4 と比較して 85.1% の相対スコアを達成することが実証されています。

科学的な質問への回答を微調整すると、LLaVA と GPT-4 の相乗効果により、92.53% という新たな最先端の精度が達成されました。

論文タイトル: 思考の樹: 大規模言語モデルによる意図的な問題解決

論文アドレス: https://arxiv.org/pdf/2305.10601.pdf

言語モデルは、幅広いタスクにおける一般的な問題解決にますます使用されるようになっていますが、推論中のトークンレベルの左から右への意思決定にはまだ制限されています。つまり、探索や戦略的先見性を必要とするタスクや、最初の意思決定が重要な役割を果たすタスクでは、パフォーマンスが低下する可能性があります。

これらの課題を克服するために、研究者らは新しい言語モデル推論フレームワークである Tree of Thoughts (ToT) を導入しました。これは、言語モデルの推論における一般的な Chain of Thought アプローチを一般化し、問題解決に向けた中間ステップとして機能する一貫したテキスト単位 (思考) の探索を可能にします。

ToT により、言語モデルは複数の異なる推論パスと自己評価オプションを考慮して次のアクションを決定し、必要に応じて先を予測したり後戻りしたりしてグローバルな選択を行うことで、慎重な決定を下すことができます。

実験により、ToT は、24 ドット ゲーム、クリエイティブ ライティング、ミニ クロスワード パズルという、重要な計画や検索を必要とする 3 つの新しいタスクにおいて、言語モデルの問題解決能力を大幅に向上させることが実証されました。たとえば、24 ポイントのゲームでは、Chain of Thought プロンプトを使用する GPT-4 はタスクの 4% しか解決しませんでしたが、ToT は 74% の成功率を達成しました。

論文タイトル: ツールフォーマー: 言語モデルはツールの使い方を自ら学ぶことができる

論文アドレス: https://arxiv.org/pdf/2302.04761.pdf

言語モデルは、特に大規模な設定において、少数の例やテキスト指示から新しいタスクを解決する優れた能力を示しています。しかし、逆説的に、より単純で小規模な特殊モデルと比較すると、算術や事実の発見などの基本的な機能が困難です。

この論文では、研究者らは、言語モデルがシンプルな API を通じて外部ツールの使い方を自ら学習し、両方の長所を実現できることを示しています。

彼らは、どの API を呼び出すか、いつ呼び出すか、どのパラメータを渡すか、そしてその結果を将来のトークン予測にどのように組み込むのが最適かを決定するようにトレーニングされたモデルである Toolformer を導入しました。

これは、API ごとに少数のデモンストレーションのみを使用して、自己監視方式で実行されます。計算機、質問応答システム、検索エンジン、翻訳システム、カレンダーなど、さまざまなツールが統合されています。

Toolformer は、コア言語モデリング機能を犠牲にすることなく、より大規模なモデルと競合しながら、さまざまな下流タスクでゼロショット パフォーマンスを大幅に向上させます。

論文タイトル: Voyager: 大規模言語モデルを備えたオープンエンドの具現化エージェント

論文アドレス: https://arxiv.org/pdf/2305.16291.pdf

この論文では、Minecraft の世界を継続的に探索し、多様なスキルを習得し、独立した発見を行うことができる、大規模言語モデル (LLM) を搭載した初の学習エージェントである Voyager を紹介します。

Voyager は次の 3 つの主要コンポーネントで構成されています。

探索を最大限にするために設計された自動レッスン、

複雑な動作を保存および取得するための実行可能コードスキルのライブラリが拡大しています。

環境フィードバック、実行エラー、自己検証を統合してプログラムを改善する新しい反復プロンプト メカニズム。

Voyager はブラックボックス クエリを通じて GPT-4 と対話し、モデル パラメータを微調整する必要がなくなります。

実証的研究に基づき、Voyager は環境的状況において強力な生涯学習能力を示し、Minecraft のプレイにおいて並外れた熟練度を示しています。

以前の技術レベルよりも 3.3 倍多くのユニークなアイテムを獲得し、2.3 倍長い距離を移動し、以前の技術レベルよりも 15.3 倍速く主要な技術ツリーのマイルストーンをアンロックします。

しかし、Voyager は学習したスキルのレパートリーを活用して、新しい Minecraft の世界で新しいタスクをゼロから解決することができましたが、他の技術は一般化に苦労しました。

論文タイトル: CogEval による大規模言語モデルの認知マップと計画の評価

論文アドレス: https://openreview.net/pdf?id=VtkGvGcGe3

この論文ではまず、認知科学にヒントを得て、大規模言語モデルの認知能力を体系的に評価するプロトコルである CogEval を提案しています。

次に、この論文では、CogEval システムを使用して、8 つの LLM (OpenAI GPT-4、GPT-3.5-turbo-175B、davinci-003-175B、Google Bard、Cohere-xlarge-52.4B、Anthropic Claude-1-52B、LLaMA-13B、Alpaca-7B) の認知マッピングおよび計画機能を評価しました。タスク キューは人間の実験に基づいており、LLM トレーニング セットには存在しません。

研究では、LLM は構造が単純ないくつかの計画タスクでは明らかな能力を示したものの、タスクが複雑になると、無効な軌道の幻覚やループに陥るなどの盲点に陥ることが判明しました。

これらの調査結果は、LLM がプラグアンドプレイの計画機能を備えているという見解を支持するものではありません。 LLM は、計画問題の背後にある基礎的な関係構造、つまり認知マップを理解しておらず、基礎的な構造に従って目標指向の軌道を展開する際に問題を抱えている可能性があります。

論文タイトル: Mamba: 選択的状態空間による線形時間シーケンスモデリング

論文アドレス: https://openreview.net/pdf?id=AL1fq05o7H

著者らは、線形アテンション、ゲート畳み込み、再帰モデル、構造化状態空間モデル (SSM) などの現在の多くのサブ線形時間アーキテクチャは、長いシーケンスを処理する際の Transformer の計算の非効率性を解決することを目的としていることを指摘しています。ただし、これらのモデルは、言語などの重要な領域では注意モデルほど優れたパフォーマンスを発揮しません。著者は、これらの

これらのモデルの主な弱点は、コンテンツベースの推論を実行できないことですが、いくつかの改善が行われました。

まず、SSM パラメータを入力の関数にするだけで、離散モダリティの弱点に対処し、モデルが現在のトークンに応じてシーケンス長の次元に沿って情報を選択的に伝播したり忘れたりできるようになります。

第二に、このバリエーションにより効率的な畳み込みの使用が妨げられますが、著者らは再帰モードでハードウェア対応の並列アルゴリズムを設計しています。私たちは、これらの選択的 SSM を、アテンション メカニズムや MLP モジュール (Mamba) を必要とせずに、簡素化されたエンドツーエンドのニューラル ネットワーク アーキテクチャに統合します。

Mamba は推論速度に優れており (Transformers より 5 倍高速)、シーケンス長に比例して拡張され、最大 100 万長のシーケンスまでの実際のデータでパフォーマンスが向上します。

汎用シーケンス モデル バックボーンとして、Mamba は言語、オーディオ、ゲノミクスなどの複数の領域で最先端のパフォーマンスを実現しています。言語モデリングの点では、Mamba-1.4B モデルは、事前トレーニングとダウンストリーム評価の両方で同じサイズの Transformers モデルよりも優れており、その 2 倍のサイズの Transformers モデルに匹敵します。

これらの論文は2023年に賞を受賞しませんでしたが、言語モデルアーキテクチャに革命をもたらす可能性のある技術モデルであるMambaの影響を評価するには時期尚早です。

来年の NeurIPS はどうなるのでしょうか? 2024 年に人工知能と神経情報システムの分野はどのように発展するのでしょうか? 現時点ではさまざまな意見がありますが、誰がそれを保証できるでしょうか?待って見てみましょう。

<<: 

>>:  Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

ブログ    
ブログ    
ブログ    

推薦する

IT 業界で最も過小評価されている 6 つのテクノロジーと、まだ廃れていない 1 つのテクノロジー

翻訳者 | ジン・ヤンレビュー | Chonglou 2023 年、生成 AI、具体的には Chat...

人工知能は倫理的なジレンマに直面しており、将来の発展には法の支配が必要である

科学技術倫理とは、科学技術活動において遵守すべき価値観や行動規範であり、科学技術の発展にとって極めて...

...

Google の自動運転車の秘密の世界を解明: 初めて公開された強力なツールの数々

[[201428]]アトランティック誌は今週、アルファベット傘下の自動運転企業ウェイモの謎を解明す...

...

ファーウェイ成都インテリジェントボディー人工知能サミットフォーラムが成功裏に開催され、ファーウェイは成都の「スマートで美しい成都」の構築を支援

デジタル経済の時代において、クラウド、5G、AI、ビッグデータ、人工知能などの新技術が社会の生産要素...

紙画像の不正使用? AI: この道は私が塞いでいる

[[441681]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

AIがCIOの役割をどう変えるのか

破壊的技術により、CIO はこれまで以上に重要な役割を果たすようになっています。 CIO の役割は長...

スタンフォード大学の非接触型デバイスは、アクチュエータをスリーブに「縫い付ける」ことで、タッチ情報を遠隔で送信できる。

世界的なパンデミックは2年近く続いており、リモートワークで何日も過ごし、他の人との物理的な接触を切望...

...

...

ChatGPT 素晴らしいアップデート! @300万GPTをあなたのために働かせましょう

一部の(Grayscale)ユーザーは次のようなプロンプトを受け取りました:グループ チャットで誰か...

データセンターの機械学習が運用を最適化する方法

機械学習と人工知能は、今日の IT プロフェッショナルの間でホットな話題であり、エンタープライズ デ...

単眼輝度画像を用いた顔深度マップ推定のための敵対的アーキテクチャによるディープラーニング

本論文では、単眼輝度画像から顔の深度マップを推定する敵対的アーキテクチャを提案する。 画像対画像のア...