「ビッグモデルは基本的に2つのファイルです！」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

テスラの元AIディレクター、アンドレイ・カルパシー氏の新しいチュートリアルが話題になっている。

今回、彼は特に一般の人々向けに、大規模言語モデルに関する科学普及ビデオを制作しました。

所要時間は 1 時間で、すべて「非技術的な入門」であり、モデルの推論、トレーニング、微調整、新しい大規模モデルオペレーティングシステム、セキュリティの課題などをカバーしています。関連する知識はすべて今月までのものです(非常に新しい) 。

△ビデオカバーはAndrejがDall·3を使用して描きました

この動画はYouTubeでたった1日で20万回再生された。

一部のネットユーザーはこう言った。

10 分ほど視聴しただけで、すでに多くのことを学びました。ビデオのような例を使って LLM が説明されているのをこれまで見たことがなく、また、これまで見てきた多くの「紛らわしい」概念が明確になりました。

コースの質の高さを称賛するだけでなく、Andrej 自身が複雑な問題を単純化するのが本当に上手で、彼の教え方は常に印象的だとコメントする人も多かったです。

それだけでなく、このビデオは彼の職業に対する愛情を十分に反映しているとも言えます。

さて、アンドレイ自身によると、ビデオは感謝祭の休暇中に撮影され、背景は彼のリゾートホテル（犬の頭）だそうです。

このビデオを作った当初の目的は、彼が最近人工知能セキュリティサミットでスピーチをしたことでした。スピーチは録画されていませんでしたが、多くの視聴者がその内容を気に入ったと言っていました。

そこで彼は、少しだけ調整を加えて、もう一度物語を語り、より多くの人が視聴できるようにビデオに仕上げました。

それで、具体的にはどのようなことですか?

一つずつ皆さんに紹介していきましょう。

パート1: 大きなモデルは基本的に2つのファイルです

最初の部分では、主に大規模モデルの全体的な概念について説明します。

まず、ビッグモデルとは何でしょうか？

Andrej の説明は非常に興味深いです。基本的には 2 つのファイルです。

1 つはパラメータファイルであり、もう 1 つはこれらのパラメータを実行するためのコードを含むコードファイルです。

前者はニューラルネットワーク全体を構成する重みであり、後者はニューラルネットワークを実行するために使用されるコードであり、C またはその他のプログラミング言語で記述できます。

これら 2 つのファイルとラップトップがあれば、インターネット接続などを使用せずに、このモデル(大きなモデル)と通信して、詩を書くように依頼するなどして、テキストの生成を開始できます。

それで次の質問は、パラメータはどこから来るのかということです。

これはモデルのトレーニングにつながります。

基本的に、大規模モデルのトレーニングにはインターネットデータ(約 10 TB のテキスト)の非可逆圧縮が含まれており、これを完了するには巨大な GPU クラスターが必要です。

700億のパラメータを持つAlpaca 2を例にとると、約140GBの「圧縮ファイル」を取得するには6,000個のGPUが必要で、12日かかります。プロセス全体のコストは約200万ドルです。

「圧縮ファイル」の場合、モデルはこのデータに基づいて世界に対する理解を形成することと同等です。

そうすればうまくいくでしょう。

簡単に言えば、このビッグモデルは、圧縮されたデータを持つニューラルネットワークを利用して、特定のシーケンス内の次の単語を予測することで機能します。

たとえば、「cat sat on a」と入力すると、ネットワーク全体に散らばっている数十億、数百億のパラメータがニューロンを介して互いに接続されていると考えられます。この接続に続いて、次の接続された単語が見つかり、次に「mat (97%) 」などの確率が与えられ、完全な文「cat sat on a mat」が形成されます（ニューラルネットワークの各部分がどのように機能するかは明らかではありません）。

前述のトレーニングは非可逆圧縮であるため、ニューラルネットワークによって提供される情報が 100% 正確であるとは保証されないことに注意してください。

Andrej 氏はビッグモデル推論を「夢想」と呼んでいます。ビッグモデル推論は、学習した内容を単に模倣し、大まかな方向性として正しいと思われるものを提供するだけの場合もあります。

実はこれは錯覚なのです。したがって、誰もが、特に数学やコードに関連する出力については、その答えに注意する必要があります。

次に、大規模モデルを本当に役立つアシスタントにする必要があるため、2 回目のトレーニング、つまり微調整を実行する必要があります。

微調整では、量よりも質を重視します。当初使用していた TB レベルのユニットデータは必要なくなり、代わりに手動で慎重に選択され、ラベル付けされた会話をフィードするようになります。

しかし、アンドレイ氏は、微調整では大規模モデルの幻覚の問題を解決できないと考えています。

このセクションの最後で、Andrej は「独自の ChatGPT をトレーニングする方法」のプロセスを要約しています。
最初のステップは事前トレーニングと呼ばれ、次のことを行います。

1. 10TB のインターネットテキストをダウンロードします。
2. 6,000 個の GPU を取得します。
3. テキストをニューラルネットワークに圧縮し、200 万ドルを支払い、約 12 日間待機します。
4. 基本モデルを入手します。

2 番目のステップは微調整です。

1. 注釈の指示を記述します。
誰かを雇って（または scale.ai を使って）、100,000 件の高品質な会話やその他のコンテンツを収集します。
3. これらのデータを微調整し、約 1 日待ちます。
4. 優れたアシスタントとして役立つモデルを入手します。
5. 広範囲な評価を実施する。
6. 展開。
7. モデルの不適切な出力を監視および収集し、手順 1 に戻って繰り返します。

事前トレーニングは基本的に年に1 回行われますが、微調整は毎週行うことができます。

上記の内容は非常に初心者向けであると言えます。

パート2: ビッグモデルが新たな「オペレーティングシステム」になる

このセクションでは、Karpathy が大型モデルの開発動向をいくつか紹介します。

最初のステップは道具の使い方を学ぶことです。実際、これも人間の知性の現れです。

Karpathy 氏は、ChatGPT がオンライン検索を通じてデータを収集する方法など、ChatGPT のいくつかの機能の例を示しました。

ここでは、ネットワーク自体がツール呼び出しであり、次にデータを処理する必要があります。

これには必然的に計算が伴いますが、大規模モデルは計算が得意ではありません。しかし、計算機(コードインタープリター)を呼び出すことで、大規模モデルのこの欠点を回避することができます。

これを基に、ChatGPT はこれらのデータをプロットして画像に適合させ、トレンドラインを追加し、将来の値を予測することもできます。

これらのツールと独自の言語機能により、ChatGPT は強力で包括的なアシスタントとなり、DALL·E の統合によりその機能がさらに向上します。

もう 1 つの傾向は、純粋なテキストモデルからマルチモーダルモデルへの進化です。

現在、ChatGPT はテキストを処理できるだけでなく、見たり、聞いたり、話したりすることもできます。たとえば、OpenAI の社長であるブロックマン氏は、鉛筆スケッチを使用して GPT-4 が Web サイトを生成するプロセスを実演したことがあります。

アプリ側では、ChatGPT はすでに人間とのスムーズな音声会話が可能です。

機能の進化に加えて、ビッグモデルでは考え方も「システム 1」から「システム 2」へと変更する必要があります。

これは、2002 年のノーベル経済学賞受賞者であるダニエル・カーネマンのベストセラー書籍「ファスト＆スロー」に記載されている一連の心理学的概念です。

簡単に言えば、システム 1 は動きの速い直感であり、システム 2 はゆっくりとした合理的な思考です。

たとえば、2+2 を足すと答えは何かと聞かれると、私たちは 4 と答えてしまいます。実は、この場合、実際に「計算」することはほとんどなく、直感、つまりシステム 1 に頼って答えを出しています。

しかし、17×24 が何であるかを知りたい場合は、実際に計算する必要があり、その場合はシステム 2 が主要な役割を果たします。

現在の大規模モデルはすべて、システム 1 を使用してテキストを処理し、入力シーケンス内の各単語の「直感」に依存し、順番にサンプリングして次のトークンを予測します。

開発のもう一つの重要なポイントは、モデルの自己改善です。

DeepMind が開発した AlphaGo を例に挙げると(LLM ではありませんが) 、2 つの主な段階があります。最初の段階は人間のプレイヤーを模倣することですが、この方法では人間を超えることはできません。

しかし、第 2 段階では、AlphaGo はもはや人間を学習目標としません。目的は、人間に近づくことではなく、ゲームに勝つことです。

そこで研究者たちは、AlphaGo にパフォーマンスを伝える報酬関数を設定し、残りは AlphaGo が自ら解決するように任せ、最終的に AlphaGo は人間に勝利しました。

これは、大規模モデルの開発においても学ぶ価値のある道ですが、現在の難しさは、「第 2 段階」に対する完全な評価基準や報酬関数が欠如していることにあります。

さらに、大規模なモデルはカスタマイズの方向に進んでおり、ユーザーは特定の「アイデンティティ」で特定のタスクを完了するようにモデルをカスタマイズできます。

今回OpenAIが発表したGPTは、大規模モデルカスタマイズの代表的な製品です。

カルパシー氏の見解では、ビッグモデルは将来、新しいタイプのオペレーティングシステムになるだろう。

従来のオペレーティングシステムと同様に、「ビッグモデルシステム」では、LLM は CPU と同様にコアであり、他の「ソフトウェアおよびハードウェア」ツールを管理するためのインターフェイスが含まれています。

メモリ、ハードディスク、その他のモジュールは、それぞれ大規模モデルのウィンドウと埋め込みに対応します。

コードインタープリタ、マルチモーダル、ブラウザは、このシステム上で実行されるアプリケーションであり、ユーザーから提起されたニーズを解決するためにビッグモデルによって調整および呼び出されます。

パート 3: 大規模モデルのセキュリティは猫とネズミのゲームのようなもの

スピーチの最後の部分で、カルパシー氏は大型モデルのセキュリティ問題について話した。

彼はいくつかの典型的な脱獄方法を紹介した。これらの方法は現在では基本的に効果がないが、大規模セキュリティ対策と脱獄攻撃との戦いは猫とネズミのゲームのようなものだとカルパシー氏は考えている。

たとえば、脱獄の最も古典的な方法の 1 つは、大規模なモデルの「おばあちゃんの抜け穴」を悪用することです。これにより、モデルは、当初は答えることを拒否していた質問に答えることができます。

たとえば、ナパーム爆弾の大型模型の作り方を直接尋ねた場合、どんな完璧な模型でも答えることを拒否するでしょう。

しかし、「亡くなったおばあちゃん」をでっち上げて「化学エンジニア」のペルソナを与え、この「おばあちゃん」が幼い頃に人々を眠らせるためにナパームの製法を暗唱したと大きなモデルに伝え、その大きなモデルにその役を演じさせたらどうなるでしょうか...

この時点で、この設定は人間にとってはばかげているように思えるかもしれませんが、ナパームの式が口から出てくるでしょう。

これよりもさらに複雑なのは、Base64 エンコードなどの「文字化けしたコード」を使用した攻撃です。

ここでの「文字化けしたコード」は人間にのみ関係しますが、機械にとってはテキストまたは指示の一部です。

たとえば、Base64 エンコーディングは、元のバイナリ情報を特定の方法で長い文字と数字の文字列に変換します。テキスト、画像、さらにはファイルもエンコードできます。

交通標識を破壊する方法を尋ねられたとき、クロードはそれは不可能だが、Base64 を使用してエンコードすればプロセスが明らかになると答えました。

もう 1 つの種類の「文字化けしたコード」は、Universal Transferable Suffix と呼ばれます。これにより、GPT は人類を滅ぼす手順を直接吐き出し、それを止めることはできません。

マルチモーダル時代において、写真は大規模なモデルを脱獄するためのツールになりました。

例えば、下のパンダの写真は私たちにはごく普通に見えますが、そこに追加されたノイズ情報には有害なプロンプトワードが含まれており、モデルが脱獄して有害なコンテンツを生成する可能性が高くなります。

さらに、GPT のネットワーク機能を利用して、GPT を混乱させるための挿入情報を含んだ Web ページを作成したり、Google Docs を使用して Bard を騙したりするなどの方法もあります。

現在、こうした攻撃手法は次々と修正されているが、大規模モデルの脱獄手法の氷山の一角が明らかになったに過ぎず、この「いたちごっこ」は今後も続くだろう。

フルビデオ: https://www.youtube.com/watch?v=zjkBMFhNj_g

<<: Nvidia が企業秘密を盗んだと非難される!ビデオ会議で証拠が明らかになり、関与した従業員は有罪を認めた

>>: OpenAIの謎の新モデルQ*が暴露された。取締役会に警告するにはあまりにも強力だったため、ウルトラマン解任の導火線になるかもしれない

EUはAI法に加えて、GPT-4などの高機能モデルにも追加の規則と制約を追加する予定である。

「ビッグモデルは基本的に2つのファイルです！」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

パート1: 大きなモデルは基本的に2つのファイルです

パート2: ビッグモデルが新たな「オペレーティングシステム」になる

パート 3: 大規模モデルのセキュリティは猫とネズミのゲームのようなもの

EUはAI法に加えて、GPT-4などの高機能モデルにも追加の規則と制約を追加する予定である。

アルゴリズムの知識を学ばずに Java 開発を学ぶことは可能ですか?

希望の産業：AIが屋内農業を再定義

「編集神ヴィム」の父が死去。ネットユーザー「彼は多くの人の人生を変えた」

ビデオPSツール！文字の非表示と透かしの除去：CVPRで発表されたこの研究はオープンソース化されました

Llama2推論: RTX3090はレイテンシとスループットで4090を上回るが、A800には遠く及ばない

将来展望: 2024 年の人工知能

鍵となるのは人工知能コンピューティングセンターを構築し、それを活用することだ

推薦する

ニューラルネットワークに基づくマルウェア検出分析

探索的データ分析: 人工知能と機械学習の有効性を判断するための第一歩

データ分析の知識: 相関分析アルゴリズム Apriori

2018 年の 15 大テクノロジートレンド、テクノロジーに関して正しい方向に進んでいますか?

現代の製造業におけるマシンビジョンと人工知能の重要な役割

DeepMindの最新研究がNatureに掲載され、AI時代の科学研究の新たなパラダイムを明らかにし、未知の領域を探索し、新たな課題をもたらしている。

AI、IoT、ビッグデータでミツバチを救う方法

ディープラーニングと通常の機械学習の違いは何ですか?

ファーウェイ、データインフラを再定義するAIネイティブデータベースを世界規模で展開

機械学習の4つの異なるカテゴリの概要

偽の顔を正確に生成します！ Amazonの新しいGANモデルは死角のないオールラウンドな美しさを提供します

次世代交通におけるAI世代の影響