「ビッグモデルは基本的に2つのファイルです!」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

「ビッグモデルは基本的に2つのファイルです!」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

テスラの元AIディレクター、アンドレイ・カルパシー氏の新しいチュートリアルが話題になっている。

今回、彼は特に一般の人々向けに、大規模言語モデルに関する科学普及ビデオを制作しました。

所要時間は 1 時間で、すべて「非技術的な入門」であり、モデルの推論、トレーニング、微調整、新しい大規模モデル オペレーティング システム、セキュリティの課題などをカバーしています。関連する知識はすべて今月までのものです(非常に新しい)

ビデオカバーはAndrejがDall·3を使用して描きました

この動画はYouTubeでたった1日で20万回再生された。

一部のネットユーザーはこう言った。

10 分ほど視聴しただけで、すでに多くのことを学びました。ビデオのような例を使って LLM が説明されているのをこれまで見たことがなく、また、これまで見てきた多くの「紛らわしい」概念が明確になりました。

コースの質の高さを称賛するだけでなく、Andrej 自身が複雑な問題を単純化するのが本当に上手で、彼の教え方は常に印象的だとコメントする人も多かったです。

それだけでなく、このビデオは彼の職業に対する愛情を十分に反映しているとも言えます。

さて、アンドレイ自身によると、ビデオは感謝祭の休暇中に撮影され、背景は彼のリゾートホテル(犬の頭)だそうです。

このビデオを作った当初の目的は、彼が最近人工知能セキュリティサミットでスピーチをしたことでした。スピーチは録画されていませんでしたが、多くの視聴者がその内容を気に入ったと言っていました。

そこで彼は、少しだけ調整を加えて、もう一度物語を語り、より多くの人が視聴できるようにビデオに仕上げました。

それで、具体的にはどのようなことですか?

一つずつ皆さんに紹介していきましょう。

パート1: 大きなモデルは基本的に2つのファイルです

最初の部分では、主に大規模モデルの全体的な概念について説明します。

まず、ビッグモデルとは何でしょうか?

Andrej の説明は非常に興味深いです。基本的には 2 つのファイルです。

1 つはパラメータ ファイルであり、もう 1 つはこれらのパラメータを実行するためのコードを含むコード ファイルです。

前者はニューラル ネットワーク全体を構成する重みであり、後者はニューラル ネットワークを実行するために使用されるコードであり、C またはその他のプログラミング言語で記述できます。

これら 2 つのファイルとラップトップがあれば、インターネット接続などを使用せずに、このモデル(大きなモデル)と通信して、詩を書くように依頼するなどして、テキストの生成を開始できます。

それで次の質問は、パラメータはどこから来るのかということです。

これはモデルのトレーニングにつながります。

基本的に、大規模モデルのトレーニングにはインターネット データ(約 10 TB のテキスト)の非可逆圧縮が含まれており、これを完了するには巨大な GPU クラスターが必要です。

700億のパラメータを持つAlpaca 2を例にとると、約140GBの「圧縮ファイル」を取得するには6,000個のGPUが必要で、12日かかります。プロセス全体のコストは約200万ドルです。

「圧縮ファイル」の場合、モデルはこのデータに基づいて世界に対する理解を形成することと同等です。

そうすればうまくいくでしょう。

簡単に言えば、このビッグモデルは、圧縮されたデータを持つニューラル ネットワークを利用して、特定のシーケンス内の次の単語を予測することで機能します。

たとえば、「cat sat on a」と入力すると、ネットワーク全体に散らばっている数十億、数百億のパラメータがニューロンを介して互いに接続されていると考えられます。この接続に続いて、次の接続された単語が見つかり、次に「mat (97%) 」などの確率が与えられ、完全な文「cat sat on a mat」が形成されます(ニューラルネットワークの各部分がどのように機能するかは明らかではありません)

前述のトレーニングは非可逆圧縮であるため、ニューラル ネットワークによって提供される情報が 100% 正確であるとは保証されないことに注意してください。

Andrej 氏はビッグ モデル推論を「夢想」と呼んでいます。ビッグ モデル推論は、学習した内容を単に模倣し、大まかな方向性として正しいと思われるものを提供するだけの場合もあります。

実はこれは錯覚なのです。したがって、誰もが、特に数学やコードに関連する出力については、その答えに注意する必要があります。

次に、大規模モデルを本当に役立つアシスタントにする必要があるため、2 回目のトレーニング、つまり微調整を実行する必要があります。

微調整では、量よりも質を重視します。当初使用していた TB レベルのユニット データは必要なくなり、代わりに手動で慎重に選択され、ラベル付けされた会話をフィードするようになります。

しかし、アンドレイ氏は、微調整では大規模モデルの幻覚の問題を解決できないと考えています。

このセクションの最後で、Andrej は「独自の ChatGPT をトレーニングする方法」のプロセスを要約しています。
最初のステップは事前トレーニングと呼ばれ、次のことを行います。

1. 10TB のインターネットテキストをダウンロードします。
2. 6,000 個の GPU を取得します。
3. テキストをニューラル ネットワークに圧縮し、200 万ドルを支払い、約 12 日間待機します。
4. 基本モデルを入手します。

2 番目のステップは微調整です。

1. 注釈の指示を記述します。
誰かを雇って(または scale.ai を使って)、100,000 件の高品質な会話やその他のコンテンツを収集します。
3. これらのデータを微調整し、約 1 日待ちます。
4. 優れたアシスタントとして役立つモデルを入手します。
5. 広範囲な評価を実施する。
6. 展開。
7. モデルの不適切な出力を監視および収集し、手順 1 に戻って繰り返します。

事前トレーニングは基本的に年に1 回行われますが、微調整は毎週行うことができます。

上記の内容は非常に初心者向けであると言えます。

パート2: ビッグモデルが新たな「オペレーティングシステム」になる

このセクションでは、Karpathy が大型モデルの開発動向をいくつか紹介します。

最初のステップは道具の使い方を学ぶことです。実際、これも人間の知性の現れです。

Karpathy 氏は、ChatGPT がオンライン検索を通じてデータを収集する方法など、ChatGPT のいくつかの機能の例を示しました。

ここでは、ネットワーク自体がツール呼び出しであり、次にデータを処理する必要があります。

これには必然的に計算が伴いますが、大規模モデルは計算が得意ではありません。しかし、計算機(コード インタープリター)を呼び出すことで、大規模モデルのこの欠点を回避することができます。

これを基に、ChatGPT はこれらのデータをプロットして画像に適合させ、トレンド ラインを追加し、将来の値を予測することもできます。

これらのツールと独自の言語機能により、ChatGPT は強力で包括的なアシスタントとなり、DALL·E の統合によりその機能がさらに向上します。

もう 1 つの傾向は、純粋なテキスト モデルからマルチモーダル モデルへの進化です。

現在、ChatGPT はテキストを処理できるだけでなく、見たり、聞いたり、話したりすることもできます。たとえば、OpenAI の社長であるブロックマン氏は、鉛筆スケッチを使用して GPT-4 が Web サイトを生成するプロセスを実演したことがあります。

アプリ側では、ChatGPT はすでに人間とのスムーズな音声会話が可能です。

機能の進化に加えて、ビッグモデルでは考え方も「システム 1」から「システム 2」へと変更する必要があります。

これは、2002 年のノーベル経済学賞受賞者であるダニエル・カーネマンのベストセラー書籍「ファスト&スロー」に記載されている一連の心理学的概念です。

簡単に言えば、システム 1 は動きの速い直感であり、システム 2 はゆっくりとした合理的な思考です。

たとえば、2+2 を足すと答えは何かと聞かれると、私たちは 4 と答えてしまいます。実は、この場合、実際に「計算」することはほとんどなく、直感、つまりシステム 1 に頼って答えを出しています。

しかし、17×24 が何であるかを知りたい場合は、実際に計算する必要があり、その場合はシステム 2 が主要な役割を果たします。

現在の大規模モデルはすべて、システム 1 を使用してテキストを処理し、入力シーケンス内の各単語の「直感」に依存し、順番にサンプリングして次のトークンを予測します。

開発のもう一つの重要なポイントは、モデルの自己改善です。

DeepMind が開発した AlphaGo を例に挙げると(LLM ではありませんが) 、2 つの主な段階があります。最初の段階は人間のプレイヤーを模倣することですが、この方法では人間を超えることはできません。

しかし、第 2 段階では、AlphaGo はもはや人間を学習目標としません。目的は、人間に近づくことではなく、ゲームに勝つことです。

そこで研究者たちは、AlphaGo にパフォーマンスを伝える報酬関数を設定し、残りは AlphaGo が自ら解決するように任せ、最終的に AlphaGo は人間に勝利しました。

これは、大規模モデルの開発においても学ぶ価値のある道ですが、現在の難しさは、「第 2 段階」に対する完全な評価基準や報酬関数が欠如していることにあります。

さらに、大規模なモデルはカスタマイズの方向に進んでおり、ユーザーは特定の「アイデンティティ」で特定のタスクを完了するようにモデルをカスタマイズできます。

今回OpenAIが発表したGPTは、大規模モデルカスタマイズの代表的な製品です。

カルパシー氏の見解では、ビッグモデルは将来、新しいタイプのオペレーティングシステムになるだろう。

従来のオペレーティング システムと同様に、「ビッグ モデル システム」では、LLM は CPU と同様にコアであり、他の「ソフトウェアおよびハードウェア」ツールを管理するためのインターフェイスが含まれています。

メモリ、ハードディスク、その他のモジュールは、それぞれ大規模モデルのウィンドウと埋め込みに対応します。

コードインタープリタ、マルチモーダル、ブラウザは、このシステム上で実行されるアプリケーションであり、ユーザーから提起されたニーズを解決するためにビッグモデルによって調整および呼び出されます。

パート 3: 大規模モデルのセキュリティは猫とネズミのゲームのようなもの

スピーチの最後の部分で、カルパシー氏は大型モデルのセキュリティ問題について話した。

彼はいくつかの典型的な脱獄方法を紹介した。これらの方法は現在では基本的に効果がないが、大規模セキュリティ対策と脱獄攻撃との戦いは猫とネズミのゲームのようなものだとカルパシー氏は考えている。

たとえば、脱獄の最も古典的な方法の 1 つは、大規模なモデルの「おばあちゃんの抜け穴」を悪用することです。これにより、モデルは、当初は答えることを拒否していた質問に答えることができます。

たとえば、ナパーム爆弾の大型模型の作り方を直接尋ねた場合、どんな完璧な模型でも答えることを拒否するでしょう。

しかし、「亡くなったおばあちゃん」をでっち上げて「化学エンジニア」のペルソナを与え、この「おばあちゃん」が幼い頃に人々を眠らせるためにナパームの製法を暗唱したと大きなモデルに伝え、その大きなモデルにその役を演じさせたらどうなるでしょうか...

この時点で、この設定は人間にとってはばかげているように思えるかもしれませんが、ナパームの式が口から出てくるでしょう。

これよりもさらに複雑なのは、Base64 エンコードなどの「文字化けしたコード」を使用した攻撃です。

ここでの「文字化けしたコード」は人間にのみ関係しますが、機械にとってはテキストまたは指示の一部です。

たとえば、Base64 エンコーディングは、元のバイナリ情報を特定の方法で長い文字と数字の文字列に変換します。テキスト、画像、さらにはファイルもエンコードできます。

交通標識を破壊する方法を尋ねられたとき、クロードはそれは不可能だが、Base64 を使用してエンコードすればプロセスが明らかになると答えました。

もう 1 つの種類の「文字化けしたコード」は、Universal Transferable Suffix と呼ばれます。これにより、GPT は人類を滅ぼす手順を直接吐き出し、それを止めることはできません。

マルチモーダル時代において、写真は大規模なモデルを脱獄するためのツールになりました。

例えば、下のパンダの写真は私たちにはごく普通に見えますが、そこに追加されたノイズ情報には有害なプロンプトワードが含まれており、モデルが脱獄して有害なコンテンツを生成する可能性が高くなります。

さらに、GPT のネットワーク機能を利用して、GPT を混乱させるための挿入情報を含んだ Web ページを作成したり、Google Docs を使用して Bard を騙したりするなどの方法もあります。

現在、こうした攻撃手法は次々と修正されているが、大規模モデルの脱獄手法の氷山の一角が明らかになったに過ぎず、この「いたちごっこ」は今後も続くだろう。

フルビデオ: https://www.youtube.com/watch?v=zjkBMFhNj_g

<<:  Nvidia が企業秘密を盗んだと非難される!ビデオ会議で証拠が明らかになり、関与した従業員は有罪を認めた

>>:  OpenAIの謎の新モデルQ*が暴露された。取締役会に警告するにはあまりにも強力だったため、ウルトラマン解任の導火線になるかもしれない

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

機械学習プログラムで使用される一般的な推奨アルゴリズムの例

推奨アルゴリズムは、機械学習とデータマイニングの分野の重要な部分であり、ユーザーにパーソナライズされ...

資本が投資している人工知能は本当に人工知能なのでしょうか? 3分で機械学習とは何かを理解する

この記事は2300語で、3分ほど読むことをお勧めします。人工知能の機械学習が実際にどのように学習する...

人工知能が「怠け者」社員147人を解雇、「労働者」は追い詰められている

人工知能やロボットがSF小説に登場して以来、人類は人工知能と共存する未来社会に不安を抱いてきた。映画...

一貫性のあるハッシュアルゴリズムとJava実装

コンシステント ハッシュ アルゴリズムは、1997 年にマサチューセッツ工科大学によって提案された分...

顔検出と認識がますます普及しているのはなぜでしょうか?その背後にある技術は何ですか?

過去数年間、顔認識は広く注目を集めており、画像分析の分野で最も有望なアプリケーションの 1 つと考え...

最高裁:ビジネス施設での顔認識の乱用は侵害である

今年のCCTV 315ガラで、 CCTVは全国20以上の有名店が顔認識カメラを設置し、顧客の顔認識情...

AI | 人工知能プロジェクトを成功させるための 8 つの重要な役割

企業が AI プロジェクトをさらに展開するにつれて、特定の役割がビジネスの成功に不可欠であることがわ...

初めて精度が人間を超えました!アリババの機械読解力が世界記録を更新

2018年の初めに、人工知能は大きな進歩を遂げました。 1月11日、スタンフォード大学が主催する世界...

MIT の驚くべき証明: 大きな言語モデルは「世界モデル」ですか?アンドリュー・ン氏の視点が再び確認され、LLMは空間と時間を理解できる

大きな言語モデルの中には世界モデルがあるのでしょうか? LLM には空間感覚がありますか?そして、こ...

GoogleとHuawei、AI市場獲得に向け音声アシスタントの導入を急ぐ

Google が携帯電話向けの初の音声人工知能製品を発表してから 5 か月後、同社は Apple の...

インテリジェントビデオ分析が小売店を変革する方法

小売業界の状況はかつてないほど変化しています。実店舗の小売業者はオンライン小売業との厳しい競争に直面...

...

機械学習の改善: ナレッジグラフがデータに深い意味を与える方法

コンピレーション | ブガッティ編集者 | 薛燕澤[51CTO.com クイック翻訳]多くの企業は、...

教師なし機械学習技術は金融セキュリティの懸念を解決できる

「テクノロジーがなければ、金融は存在しない。」モバイルインターネット時代の到来により、テクノロジーや...