テスラの元AIディレクター、アンドレイ・カルパシー氏の新しいチュートリアルが話題になっている。 今回、彼は特に一般の人々向けに、大規模言語モデルに関する科学普及ビデオを制作しました。 所要時間は 1 時間で、すべて「非技術的な入門」であり、モデルの推論、トレーニング、微調整、新しい大規模モデル オペレーティング システム、セキュリティの課題などをカバーしています。関連する知識はすべて今月までのものです(非常に新しい) 。 △ビデオカバーはAndrejがDall·3を使用して描きました この動画はYouTubeでたった1日で20万回再生された。 一部のネットユーザーはこう言った。 10 分ほど視聴しただけで、すでに多くのことを学びました。ビデオのような例を使って LLM が説明されているのをこれまで見たことがなく、また、これまで見てきた多くの「紛らわしい」概念が明確になりました。 コースの質の高さを称賛するだけでなく、Andrej 自身が複雑な問題を単純化するのが本当に上手で、彼の教え方は常に印象的だとコメントする人も多かったです。 それだけでなく、このビデオは彼の職業に対する愛情を十分に反映しているとも言えます。 さて、アンドレイ自身によると、ビデオは感謝祭の休暇中に撮影され、背景は彼のリゾートホテル(犬の頭)だそうです。 このビデオを作った当初の目的は、彼が最近人工知能セキュリティサミットでスピーチをしたことでした。スピーチは録画されていませんでしたが、多くの視聴者がその内容を気に入ったと言っていました。 そこで彼は、少しだけ調整を加えて、もう一度物語を語り、より多くの人が視聴できるようにビデオに仕上げました。 それで、具体的にはどのようなことですか? 一つずつ皆さんに紹介していきましょう。 パート1: 大きなモデルは基本的に2つのファイルです最初の部分では、主に大規模モデルの全体的な概念について説明します。 まず、ビッグモデルとは何でしょうか? Andrej の説明は非常に興味深いです。基本的には 2 つのファイルです。 1 つはパラメータ ファイルであり、もう 1 つはこれらのパラメータを実行するためのコードを含むコード ファイルです。 前者はニューラル ネットワーク全体を構成する重みであり、後者はニューラル ネットワークを実行するために使用されるコードであり、C またはその他のプログラミング言語で記述できます。 これら 2 つのファイルとラップトップがあれば、インターネット接続などを使用せずに、このモデル(大きなモデル)と通信して、詩を書くように依頼するなどして、テキストの生成を開始できます。 それで次の質問は、パラメータはどこから来るのかということです。 これはモデルのトレーニングにつながります。 基本的に、大規模モデルのトレーニングにはインターネット データ(約 10 TB のテキスト)の非可逆圧縮が含まれており、これを完了するには巨大な GPU クラスターが必要です。 700億のパラメータを持つAlpaca 2を例にとると、約140GBの「圧縮ファイル」を取得するには6,000個のGPUが必要で、12日かかります。プロセス全体のコストは約200万ドルです。 「圧縮ファイル」の場合、モデルはこのデータに基づいて世界に対する理解を形成することと同等です。 そうすればうまくいくでしょう。 簡単に言えば、このビッグモデルは、圧縮されたデータを持つニューラル ネットワークを利用して、特定のシーケンス内の次の単語を予測することで機能します。 たとえば、「cat sat on a」と入力すると、ネットワーク全体に散らばっている数十億、数百億のパラメータがニューロンを介して互いに接続されていると考えられます。この接続に続いて、次の接続された単語が見つかり、次に「mat (97%) 」などの確率が与えられ、完全な文「cat sat on a mat」が形成されます(ニューラルネットワークの各部分がどのように機能するかは明らかではありません) 。 前述のトレーニングは非可逆圧縮であるため、ニューラル ネットワークによって提供される情報が 100% 正確であるとは保証されないことに注意してください。 Andrej 氏はビッグ モデル推論を「夢想」と呼んでいます。ビッグ モデル推論は、学習した内容を単に模倣し、大まかな方向性として正しいと思われるものを提供するだけの場合もあります。 実はこれは錯覚なのです。したがって、誰もが、特に数学やコードに関連する出力については、その答えに注意する必要があります。 次に、大規模モデルを本当に役立つアシスタントにする必要があるため、2 回目のトレーニング、つまり微調整を実行する必要があります。 微調整では、量よりも質を重視します。当初使用していた TB レベルのユニット データは必要なくなり、代わりに手動で慎重に選択され、ラベル付けされた会話をフィードするようになります。 しかし、アンドレイ氏は、微調整では大規模モデルの幻覚の問題を解決できないと考えています。 このセクションの最後で、Andrej は「独自の ChatGPT をトレーニングする方法」のプロセスを要約しています。 1. 10TB のインターネットテキストをダウンロードします。 2 番目のステップは微調整です。 1. 注釈の指示を記述します。 事前トレーニングは基本的に年に1 回行われますが、微調整は毎週行うことができます。 上記の内容は非常に初心者向けであると言えます。 パート2: ビッグモデルが新たな「オペレーティングシステム」になるこのセクションでは、Karpathy が大型モデルの開発動向をいくつか紹介します。 最初のステップは道具の使い方を学ぶことです。実際、これも人間の知性の現れです。 Karpathy 氏は、ChatGPT がオンライン検索を通じてデータを収集する方法など、ChatGPT のいくつかの機能の例を示しました。 ここでは、ネットワーク自体がツール呼び出しであり、次にデータを処理する必要があります。 これには必然的に計算が伴いますが、大規模モデルは計算が得意ではありません。しかし、計算機(コード インタープリター)を呼び出すことで、大規模モデルのこの欠点を回避することができます。 これを基に、ChatGPT はこれらのデータをプロットして画像に適合させ、トレンド ラインを追加し、将来の値を予測することもできます。 これらのツールと独自の言語機能により、ChatGPT は強力で包括的なアシスタントとなり、DALL·E の統合によりその機能がさらに向上します。 もう 1 つの傾向は、純粋なテキスト モデルからマルチモーダル モデルへの進化です。 現在、ChatGPT はテキストを処理できるだけでなく、見たり、聞いたり、話したりすることもできます。たとえば、OpenAI の社長であるブロックマン氏は、鉛筆スケッチを使用して GPT-4 が Web サイトを生成するプロセスを実演したことがあります。 アプリ側では、ChatGPT はすでに人間とのスムーズな音声会話が可能です。 機能の進化に加えて、ビッグモデルでは考え方も「システム 1」から「システム 2」へと変更する必要があります。 これは、2002 年のノーベル経済学賞受賞者であるダニエル・カーネマンのベストセラー書籍「ファスト&スロー」に記載されている一連の心理学的概念です。 簡単に言えば、システム 1 は動きの速い直感であり、システム 2 はゆっくりとした合理的な思考です。 たとえば、2+2 を足すと答えは何かと聞かれると、私たちは 4 と答えてしまいます。実は、この場合、実際に「計算」することはほとんどなく、直感、つまりシステム 1 に頼って答えを出しています。 しかし、17×24 が何であるかを知りたい場合は、実際に計算する必要があり、その場合はシステム 2 が主要な役割を果たします。 現在の大規模モデルはすべて、システム 1 を使用してテキストを処理し、入力シーケンス内の各単語の「直感」に依存し、順番にサンプリングして次のトークンを予測します。 開発のもう一つの重要なポイントは、モデルの自己改善です。 DeepMind が開発した AlphaGo を例に挙げると(LLM ではありませんが) 、2 つの主な段階があります。最初の段階は人間のプレイヤーを模倣することですが、この方法では人間を超えることはできません。 しかし、第 2 段階では、AlphaGo はもはや人間を学習目標としません。目的は、人間に近づくことではなく、ゲームに勝つことです。 そこで研究者たちは、AlphaGo にパフォーマンスを伝える報酬関数を設定し、残りは AlphaGo が自ら解決するように任せ、最終的に AlphaGo は人間に勝利しました。 これは、大規模モデルの開発においても学ぶ価値のある道ですが、現在の難しさは、「第 2 段階」に対する完全な評価基準や報酬関数が欠如していることにあります。 さらに、大規模なモデルはカスタマイズの方向に進んでおり、ユーザーは特定の「アイデンティティ」で特定のタスクを完了するようにモデルをカスタマイズできます。 今回OpenAIが発表したGPTは、大規模モデルカスタマイズの代表的な製品です。 カルパシー氏の見解では、ビッグモデルは将来、新しいタイプのオペレーティングシステムになるだろう。 従来のオペレーティング システムと同様に、「ビッグ モデル システム」では、LLM は CPU と同様にコアであり、他の「ソフトウェアおよびハードウェア」ツールを管理するためのインターフェイスが含まれています。 メモリ、ハードディスク、その他のモジュールは、それぞれ大規模モデルのウィンドウと埋め込みに対応します。 コードインタープリタ、マルチモーダル、ブラウザは、このシステム上で実行されるアプリケーションであり、ユーザーから提起されたニーズを解決するためにビッグモデルによって調整および呼び出されます。 パート 3: 大規模モデルのセキュリティは猫とネズミのゲームのようなものスピーチの最後の部分で、カルパシー氏は大型モデルのセキュリティ問題について話した。 彼はいくつかの典型的な脱獄方法を紹介した。これらの方法は現在では基本的に効果がないが、大規模セキュリティ対策と脱獄攻撃との戦いは猫とネズミのゲームのようなものだとカルパシー氏は考えている。 たとえば、脱獄の最も古典的な方法の 1 つは、大規模なモデルの「おばあちゃんの抜け穴」を悪用することです。これにより、モデルは、当初は答えることを拒否していた質問に答えることができます。 たとえば、ナパーム爆弾の大型模型の作り方を直接尋ねた場合、どんな完璧な模型でも答えることを拒否するでしょう。 しかし、「亡くなったおばあちゃん」をでっち上げて「化学エンジニア」のペルソナを与え、この「おばあちゃん」が幼い頃に人々を眠らせるためにナパームの製法を暗唱したと大きなモデルに伝え、その大きなモデルにその役を演じさせたらどうなるでしょうか... この時点で、この設定は人間にとってはばかげているように思えるかもしれませんが、ナパームの式が口から出てくるでしょう。 これよりもさらに複雑なのは、Base64 エンコードなどの「文字化けしたコード」を使用した攻撃です。 ここでの「文字化けしたコード」は人間にのみ関係しますが、機械にとってはテキストまたは指示の一部です。 たとえば、Base64 エンコーディングは、元のバイナリ情報を特定の方法で長い文字と数字の文字列に変換します。テキスト、画像、さらにはファイルもエンコードできます。 交通標識を破壊する方法を尋ねられたとき、クロードはそれは不可能だが、Base64 を使用してエンコードすればプロセスが明らかになると答えました。 もう 1 つの種類の「文字化けしたコード」は、Universal Transferable Suffix と呼ばれます。これにより、GPT は人類を滅ぼす手順を直接吐き出し、それを止めることはできません。 マルチモーダル時代において、写真は大規模なモデルを脱獄するためのツールになりました。 例えば、下のパンダの写真は私たちにはごく普通に見えますが、そこに追加されたノイズ情報には有害なプロンプトワードが含まれており、モデルが脱獄して有害なコンテンツを生成する可能性が高くなります。 さらに、GPT のネットワーク機能を利用して、GPT を混乱させるための挿入情報を含んだ Web ページを作成したり、Google Docs を使用して Bard を騙したりするなどの方法もあります。 現在、こうした攻撃手法は次々と修正されているが、大規模モデルの脱獄手法の氷山の一角が明らかになったに過ぎず、この「いたちごっこ」は今後も続くだろう。 フルビデオ: https://www.youtube.com/watch?v=zjkBMFhNj_g |
<<: Nvidia が企業秘密を盗んだと非難される!ビデオ会議で証拠が明らかになり、関与した従業員は有罪を認めた
>>: OpenAIの謎の新モデルQ*が暴露された。取締役会に警告するにはあまりにも強力だったため、ウルトラマン解任の導火線になるかもしれない
推奨アルゴリズムは、機械学習とデータマイニングの分野の重要な部分であり、ユーザーにパーソナライズされ...
この記事は2300語で、3分ほど読むことをお勧めします。人工知能の機械学習が実際にどのように学習する...
人工知能やロボットがSF小説に登場して以来、人類は人工知能と共存する未来社会に不安を抱いてきた。映画...
コンシステント ハッシュ アルゴリズムは、1997 年にマサチューセッツ工科大学によって提案された分...
過去数年間、顔認識は広く注目を集めており、画像分析の分野で最も有望なアプリケーションの 1 つと考え...
最近、中国科学技術大学の李伝鋒氏のチームが朗報を報告した。彼らは機械学習を量子力学の基本問題の研究に...
今年のCCTV 315ガラで、 CCTVは全国20以上の有名店が顔認識カメラを設置し、顧客の顔認識情...
企業が AI プロジェクトをさらに展開するにつれて、特定の役割がビジネスの成功に不可欠であることがわ...
2018年の初めに、人工知能は大きな進歩を遂げました。 1月11日、スタンフォード大学が主催する世界...
大きな言語モデルの中には世界モデルがあるのでしょうか? LLM には空間感覚がありますか?そして、こ...
Google が携帯電話向けの初の音声人工知能製品を発表してから 5 か月後、同社は Apple の...
小売業界の状況はかつてないほど変化しています。実店舗の小売業者はオンライン小売業との厳しい競争に直面...
コンピレーション | ブガッティ編集者 | 薛燕澤[51CTO.com クイック翻訳]多くの企業は、...
「テクノロジーがなければ、金融は存在しない。」モバイルインターネット時代の到来により、テクノロジーや...