OpenAIを去った偉人カパシ氏は「教え始めた」。おなじみのミニコードスタイルのまま、新しいプロジェクトが日々増えている。

OpenAIを去った偉人カパシ氏は「教え始めた」。おなじみのミニコードスタイルのまま、新しいプロジェクトが日々増えている。

偉大なカルパシー氏はOpenAIを辞任し、当初は1週間の休暇を取ると脅していた。

写真

しかし、瞬く間に、新しいプロジェクトが GitHub で公開され、毎日何千ものスターを獲得しました。

写真

相変わらずおなじみのカードの方式:

大規模モデルのトークン化で一般的に使用される BPE (バイト ペア エンコーディング) アルゴリズムを処理し、アルゴリズムの最小かつ最もクリーンなコード バージョンを実装するための 74 行の Python コード。

平:

写真

約 30,000 個の星がある nanoGPT に少し似ているように感じますか?

この波はネットユーザーに本当に推測させました:

調理の時間です。

結局のところ、カルパシー氏は、テスラ社の元AIディレクターやOpenAIの創設メンバーという肩書きに加え、ネットユーザーの間では「AI分野の偉大な慈善家」や「複雑な問題を単純化するのが得意なカルパシー先生」(犬の頭)として最もよく知られている。

BPE コードの最小化バージョン

今回カルパティ先生がどんなご飯を作ったのか、詳しく見てみましょう。

写真

プロジェクト名 minbpe がすべてを物語っています。つまり、BPE アルゴリズムの最小かつ最もクリーンなコード バージョンです。

BPE (Byte Pair Encoding) は、GPT-2 で普及したトークン化アルゴリズムです。現在、GPT シリーズ、Llama シリーズ、Mistral を含む多くの大規模モデルがこのアルゴリズムを使用して単語セグメンテーションをトレーニングしています。

BPE の主な利点は次のとおりです。

  • 効率的: 頻繁に発生するバイト ペアをマージして語彙を徐々に構築することで、モデルが処理する必要がある語彙のサイズを効果的に削減できます。
  • 柔軟性: 語彙にない単語は、処理のために既知のサブワードに分解できるため、モデルがトレーニングで出現しなかった単語を理解して生成するのに役立ちます。

minbpe プロジェクトでは、Karpathy は 2 つのトークナイザーを提供しており、どちらもトークナイザーの 3 つの主な機能を実行できます。

  • 特定のテキストに基づいた語彙のトレーニングとマージ操作
  • テキストをトークンにエンコードする
  • トークンをテキストにデコードする

具体的には、basic.py では、minbpe は 74 行の Python コードを使用して、テキスト上で直接実行される BPE アルゴリズムの最も単純な実装を完了します。

写真

regex.py では、minbpe は正規表現を使用して入力テキストをさらに分割する正規表現トークナイザーを実装します。

さらに、正規表現トークナイザーに基づいて、minbpe は gpt4.py で GPT4Tokenizer も提供しており、オンライン tiktoken ライブラリの GPT-4 を正確にトークン化できます。

注: Tiktoken は高速な BPE トークナイザーです。

写真

base.py は、トレーニング、エンコード、デコード用のスタブが含まれ、保存および読み込み機能を提供し、いくつかの一般的な補助ツール機能を統合する基本クラスです。実際のアプリケーションでは、開発者はこの基本クラスを継承して特定の単語分割機能を実装する必要があります。

カルパシー氏は、テイラー・スウィフトのWikipediaテキストで2つの主要なトークナイザーのトレーニングを試みたと述べました。 train.py を M1 MacBook で実行すると約 25 秒かかります。

まだ質問がある場合は心配しないでください。Ka先生がビデオを公開する予定です。

写真

Karpathy 氏は OpenAI を去りましたが、彼の「次の章」は Large Language Model System (LLM OS) になるだろうと多くの人が推測しています。

写真

彼の正式な職業はまだ明らかにされていないが、カルパシーはすでに「人々を教え、教育する」という副業を始めているようなので、皆さんも始めることができるだろう。

参考リンク: https://github.com/karpathy/minbpe/

<<:  GitHub ホットリスト 1 位: 数百万のトークン コンテキスト、動画も生成可能、カリフォルニア大学バークレー校制作

>>:  AIを使ってアニメーションを作成する方法と、さまざまなツールがあなたを待っています

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

デジタルホーム: IoTとAIで家電をもっとスマートに

洗濯機、照明、スピーカー、テレビ、カメラなど、日常的に使用するデバイスが、離れた場所からあなたと通信...

ソフトウェアは世界を飲み込んでいるが、AIはソフトウェアを飲み込んでいる

COVID-19が世界を席巻したとき、人工知能はなぜ大きな空白を埋めることができるのか?教育、セキュ...

音声合成のためのディープフィードフォワードシーケンシャルメモリネットワーク

まとめディープフィードフォワードシーケンスメモリネットワークに基づく音声合成システムを提案します。こ...

聞いてください、トランスフォーマーはサポートベクターマシンです

Transformer は、学界で議論を巻き起こしたサポート ベクター マシン (SVM) の新しい...

モデルの解釈可能性に関する詳細な考察: それはどこから来て、どこに向かうのか?

この記事の著者である Cody Marie Wild は、機械学習分野のデータ サイエンティスト (...

1行のコードでデバッグと印刷を排除し、アルゴリズムの学習を支援

[[442725]]この記事はWeChatの公開アカウント「Python Technology」から...

スマートビルにはスマートクリーニングが必要な理由

スマートビルへの移行はヨーロッパ全土で加速しています。あらゆる業界の組織が顧客と従業員のエクスペリエ...

AIミドルプラットフォーム - インテリジェントチャットボットプラットフォームのアーキテクチャとアプリケーション

講演者紹介:王東:北京大学大学院 CreditEase テクノロジーセンター AI ミドルプラットフ...

モザイクを使用するのは安全ですか? AIがモザイクを除去し、導入から3日間で約7,000個の星を獲得

パスワードを隠すためにまだモザイクを使用していますか? 「見透かされる」ことには注意してください。ピ...

6 つの大きな障害に直面していますが、AI イノベーションはそれらをうまく克服できるでしょうか?

現状では、人工知能業界は消費者からの需要が大きく、投資家からの関心も高く、非常に活況を呈しているよう...

...

GPT-4が化学者になる! USTC などが初の「科学リスク」ベンチマークと SciGuard ビッグモデルを発表

「我々の実験は制御不能になった!これは我々の世界の終わりだ!」 - デイ・アフター・トゥモローSF映...

人工知能がITおよびAV業界にもたらす変化

【51CTO.com クイック翻訳】 [[425066]] ITおよびAV業界における人工知能IT(...

なぜスパムメールがこんなに多いのでしょうか? Redditの男が機械学習の残酷な現実を暴露

近年、AIのトレンドは高まるばかりで、毎年大規模な機械学習カンファレンスが盛んに開催されており、誰も...