OpenAIを退社して無職だったカルパシー氏が大規模モデルを使った新プロジェクトに取り組み、1日で星の数が1000を突破

OpenAIを退社して無職だったカルパシー氏が大規模モデルを使った新プロジェクトに取り組み、1日で星の数が1000を突破

じっとしていられないアンドレイ・カルパティに新しいプロジェクトが!

OpenAIはここ数日、非常に忙しい。まずAI界の巨人、アンドレイ・カルパシー氏が正式に辞任を発表し、その後、動画生成モデルSoraがAI界を揺るがした。

カルパシー氏はOpenAIからの退社を発表した後、「今週は休暇を取る」とツイートした。

画像出典: https://twitter.com/karpathy/status/1757986972512239665

この何もすることがない状態は、マスク氏も羨むほどです(私も羨ましいです)。

しかし、もし本当にカルパシーが怠惰になると考えているなら、あなたは少し「若すぎるし、海軍すぎる」のです。

現在、鋭い目を持つネットユーザーが、Karpathy 氏の新しいプロジェクトminbpe を発見しました。これは、LLM 単語分割で一般的に使用される BPE (バイトペアエンコーディング) アルゴリズム用の最小限かつクリーンで教育的なコードを作成することに専念しています

わずか 1 日で、プロジェクトの GitHub スターが 1.2k に達しました。

画像出典: https://twitter.com/ZainHasan6/status/1758727767204495367

誰かが、カルパシーがみんなのために「豪華な食事を作った」ことを示すために写真をフォトショップで加工した。

画像出典: https://twitter.com/andrewcyu/status/1758897928385561069

カルパティが戻ってきたと歓声を上げる人もいた。

画像出典: https://twitter.com/fouriergalois/status/1758775281391677477

「minbpe」プロジェクトが具体的に何について語っているのか見てみましょう。

プロジェクト紹介

GitHub アドレス: https://github.com/karpathy/minbpe

BPE アルゴリズムは「バイトレベル」であり、UTF-8 でエンコードされた文字列で動作することがわかっています。このアルゴリズムは、GPT-2 論文と GPT-2 関連コードを通じて、大規模言語モデル (LLM) で一般化されました。

現在、すべての最新の LLM (GPT、Llama、Mistral など) は、トークナイザーのトレーニングに BPE アルゴリズムを使用しています。

Karpathy の minbpe プロジェクト リポジトリには 2 つのトークナイザーが用意されており、どちらもトークナイザーの 3 つの主な機能 (1) トークナイザー語彙のトレーニングと指定されたテキストとのマージ、2) テキストからトークンへのエンコード、3) トークンからテキストへのデコードを実行できます。

詳細なリポジトリ ファイルは次のとおりです。

  • minbpe/base.py: 基本クラスである Tokenizer クラスを実装します。トレーニング、エンコードおよびデコードのスタブ、保存/読み込み関数、およびいくつかの一般的なユーティリティ関数が含まれています。ただし、このクラスは直接使用することを意図したものではなく、継承することを意図したものです。
  • minbpe/basic.py: テキストを直接操作する BPE アルゴリズムの最も単純な実装である BasicTokenizer を実装します。
  • minbpe/regex.py: 正規表現パターンによって入力テキストをさらに分割する RegexTokenizer を実装します。前処理段階として、トークン化の前に入力テキストをカテゴリ (文字、数字、句読点など) 別に分割します。これにより、クラス境界を越えたマージが発生しなくなります。これは GPT-2 の論文で導入され、GPT-4 でも引き続き使用されています。
  • minbpe/gpt4.py: GPT4Tokenizer を実装します。このクラスは RegexTokenizer の軽量ラッパーであり、tiktoken (OpenAI オープンソース単語分割アーティファクト) ライブラリの GPT-4 の単語分割を正確に再現します。ラッパーは、リカバリ トークナイザーでの正確なマージに関する詳細を処理し、1 バイトのトークンの順列を処理します。パリティ チェックはまだ完全には完了しておらず、特殊なトークンは処理されないことに注意してください。

スクリプト train.py は、入力テキスト tests/taylorswift.txt で 2 つの主要なトークナイザーをトレーニングし、視覚化のために語彙をディスクに保存します。 Karpathy 氏は、このスクリプトを MacBook (M1) で実行すると約 25 秒かかると述べました。

カルパシー氏はまた、すべての文書が非常に短く、よく注釈が付けられており、使用例も含まれていると述べた。以下は、BPE の Wikipedia 記事からの再現例です。

 from minbpe import BasicTokenizer tokenizer = BasicTokenizer()text = "aaabdaaabac" tokenizer.train(text, 256 + 3) # 256 are the byte tokens, then do 3 merges print(tokenizer.encode(text))# [258, 100, 258, 97, 99] print(tokenizer.decode([258, 100, 258, 97, 99]))# aaabdaaabac tokenizer.save("toy")# writes two files: toy.model (for loading) and toy.vocab (for viewing)

また、GPT4Tokenizer の実装方法と Tiktoken との比較についても説明します。

 text = "hello123!!!? (안녕하세요!) 😉" # tiktoken import tiktoken enc = tiktoken.get_encoding("cl100k_base")print(enc.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037] # ours from minbpe import GPT4Tokenizer tokenizer = GPT4Tokenizer()print(tokenizer.encode(text))# [15339, 4513, 12340, 30, 320, 31495, 230, 75265, 243, 92245, 16715, 57037]

もちろん、Karpathy 氏は GitHub プロジェクトを立ち上げるだけでは満足せず、ビデオもすぐに公開する予定だと述べています。

<<: 

>>:  AIシミュレーターが物理シミュレーションで新たなSOTAを達成!

ブログ    
ブログ    

推薦する

「今日の簡単な歴史」:今後 15 年間でほとんどの人が失業することになるのでしょうか?

ユヴァル・ノア・ハラリ氏(42歳)はもともとエルサレムでヘブライ語で歴史を教える大学教授だった。38...

Geek+がダブル11の結果を発表:中国最大のインテリジェント倉庫ロボットネットワークが72時間で811万件の注文を配達

中国・北京(2019年11月21日) – 世界的に有名な知能ロボット企業であるG​​eek+は、今年...

世界初、常温量子コンピュータが実用化!絶対零度の温度は必要ありません。メインコアには実際に「ダイヤモンドがセットされています」

量子コンピューティングは、おそらく現在最もエキサイティングな(そして話題になっている)研究分野の 1...

...

2020 年の DevOps の 7 つのトレンド

[51CTO.com クイック翻訳] 権威ある調査によると、2017 年に DevOps は市場で ...

ビッグデータ、人工知能、そして法曹界の未来

私は人工知能と法曹界の将来について数多くの講演を行ってきました。過去2年間、AlphaGo Zero...

人工知能は人間を監視しているのでしょうか?現在のAIと未来のAIのギャップ

アルゴリズムで構成されたAI多くの人は、一部の新しいハイテク概念は手の届かないものだと考えています。...

ゼロワンエブリシングYi-34B-Chat微調整モデルがオンラインになり、複数の権威あるリストに掲載されました

最近、業界の多くの大規模なモデルベンチマークが、「強度値」のアップデートの新たなラウンドを導入しまし...

...

WeChat、サードパーティのエコシステムに統合するインテリジェント会話システム「Xiaowei」を発表

2019年WeChatオープンクラスPROで、WeChat AIチームが開発したインテリジェント対話...

機械学習がゲームにおける物理シミュレーションに革命をもたらす

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

量子コンピュータ、モノのインターネット、サイバーセキュリティの相互作用

量子コンピュータは多くの産業の運営方法を変えるでしょう。量子コンピューティングは社会に大きな影響を与...

...

機械学習とAIを活用してAPIベースのセキュリティソリューションを開発

[[248484]] [51CTO.com クイック翻訳] アプリケーション セキュリティの脅威の背...