テスラのAIディレクター、カルパシー氏は、すべてのMLモデルをTransformerで定義することでAI統合のトレンドについてツイートした。

テスラのAIディレクター、カルパシー氏は、すべてのMLモデルをTransformerで定義することでAI統合のトレンドについてツイートした。

本日、テスラAIのディレクターであり、オートパイロットビジョンチームのリーダーであるアンドレイ・カルパシー氏がTwitterに投稿し、AI分野における継続的な統合に対する驚きを表明した。

「10年前は、視覚、音声、自然言語、強化学習などは完全に別々で、分野横断的な論文さえありませんでした。手法も完全に異なり、通常は機械学習に基づいていませんでした。」と彼は言いました。

2010年以降、視覚、言語、自然言語、強化学習などの分野における障壁が徐々に打ち破られ、機械学習、特にニューラルネットワークという同じ技術的方向に向かって動き始めました。使用されているネットワーク アーキテクチャには多様性がありますが、少なくとも論文は、基本的には大規模なデータセットとネットワークの最適化を使用する点で、似たような内容になり始めています。

AI技術の発展により、過去2年間でさまざまな分野のモデルアーキテクチャが類似してきたようです。多くの研究者が Transformer アーキテクチャに注目し始め、研究のためにこれを基に小さな変更を加えています。

例えば、2018年に発売されたGPTには1億1,700万のパラメータがあり、2019年のGPT-2には15億のパラメータがあり、2020年には1,750億のパラメータを持つGPT-3に拡張されました。 Karpathy は PyTorch をベースに、わずか 300 行ほどのコードで小さな GPT トレーニング ライブラリを作成し、minGPT と名付けました。この minGPT は、加算演算と文字レベルの言語モデリングを高い精度で実行できます。コア minGPT ライブラリには、mingpt/model.py と mingpt/trainer.py の 2 つのファイルが含まれています。前者には実際の Transformer モデル定義 (約 200 行のコード) が含まれており、後者はモデルのトレーニングに使用できる GPT に依存しない PyTorch ボイラープレート ファイルです。

いくつかのコードのスクリーンショット。

完全なコードは 197 行: https://github.com/karpathy/minGPT/blob/master/mingpt/model.py

モデルアーキテクチャの融合により、単語シーケンス、画像パッチシーケンス、音声シーケンス、強化学習シーケンス(状態、アクション、報酬)をモデルに入力できるようになりました。条件設定に任意のトークンを追加できます。このモードは、非常にシンプルで柔軟なモデリング フレームワークです。

視覚などの領域内でも、歴史的には分類、セグメンテーション、検出、生成のタスク間にはいくつかの違いがありました。ただし、パッチ検出のシーケンスやバウンディング ボックスの出力シーケンスなど、これらすべても同じフレームワークに変換されます。

現在、主な特徴として以下の点が挙げられます。

1) データ

2) 問題をベクトル列にマッピングし、問題の入力/出力仕様をベクトル列からマッピングする

3) 位置エンコーダの種類とアテンションマスクにおける問題固有の構造化スパースパターン

したがって、技術的に言えば、展望、論文、才能、アイデアなど、AI 分野のあらゆる側面が突然非常に重要になりました。基本的に誰もが同じモデルを使用しており、ほとんどの改善点やアイデアは AI のあらゆる分野に素早く「コピー アンド ペースト」できます。

多くの人が気づき指摘しているように、大脳新皮質は、そのすべての入力様式にわたって高度に統一されたアーキテクチャを持っています。おそらく自然は、非常によく似た強力な建築物を偶然見つけ、いくつかの詳細だけを変えて、同じようにそれを模倣したのでしょう。

このアーキテクチャの融合により、ハードウェア、ソフトウェア、インフラストラクチャに重点を置くことができ、AI 分野の進歩がさらに加速します。 「いずれにしても、とても楽しい時期です。」

ネットユーザーも、アンドレイ・カルパシー氏が説明したAI統合のトレンドについて意見を述べた。

Twitterユーザーの@Neural Net Nailさんは、「これは貴重な洞察です。コンバージェンスによりAI分野のイノベーションのペースが加速し、エッジでAIを活用した最先端の製品がより実現可能になるでしょう。ばらつきは品質の最大の敵だと思います」とコメントしています。

ネットユーザーの @sisil mehta 氏も、「ML インフラストラクチャはエキサイティングな時代を先導しました。モデル アーキテクチャが統合されるにつれて、モデリング フレームワークとインフラストラクチャも統合されます。PyTorch Lightning も同様になることを心から願っています」と考えています。

ネットユーザーの@Marcos Pereiraさんは、「一方では、変圧器はどこでも使用されているため、障害に遭遇し、革新が必要です。他方では、変圧器はどこでも使用されているため、追いついていきましょう」と述べました。

元記事は@Andrej KarpathyのTwitterより: https://twitter.com/karpathy/status/1468370605229547522

Pythonをベースに、NVIDIA TAO ToolkitとDeepstreamを使用して車両情報認識システムを迅速に構築

NVIDIA TAO Toolkit は、AI/DL フレームワークへの既成のインターフェイスを提供し、コーディングなしでより高速なモデル構築を可能にする AI ツールキットです。

DeepStream は、人工知能アプリケーションを構築するためのストリーミング分析ツールキットです。ストリーミング データを入力として受け取り、人工知能とコンピューター ビジョンを使用して環境を理解し、ピクセルをデータに変換します。

DeepStream SDK は、スマート シティでの交通と歩行者の把握、病院での健康と安全の監視、小売店でのセルフサービス検査と分析、製造工場での部品欠陥検出などの視覚アプリケーション ソリューションの構築に使用できます。

<<:  ケンブリッジ大学チームは約50年後に初めて量子スピン液体を検出し、その研究はサイエンス誌に掲載された。

>>:  AIと機械学習をサイバーセキュリティに組み込む方法

ブログ    
ブログ    

推薦する

オフライン小売業で AI 自動チェックアウト サービスを構築するにはどうすればよいでしょうか?

翻訳者 | 邱凱校正 | 梁哲、孫淑娟列に並ぶ必要がなく、遅延もなく、便利に購入できるという顧客体験...

...

AIOps ツールがクラウド コンピューティングに新たな命を吹き込む理由

[[331103]] AIOps ツールは IT 分野で幅広い応用が期待されていますが、クラウド テ...

DeepMindがMuJoCoをオープンソース化!メタは「スケルトンハンド」にクルミをプレイさせるために使用されます

「クルミで遊んでいる」骸骨の手を見たことがありますか? この魔法の「手」は、Meta が新たにリリー...

...

...

...

デジタルイノベーション:次の世界的危機に対応するための重要な要素

世界的なCOVID-19危機は依然として猛威を振るっていますが、一部の組織はすでに将来のパンデミック...

ChatGPT を使用すると、開発と学習の効率が向上するだけでなく、奥さんとの関係にも役立ちますか?

2024年初頭にChatGPTが人気を博して以来、コーディングを支援するさまざまなAIGCツールに...

企業におけるビッグデータ活用のための実践的AI技術

ビッグデータ、クラウド コンピューティング、高度なアルゴリズムという 3 つの主要なトレンドのユニー...

大きな論争の中、ニューヨーク警察はロボット犬をボストン・ダイナミクスに返却した

ニューヨーク市警察は、その「ユートピア的」技術に対する激しい批判を受け、米国企業ボストン・ダイナミク...

...

SOA におけるソフトウェア アーキテクチャ設計とソフトウェアとハ​​ードウェアの分離方法論

次世代の集中型電子電気アーキテクチャでは、中央+ゾーン中央コンピューティング ユニットと地域コントロ...

顔合成効果はStyleGANに匹敵し、オートエンコーダである

オートエンコーダー (AE) と生成的敵対的ネットワーク (GAN) は、複雑な分布に対する教師なし...