テスラのAIディレクター、カルパシー氏は、すべてのMLモデルをTransformerで定義することでAI統合のトレンドについてツイートした。

テスラのAIディレクター、カルパシー氏は、すべてのMLモデルをTransformerで定義することでAI統合のトレンドについてツイートした。

本日、テスラAIのディレクターであり、オートパイロットビジョンチームのリーダーであるアンドレイ・カルパシー氏がTwitterに投稿し、AI分野における継続的な統合に対する驚きを表明した。

「10年前は、視覚、音声、自然言語、強化学習などは完全に別々で、分野横断的な論文さえありませんでした。手法も完全に異なり、通常は機械学習に基づいていませんでした。」と彼は言いました。

2010年以降、視覚、言語、自然言語、強化学習などの分野における障壁が徐々に打ち破られ、機械学習、特にニューラルネットワークという同じ技術的方向に向かって動き始めました。使用されているネットワーク アーキテクチャには多様性がありますが、少なくとも論文は、基本的には大規模なデータセットとネットワークの最適化を使用する点で、似たような内容になり始めています。

AI技術の発展により、過去2年間でさまざまな分野のモデルアーキテクチャが類似してきたようです。多くの研究者が Transformer アーキテクチャに注目し始め、研究のためにこれを基に小さな変更を加えています。

例えば、2018年に発売されたGPTには1億1,700万のパラメータがあり、2019年のGPT-2には15億のパラメータがあり、2020年には1,750億のパラメータを持つGPT-3に拡張されました。 Karpathy は PyTorch をベースに、わずか 300 行ほどのコードで小さな GPT トレーニング ライブラリを作成し、minGPT と名付けました。この minGPT は、加算演算と文字レベルの言語モデリングを高い精度で実行できます。コア minGPT ライブラリには、mingpt/model.py と mingpt/trainer.py の 2 つのファイルが含まれています。前者には実際の Transformer モデル定義 (約 200 行のコード) が含まれており、後者はモデルのトレーニングに使用できる GPT に依存しない PyTorch ボイラープレート ファイルです。

いくつかのコードのスクリーンショット。

完全なコードは 197 行: https://github.com/karpathy/minGPT/blob/master/mingpt/model.py

モデルアーキテクチャの融合により、単語シーケンス、画像パッチシーケンス、音声シーケンス、強化学習シーケンス(状態、アクション、報酬)をモデルに入力できるようになりました。条件設定に任意のトークンを追加できます。このモードは、非常にシンプルで柔軟なモデリング フレームワークです。

視覚などの領域内でも、歴史的には分類、セグメンテーション、検出、生成のタスク間にはいくつかの違いがありました。ただし、パッチ検出のシーケンスやバウンディング ボックスの出力シーケンスなど、これらすべても同じフレームワークに変換されます。

現在、主な特徴として以下の点が挙げられます。

1) データ

2) 問題をベクトル列にマッピングし、問題の入力/出力仕様をベクトル列からマッピングする

3) 位置エンコーダの種類とアテンションマスクにおける問題固有の構造化スパースパターン

したがって、技術的に言えば、展望、論文、才能、アイデアなど、AI 分野のあらゆる側面が突然非常に重要になりました。基本的に誰もが同じモデルを使用しており、ほとんどの改善点やアイデアは AI のあらゆる分野に素早く「コピー アンド ペースト」できます。

多くの人が気づき指摘しているように、大脳新皮質は、そのすべての入力様式にわたって高度に統一されたアーキテクチャを持っています。おそらく自然は、非常によく似た強力な建築物を偶然見つけ、いくつかの詳細だけを変えて、同じようにそれを模倣したのでしょう。

このアーキテクチャの融合により、ハードウェア、ソフトウェア、インフラストラクチャに重点を置くことができ、AI 分野の進歩がさらに加速します。 「いずれにしても、とても楽しい時期です。」

ネットユーザーも、アンドレイ・カルパシー氏が説明したAI統合のトレンドについて意見を述べた。

Twitterユーザーの@Neural Net Nailさんは、「これは貴重な洞察です。コンバージェンスによりAI分野のイノベーションのペースが加速し、エッジでAIを活用した最先端の製品がより実現可能になるでしょう。ばらつきは品質の最大の敵だと思います」とコメントしています。

ネットユーザーの @sisil mehta 氏も、「ML インフラストラクチャはエキサイティングな時代を先導しました。モデル アーキテクチャが統合されるにつれて、モデリング フレームワークとインフラストラクチャも統合されます。PyTorch Lightning も同様になることを心から願っています」と考えています。

ネットユーザーの@Marcos Pereiraさんは、「一方では、変圧器はどこでも使用されているため、障害に遭遇し、革新が必要です。他方では、変圧器はどこでも使用されているため、追いついていきましょう」と述べました。

元記事は@Andrej KarpathyのTwitterより: https://twitter.com/karpathy/status/1468370605229547522

Pythonをベースに、NVIDIA TAO ToolkitとDeepstreamを使用して車両情報認識システムを迅速に構築

NVIDIA TAO Toolkit は、AI/DL フレームワークへの既成のインターフェイスを提供し、コーディングなしでより高速なモデル構築を可能にする AI ツールキットです。

DeepStream は、人工知能アプリケーションを構築するためのストリーミング分析ツールキットです。ストリーミング データを入力として受け取り、人工知能とコンピューター ビジョンを使用して環境を理解し、ピクセルをデータに変換します。

DeepStream SDK は、スマート シティでの交通と歩行者の把握、病院での健康と安全の監視、小売店でのセルフサービス検査と分析、製造工場での部品欠陥検出などの視覚アプリケーション ソリューションの構築に使用できます。

<<:  ケンブリッジ大学チームは約50年後に初めて量子スピン液体を検出し、その研究はサイエンス誌に掲載された。

>>:  AIと機械学習をサイバーセキュリティに組み込む方法

ブログ    
ブログ    
ブログ    

推薦する

データ構造とアルゴリズム: グラフ構造

写真グラフ構造は、ツリー構造よりも複雑な非線形構造です。ツリー構造では、ノード間に分岐階層関係があり...

AIは生成的敵対ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成します。

人工知能は、生成的敵対的ネットワークを使用して、笑顔、悲しみ、怒り、驚きなどの個別の顔の属性を生成し...

OpenAIはMicrosoftに対し、Bingチャットボットのリリースを急がないよう警告したと報じられている

6月14日のニュース:最近、人工知能の新興企業OpenAIとMicrosoftが人工知能の分野で協力...

市場規模は100億元を超える可能性あり。これら4種類の医療用ロボットをご存知ですか?

2020年、突然の公衆衛生事件により、医療用ロボットに大きな注目が集まりました。医療用ロボットは、...

RSA アルゴリズムが解読された場合、暗号化の将来はどうなるでしょうか?

インターネットのセキュリティ層に一夜にして巨大な亀裂が生じたらどうなるか考えたことがありますか? 亀...

...

...

快手八卦についての噂: TensorFlow と PyTorch の並列ボトルネックを打破する分散トレーニング フレームワーク

最近、KuaishouとETH Zurichはオープンソースの分散トレーニングフレームワークBagu...

...

...

顔をスキャンして食べて、拭いてから帰る、アリババの未来の人工知能レストランがお披露目!

[[218392]]毎年、最も注目を集めるのはジャック・マー氏だ。彼は住宅賃貸の保証金を免除したり...

デジタルワールドが未来を予見するファバルタ製品・ユーザーカンファレンスが大盛況のうちに開催

9月19日、大手AIインフラ企業であるFabartaは、北京で初の製品およびユーザーカンファレンスを...

...

シリコンバレーの大手企業のAIスタートアップへの投資レイアウトを解明! Nvidiaが全力で取り組み、MicrosoftとOpenAIの関係が独占禁止法調査につながる

今年、新たな AI スタートアップ企業がシリコンバレーとビジネス界全体に衝撃を与えました。 Open...