Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティングインフラストラクチャ

8月12日、Juliプロジェクトシリーズ活動の第21回「大規模言語モデルのトレーニングとアプリケーションの分析」共有セッションに、 Ant（計算知能技術部門）のRayチームのオープンソースリーダーであり、RayオープンソースコミュニティのコミッターであるSong Guyang氏が招待され、「Ray：大規模モデル時代のAIコンピューティングインフラストラクチャ」と題した技術共有を行いました。

Song Guyangの共有トピック: 「 Ray : ビッグモデル時代の AI コンピューティングインフラストラクチャ」。分散コンピューティングエンジンフレームワークである Ray について聞いたことがない人も多いかもしれません。その主な理由は、インフラストラクチャとしての Ray が製品の形で登場するのではなく、むしろ製品のサポートとして登場することが多いためです。

Ray がサポートする製品といえば、誰もが知っているはずです。たとえば、OpenAI です。今年、OpenAI は GPT シリーズ製品の基盤となるトレーニングに使用されるいくつかの分散コンピューティングフレームワークを公開しましたが、その中で Ray フレームワークの役割が強調されました。

1.レイの進化

Ray は、実は最初に作られたときは強化学習フレームワークとして作られました。時代が変わるにつれて、Ray にはより多くの機能が追加され、その位置づけも少しずつ変化してきました。Ray の開発の歴史を見てみましょう。

Rayは誕生から現在まで7年間の開発を経てきました。当初の強化学習の方向性から現在のAIの方向性に至るまで、Rayチームとそのオープンソースコミュニティも多大な努力を重ねてきました。その中でも、Song Guyang氏が勤務するAnt Groupは2017年からRayフレームワークをサポートとして採用し、Rayカーネルに26%以上のコードを提供してきました。そのため、Rayフレームワークは実際にAntのあらゆるシナリオに関わっており、Ant Groupもその開発に大きく貢献しています。

これまでのところ、Ray は AI 向けの新世代 AI コンピューティングフレームワークとして、また一般的な分散コンピューティングフレームワークとして位置付けられています。

Ray がコンピューティングシステムで解決する中心的な問題は、次の図にまとめることができます。

分散システム開発チームであれば、上の図の右側にあるような、非常に繰り返し発生する問題に直面することになります。これらの問題は、開発チーム全体の不要な経験を大量に消費します。Ray は、このような問題を解決するように設計されており、開発チームが一般的な問題ではなく、独自のビジネスシステムに重点を置くことができます。

2.レイのコアコンピテンシー

上記の共有者が提供した例の図から、Ray はコンピューティングタスク全体に対して強力な最適化を備えており、効率と機能性の両面で従来のクラウドネイティブコンピューティング方式をはるかに上回っていることがわかります。

Ray の大きな改善点は、その中核となる設計ポイントのいくつかと切り離すことはできません。

非制限コンピューティングモード: スタンドアロンプログラミングの基本概念を配布します。
ステートレスコンピューティングユニット: シンプルなアノテーションを通じて、ローカルメソッドをリモートマシン上で実行できます。
ステートフルコンピューティングユニット: サーバーレスと同様に、ローカルクラスをリモートマシンに簡単にデプロイできます。
分散オブジェクト: 複数のノード間でのオブジェクトの転送と自動ガベージコレクション。
多言語およびクロス言語: Ray は Java、Python、C++ をサポートし、クロス言語呼び出しを行うことができます。
リソースのスケジューリング: CPU などの宣言型タスクに割り当てる必要があるリソースと、それらが同じノード上にあるかどうかを注釈付けします。
自動障害回復: すべての Ray コンポーネントには自動回復機能があります。ユーザーは基礎となる詳細を気にする必要はなく、実装を宣言するだけで済みます。
ランタイム環境の依存関係: Tensorflow で Python 環境を要求するなど、さまざまなタスクに対して異なるランタイム環境を直接宣言できます。
運用と保守: 完全な運用と保守、監視機能、および視覚化ページ。

Ray には非常に多くの強力な機能が実装されていますが、そのアーキテクチャは非常にシンプルで効率的です。

Ray の具体的なアーキテクチャコラボレーション手法について詳しく知りたい場合は、公式ドキュメントを参照してください。ここでは詳しく説明しません。

3.レイのオープンソースエコシステムと事例

上の図は、Ray がサポートする AI エコシステムの全体像です。これは、市場にあるほぼすべての主流フレームワークをカバーしています。つまり、これらのフレームワークは Ray に簡単に統合できます。

これらのフレームワーク統合を通じて、Ray は AI パイプライン実行プロセス全体を次の 4 つの主要なステップに接続することもできます。

データ -> トレーニング -> チューニング -> 提供、これら 4 つのステップで分散トレーニングのすべての主要機能がカバーされます。

データの前処理。
ディープラーニング。
ディープチューニング。
オンライン推論。

Ray では、わずか数百行のコードで上記のすべての手順を完了できます。

オープンソースの大規模モデルトレーニングに関しては、Ray を使用した大規模プロジェクトも数多くあります。

エンタープライズレベルのアプリケーションに関して言えば、最もよく知られているのは ChatGPT-4 です。

OpenAI 以外にも、Ray を深く活用している企業は世界中に数多くあります。

最後に、Rayフレームワークに興味がある場合は、公式Webサイトにアクセスして詳細を確認してください。

<<:

>>: エンタープライズデータ開発のための大規模言語モデル: 概念、懸念事項、ホットトピック

150 ページの「幾何学的ディープラーニング」がオンラインになりました: 対称性と不変性を利用して機械学習の問題を解決する

ブログ

中国の創作力はGPT-4を超える、「最高の文章力」を持つ中国のビッグモデルWeaverが登場

ブログ

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティングインフラストラクチャ

150 ページの「幾何学的ディープラーニング」がオンラインになりました: 対称性と不変性を利用して機械学習の問題を解決する

小都 Bluetooth アライアンスサミット: 会話型 AI テクノロジー + Bluetooth デバイスでスマートな未来を創造

企業は生成 AI のリスクをどのように管理できるでしょうか?

説明書不要で様々な家具や家電製品に使用できる初の具現化3Dグラフィックモデルシステム

AI は山ほどのコードも作成します!調査によると、GitHub Copilot のコードは保守性が低く、リファクタリングや既存コードの再利用よりも「無意識の書き換え」を好む傾向があることがわかった。

AIが推理ボードゲームをプレイし、詐欺を一目で見抜く！清華大学経営学院は共同で心の理論の新しい枠組みを立ち上げ、評価における6つの指標のパフォーマンスは思考連鎖よりも大幅に優れていた。

中国の創作力はGPT-4を超える、「最高の文章力」を持つ中国のビッグモデルWeaverが登場

推薦する

DidiがAoEをオープンソース化: AIの迅速な統合を可能にする端末操作環境SDK

将来、ロボットがあなたの仕事を奪うでしょうか？慌てずに専門家の言うことに耳を傾けましょう

2020年のライフスタイルに関する2008年の予測：そのほとんどが実現

上海交通大学卒業生によるソロ作品！ 50年間のゼロ進歩アルゴリズム問題が解決された

生成AIの5つの主要モデル：VAE、GAN、拡散、トランスフォーマー、NeRF

生成型AIが小学生の「初めてのプログラミングレッスン」に登場：線を描いて音楽を生成し、スケッチが一瞬で傑作に変わる

AIがあなたが何歳で死ぬかを予測？トランスフォーマーの「占い」がネイチャーのサブジャーナルに掲載され、事故死の予測に成功

Adobeが次世代Photoshop機械学習機能を発表、ワンクリックで画像を切り抜くことが可能に

パスワード危機: ディープラーニングがパスワードクラッキングを加速!

世界のトップAI特許：マイクロソフト697件、グーグル536件、テンセント77件、アリババ74件、シャオミ44件、バイドゥとファーウェイはリストに載っていない

産業用ロボットはセンサーなしでも動作できますか?

ChatGPT がまたトラブルに巻き込まれました! OpenAI が初の AI 名誉毀損訴訟に直面!