Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティング インフラストラクチャ

Juli プロジェクト第 21 号 - AntRay: 大規模モデル時代の AI コンピューティング インフラストラクチャ

8月12日、Juliプロジェクトシリーズ活動の第21回「大規模言語モデルのトレーニングとアプリケーションの分析」共有セッションに、 Ant(計算知能技術部門)のRayチームのオープンソースリーダーであり、RayオープンソースコミュニティのコミッターであるSong Guyangが招待され、「Ray:大規模モデル時代のAIコンピューティングインフラストラクチャ」と題した技術共有を行いました。

Song Guyangの共有トピック: 「 Ray : ビッグモデル時代の AI コンピューティング インフラストラクチャ」。分散コンピューティング エンジン フレームワークである Ray について聞いたことがない人も多いかもしれません。その主な理由は、インフラストラクチャとしての Ray が製品の形で登場するのではなく、むしろ製品のサポートとして登場することが多いためです。

Ray がサポートする製品といえば、誰もが知っているはずです。たとえば、OpenAI です。今年、OpenAI は GPT シリーズ製品の基盤となるトレーニングに使用されるいくつかの分散コンピューティング フレームワークを公開しましたが、その中で Ray フレームワークの役割が強調されました。

1.レイの進化

Ray は、実は最初に作られたときは強化学習フレームワークとして作られました。時代が変わるにつれて、Ray にはより多くの機能が追加され、その位置づけも少しずつ変化してきました。Ray の開発の歴史を見てみましょう。

Rayは誕生から現在まで7年間の開発を経てきました。当初の強化学習の方向性から現在のAIの方向性に至るまで、Rayチームとそのオープンソースコミュニティも多大な努力を重ねてきました。その中でも、Song Guyang氏が勤務するAnt Groupは2017年からRayフレームワークをサポートとして採用し、Rayカーネルに26%以上のコードを提供してきました。そのため、Rayフレームワークは実際にAntのあらゆるシナリオに関わっており、Ant Groupもその開発に大きく貢献しています。

これまでのところ、Ray は AI 向けの新世代 AI コンピューティング フレームワークとして、また一般的な分散コンピューティング フレームワークとして位置付けられています。

Ray がコンピューティング システムで解決する中心的な問題は、次の図にまとめることができます。

分散システム開発チームであれば、上の図の右側にあるような、非常に繰り返し発生する問題に直面することになります。これらの問題は、開発チーム全体の不要な経験を大量に消費します。Ray は、このような問題を解決するように設計されており、開発チームが一般的な問題ではなく、独自のビジネス システムに重点を置くことができます。

2.レイのコアコンピテンシー

上記の共有者が提供した例の図から、Ray はコンピューティング タスク全体に対して強力な最適化を備えており、効率と機能性の両面で従来のクラウド ネイティブ コンピューティング方式をはるかに上回っていることがわかります。

Ray の大きな改善点は、その中核となる設計ポイントのいくつかと切り離すことはできません。

  1. 非制限コンピューティング モード: スタンドアロン プログラミングの基本概念を配布します。
  2. ステートレス コンピューティング ユニット: シンプルなアノテーションを通じて、ローカル メソッドをリモート マシン上で実行できます。
  3. ステートフル コンピューティング ユニット: サーバーレスと同様に、ローカル クラスをリモート マシンに簡単にデプロイできます。
  4. 分散オブジェクト: 複数のノード間でのオブジェクトの転送と自動ガベージコレクション。
  5. 多言語およびクロス言語: Ray は Java、Python、C++ をサポートし、クロス言語呼び出しを行うことができます。
  6. リソースのスケジューリング: CPU などの宣言型タスクに割り当てる必要があるリソースと、それらが同じノード上にあるかどうかを注釈付けします。
  7. 自動障害回復: すべての Ray コンポーネントには自動回復機能があります。ユーザーは基礎となる詳細を気にする必要はなく、実装を宣言するだけで済みます。
  8. ランタイム環境の依存関係: Tensorflow で Python 環境を要求するなど、さまざまなタスクに対して異なるランタイム環境を直接宣言できます。
  9. 運用と保守: 完全な運用と保守、監視機能、および視覚化ページ。

Ray には非常に多くの強力な機能が実装されていますが、そのアーキテクチャは非常にシンプルで効率的です。

Ray の具体的なアーキテクチャコラボレーション手法について詳しく知りたい場合は、公式ドキュメントを参照してください。ここでは詳しく説明しません。

3.レイのオープンソースエコシステムと事例

上の図は、Ray がサポートする AI エコシステムの全体像です。これは、市場にあるほぼすべての主流フレームワークをカバーしています。つまり、これらのフレームワークは Ray に簡単に統合できます。

これらのフレームワーク統合を通じて、Ray は AI パイプライン実行プロセス全体を次の 4 つの主要なステップに接続することもできます。

データ -> トレーニング -> チューニング -> 提供、これら 4 つのステップで分散トレーニングのすべての主要機能がカバーされます。

  1. データの前処理。
  2. ディープラーニング。
  3. ディープチューニング。
  4. オンライン推論。

Ray では、わずか数百行のコードで上記のすべての手順を完了できます。

オープンソースの大規模モデルトレーニングに関しては、Ray を使用した大規模プロジェクトも数多くあります。

エンタープライズ レベルのアプリケーションに関して言えば、最もよく知られているのは ChatGPT-4 です。

OpenAI 以外にも、Ray を深く活用している企業は世界中に数多くあります。

最後に、Rayフレームワークに興味がある場合は、公式Webサイトにアクセスして詳細を確認してください。

<<: 

>>:  エンタープライズデータ開発のための大規模言語モデル: 概念、懸念事項、ホットトピック

ブログ    
ブログ    
ブログ    

推薦する

DidiがAoEをオープンソース化: AIの迅速な統合を可能にする端末操作環境SDK

Didi は、エンドサイド AI 統合ランタイム環境 (IRE) である AoE (AI on E...

...

...

将来、ロボットがあなたの仕事を奪うでしょうか?慌てずに専門家の言うことに耳を傾けましょう

[[384941]]スペインの新聞「エル・エコノミスタ」は最近、ラモン・オリバー氏による「仕事の自動...

2020年のライフスタイルに関する2008年の予測:そのほとんどが実現

米国のピュー・リサーチ・センターは2008年に、主に以下のような2020年のライフスタイルを予測しま...

上海交通大学卒業生によるソロ作品! 50年間のゼロ進歩アルゴリズム問題が解決された

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

生成AIの5つの主要モデル:VAE、GAN、拡散、トランスフォーマー、NeRF

タスクに適した GenAI モデルを選択するには、各モデルで使用されるテクノロジーとその特定の機能を...

...

生成型AIが小学生の「初めてのプログラミングレッスン」に登場:線を描いて音楽を生成し、スケッチが一瞬で傑作に変わる

古典作品「星の王子さま」には、蛇が象を飲み込む絵を描いた少年が、大人たちにその絵を見せて怖いかと尋ね...

AIがあなたが何歳で死ぬかを予測?トランスフォーマーの「占い」がネイチャーのサブジャーナルに掲載され、事故死の予測に成功

AIは本当に科学的に占いができるんですね! ?デンマーク工科大学(DTU)の研究者らは、各人の死亡の...

Adobeが次世代Photoshop機械学習機能を発表、ワンクリックで画像を切り抜くことが可能に

Adobeは月曜日、ビデオを通じて次世代Photoshop CCのいくつかの新機能を発表した。ビデオ...

パスワード危機: ディープラーニングがパスワードクラッキングを加速!

情報セキュリティの専門家は、「生成的敵対ネットワーク」(GAN)がオンラインセキュリティをどのように...

産業用ロボットはセンサーなしでも動作できますか?

現在、人口ボーナスの減少、人件費の上昇、人材構成の矛盾などの問題が、製造業の発展を阻む困難になりつつ...

ChatGPT がまたトラブルに巻き込まれました! OpenAI が初の AI 名誉毀損訴訟に直面!

51CTOウェブサイトコンテンツ調査に参加するにはクリックしてください著者: 徐潔成ChatGPT...