Appleの会話型AI予算は1日あたり数百万ドルに拡大

Appleの会話型AI予算は1日あたり数百万ドルに拡大

海外メディアは9月7日、事情に詳しい関係者の話として、アップルが人工知能の構築に必要なコンピューティング予算を増やしており、1日あたり数百万ドルにまで拡大していると報じた。同社の目標の1つは、iPhoneユーザーが簡単な音声コマンドを使用して、複数の手順を伴うタスクを自動化できる機能を開発することです。例えば、この技術により、ユーザーは Siri に指示して、最近撮った 5 枚の写真から GIF を作成し、友人に送信できるようになります。現在、iPhone ユーザーはこのプロセスを手動で完了する必要があります。

チームに詳しい関係者によると、4年前、アップルの人工知能担当責任者ジョン・ジャナンドレア氏は、大規模言語モデル(LLM)として知られる会話型AI、あるいは生成型AIを開発するチームを結成するよう命じられた。当時、この技術はまだソフトウェア業界の注目の的となっていませんでした。昨年、OpenAIがチャットボット「ChatGPT」を立ち上げて初めて、人々はAppleの先見の明に気づいた。チャットボット ChatGPT は大規模言語モデルの繁栄を推進してきました。

複数のアップル社員によると、ジャンナンドレア氏は人工知能言語モデルを搭載したチャットボットの潜在的有用性について繰り返し懐疑的な見解を示しているものの、アップルは言語モデルのブームに全く備えていないわけではないという。これは、Apple のソフトウェア研究文化の変革に貢献した Giannandrea 氏のおかげです。

こうした変化は現在、成果を上げています。大規模言語モデルの出現により、コンピュータ プログラムからスライド プレゼンテーション、書籍に至るまで、あらゆるものを作成する方法が変化する可能性があるからです。この技術は、要約から企業の IT チケットや顧客サービスへの問い合わせの処理まで、テキストが関係する退屈で反復的なタスクを自動化することも約束します。

Foundational Modelsと呼ばれる会話型AIチームは、長年Googleで勤務した数人のエンジニアで構成されており、Giannandrea氏はAppleに入社する前は彼らの上司だった。このチームは、ジャンナンドレア氏が率いる人工知能研究部門を含むグーグルでの15年間の勤務を経て2021年にアップルに入社したルオミン・パン氏が率いる。

Appleが複数のLLMチームを結成

「ベースモデル」チームは約16人と小規模のままだが、アップルの最先端モデルをトレーニングするための予算は1日数百万ドルにまで増加していると関係者は語った。比較すると、ChatGPTを開発したスタートアップ企業OpenAIは、チャットボットを動かすための最も先進的なソフトウェアであるGPT-4のトレーニングに数か月かけて1億ドル以上を費やしたと、OpenAIのCEOサム・アルトマン氏は述べている。

Apple の「ベースモデリング」チームは、Google や Meta などの企業の人工知能チームと同様の役割を果たしています。これらの企業では、研究者は AI モデルを構築することが求められており、そのモデルは他のチームによって企業のさまざまな製品に適用されます。

しかし、Apple には言語モデルまたは画像モデルに取り組んでいる比較的新しいチームが少なくとも 2 つあるようです。最近のAppleのAI研究レポートとLinkedInの従業員プロフィールによると、同社には「画像、ビデオ、または3Dシーン」を生成できるソフトウェアの開発に専念する「ビジュアルインテリジェンス」チームがあるという。

別のチームは、画像、ビデオ、テキストを認識して生成できるモデルであるマルチモーダル AI に関する長期研究を行っています。このマルチモーダルチームのリーダーの一人は、2021年後半にAppleで働き始め、以前はGoogleで人工知能に携わっていたジョン・シュレンズ氏です。シュレンズ氏は今年初め、Google の人工知能チーム (現在は Google DeepMind として知られている) に加わった。 Google の次期 Gemini モデルにはマルチモード機能が搭載されます。

Appleの「基礎モデリング」チームはいくつかの高度なモデルを開発し、社内でテストしている。同社のチャットボット開発に直接詳しい人物によると、大規模な言語モデルに基づいたアップルのチャットボットは、最終的にはAppleCareの顧客とやり取りできるようになるという。 AppleCare は、保証と技術サポートを提供する同社のアフターサービスです。

Siriのアップグレード

さらに、Siri チームは大規模な言語モデルを統合して、Apple のインテリジェント音声アシスタントのユーザーが、上記の例のように簡単なコマンドで GIF を作成して送信するなど、現在は不可能な方法で特定の複雑なタスクを自動的に完了できるようにすることも計画しています。この新機能は、ユーザーがさまざまなアプリを使用して一連のアクションを手動でプログラムできるようにするAppleのショートカットアプリに関連しており、来年のiPhoneオペレーティングシステムの新バージョンと同時にリリースされる予定です。事情に詳しい人物によると、グーグルは音声アシスタントがより複雑なタスクを理解して処理できるよう、大規模な言語モデルを音声アシスタントに統合する取り組みも進めているという。

関係者によると、Appleの「基礎モデル」チームのメンバーは、同社の最も先進的な大規模言語モデルであるAJAX GPTが、ChatGPTの初期バージョンをサポートする大規模言語モデルであるOpenAIのGPT 3.5の機能を上回っていると考えているという。それ以来、OpenAI は大幅に強力な一連のモデルをリリースしました。

Apple が大規模言語モデルを自社製品にどう組み込むかについては、詳細はまだ不明だ。複数の元アップルの機械学習エンジニアによると、同社の経営陣は、クラウドサーバーではなく、プライバシーとパフォーマンスを向上させるデバイス上でソフトウェアを実行することを好んでいるという。

しかし、これを達成するのは難しいかもしれません。たとえば、Ajax GPT は、モデルを直接知る人物によると、2,000 億を超えるパラメータでトレーニングされている。パラメータは、機械学習モデルのサイズと複雑さを反映します。パラメータの数が多いほど、モデルは複雑になり、より多くのストレージスペースと計算能力が必要になります。 2000 億を超えるパラメータを持つ大規模な言語モデルは、iPhone での実行には適さない可能性があります。

大規模な言語モデルのサイズを縮小する前例があります。たとえば、Google の PaLM 2 には 4 つのサイズがあり、1 つはデバイス上で使用するためのもので、もう 1 つはオフラインで使用するためのものです。

アップルの広報担当者はコメントを控えた。

Googleの影響力

同僚からはJGと呼ばれているジャンナンドレア氏は、もともとSiriの改良とAppleのソフトウェアへの機械学習機能の導入に携わるためにAppleに入社した。同氏は、大規模言語モデルを搭載したチャットボットの潜在的な有用性について同僚に繰り返し懐疑的な見解を示していたが、この1年で社内のデモンストレーションをいくつか見てから、同氏はこの技術が指定されたタスクを達成する能力を持っていることを認め始めたと、事情を知る人物は語った。

Appleの「基礎モデル」チームの結成は、Giannandrea氏がAppleを自身の元雇用主に似たものにし、従業員にさまざまな種類の研究の実施や論文の出版においてより柔軟性を持たせるという決断から生まれたものである。これまで、こうした慣行に対する規制は、初期の AI 技術を自社製品にうまく活用していたにもかかわらず、Apple の優秀な人材を採用する能力を損なっていました。

2018年にAppleに入社した後、Giannandrea氏はGoogleから主要なエンジニアや研究者の採用に携わりました。同氏はまた、グーグルが開発したテンソル・プロセッシング・ユニットと呼ばれる人工知能チップを搭載したサーバーを含むグーグルのクラウドサービスの利用拡大を支持しており、アップルの機械学習モデルを訓練し、それがSiriやその他の製品機能の向上に役立てられることになる。

パン・ルオミン氏をよく知る人々によると、彼が発表したニューラルネットワークに関する研究は、多くの支持者を集めているという。ニューラル ネットワークは機械学習のサブセットであり、人間の脳の働きと同様に、データ内のパターンと関係性を認識できるようにソフトウェアをトレーニングします。パン氏の注目すべき研究には、携帯電話のプロセッサでニューラル ネットワークがどのように機能するか、また、並列コンピューティング (大きな問題を複数のプロセッサで同時に計算できる小さなタスクに分割するプロセス) を使用してニューラル ネットワークをトレーニングする方法などが含まれています。

オープンソース運動

Pang 氏の Apple に対する影響は、彼のチームが過去 1 年間にわたって AJAX GPT のトレーニング用に開発した社内ソフトウェアである AXLearn に見ることができます。 AXLearn は、機械学習モデルを迅速にトレーニングできる機械学習フレームワークです。 AXLearn は Pang Ruoming の研究に基づいており、Google の Tensor Processing Unit 向けに最適化されています。

AXLearn は、Google の研究者によって開発されたオープンソース フレームワークである JAX のフォークです。 Apple の AJAX GPT を家に例えると、AXLearn は設計図、JAX は設計図を描くのに使用するペンと紙です。 Apple が大規模言語モデルのトレーニングに使用するデータは主に建設業界から収集されたもので、まだ公開されていません。

今年 7 月、Apple の「ベース モデル」チームは AXLearn のコードをコード リポジトリ GitHub にひっそりとアップロードしました。これにより、一般の人々はゼロからすべてを構築することなく、独自の大規模な言語モデルをトレーニングできるようになります。 Apple が AXLearn コードを公表した理由は不明だが、同社がそうするのは通常、他のエンジニアがモデルを改良してくれることを期待してのことだ。ジャンナンドレア氏が着任する前は、ソースコードを商用利用のために公開するという決定は、秘密主義のアップルにとって異例のことと思われていただろう。

チームリーダー

当初オランダのコンピューター科学者アーサー・ヴァン・ホフ氏が率いていたチームは、後にアップルの「ベースモデル」チームの中核となった。ホフ氏を知る人々によると、同氏は1990年代にJavaを開発したサン・マイクロシステムズチームの初期メンバーであり、後に著名な起業家となった。ホフ氏は2019年にアップルに入社し、当初はコードネーム「ブラックバード」と呼ばれるSiriの新バージョンの開発に取り組んだが、アップルは最終的にこれを断念した。

その後、ホフ氏のチームは、Blackbird の基本バージョンで使用することを目的とした大規模な言語モデルの構築に注力し始めました。当初、チームはわずか数名の従業員で構成されていましたが、その中で最も目立っていたのは、自然言語処理を専門とする 2 人の英国人研究者、トム・ガンターとトーマス・ニックソンでした。 2人の研究者はともにオックスフォード大学で高度な学位を取得し、2016年にSiriの開発のためにAppleに入社した。

関係者によると、2021年にパン・ルオミン氏は最先端の大規模言語モデルのトレーニングに携わるためアップルに入社した。他のアップル研究者とは異なり、彼はニューヨークに滞在する特別許可を与えられ、同社の機械学習チームのためにニューヨークに新しい拠点を設立する権限を与えられた。数か月後、アップルはホフ氏のチームを監督するために元グーグルAI幹部のダフネ・ルオン氏を雇い、長期的な機械学習研究に重点を置く並行チームを率いるためにグーグルの研究員サミー・ベンジオ氏を雇った。

パン・ルオミン氏が現在「ベースモデル」チームを引き継いでおり、ホフ氏は今年初めに無期限の休職を開始した。事情に詳しい関係者によると、パン・ルオミン氏のチームのメンバー数名は現在ニューヨークを拠点にしているという。

Google Cloud 取引

Pang Ruoming 氏が採用された当時、Apple 社内では、機械学習の分野で大規模言語モデルがますます重要になってきているという認識が高まっていました。事情に詳しい関係者によると、OpenAIのGPT-3は2020年6月にリリースされ、Appleの機械学習チームは独自のモデルをトレーニングするためにさらなる資金を要請したという。

事情に詳しい2人の人物によると、コスト削減のため、アップルの経営陣はこれまで機械学習エンジニアに対し、アマゾンの類似サービスではなく、グーグルのクラウドコンピューティングサービスを使うよう奨励してきた。グーグルのほうがコストが低いからだ。

協議に詳しい元アップル幹部によると、グーグル幹部は過去にアップルに対し、クラウド価格の引き下げは両社間の幅広い商業提携を部分的に反映したものだと伝えていたという。この契約により、Google 検索は Apple の Safari ブラウザのデフォルトの検索プロバイダーとなります。 Apple は長年にわたり世界最大のクラウド サーバー レンタル会社であり、Amazon の重要な顧客であり続ける一方で、Google Cloud の最大の顧客の 1 つにもなっています。

事情に詳しい人物によると、アップルはグーグルやメタの人工知能チームからも積極的に人材を採用しているという。 AXLearn コードが 7 月に GitHub にアップロードされて以来、18 人が貢献しており、そのうち少なくとも 12 人が過去 2 年間に Apple の機械学習チームに加わっています。このうち7人はGoogleまたはMetaで勤務していた。

<<:  エスティローダーはAI/AR技術を活用してメイクアップをより洗練させ、近視の人がメイクアップがうまくできないことを心配する必要がなくなる

>>: 

ブログ    

推薦する

人工知能の研究ホットスポット:自然言語処理

人工知能(AI)は、新たな科学技術革命と産業変革の重要な原動力として、世界に大きな影響を与え、変化を...

北京大学の王一州氏:信頼できるAI研究の名刺を磨くには、産業界、学界、研究機関の連携が必要

人工知能(AI)は1950年代に誕生し、3つの発展の波を経てきました。研究段階から大規模な産業化段階...

...

ロボット警察がファンタジーを現実に変える

人工知能、コンピュータービジョン、モノのインターネット、その他の先進技術を備えたロボット警察は、法と...

一枚の写真で3D顔モデリングを実現!中国科学院の博士課程学生による ECCV に関する新たな研究 | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Sitechiのスマートオペレーションプラットフォームは、スマートシティが4.0時代に入ることを支援します

現在、中国ではデジタル経済の波が高まっています。情報技術を都市計画や建設とどのように融合させ、都市情...

...

企業、不動産会社、自動車会社が顔情報を収集する方法を弁護士が解説:消費者は法律に従って権利を断固として守るべき

[[388553]] 3月18日夜、企業やメーカーが個人情報を不法に収集し、商業目的で利用する事件が...

...

調査によると、ヨーロッパ人はロボットに対してますます懐疑的になっている

海外メディアの報道によると、ヨーロッパ人は5年前よりもロボットに対して保守的になっていることが調査で...

仮想誘拐:人工知能がランサムウェア詐欺を助長

もしあなたの配偶者や子供があなたに泣きながら電話をかけてきて、誘拐されたと告げたら、あなたは冷静で慎...

ワールドカップで物議を醸したVARテクノロジーはどのようにして生まれたのでしょうか?

Wiredウェブサイトは、FIFAの話題のVAR(ビデオ・アシスタント・レフェリー)の誕生過程を明...

...

ディープラーニング GPU の最も包括的な比較: コスト パフォーマンスの点で最も優れているのはどれですか?

AI に関して言えば、「GPU の混乱」を感じない人はいないでしょう。 Tensor コア、メモリ...

2024年の製造業の現状:完全デジタル化

世界全体、特に製造業は、パンデミック中に発生した問題や数年前の大規模なサプライチェーンの混乱から脱し...