AppleがAI研究成果を公開、マルチモーダルLLMモデルFerretをリリース

IT Homeは12月25日、Appleがコロンビア大学の研究者らと協力して2023年10月にオープンソースのマルチモーダルLLM「Ferret」をリリースすると報じたが、当時はあまり注目されなかった。

AIコミュニティの多くはFerretのリリースを見逃し、Appleが伝統的に「壁に囲まれた庭園」と考えられてきたこともあり、オープンソースLLM分野への予想外の参入を歓迎した。

今朝、医療におけるオープンソース AI に焦点を当てたヨーロッパの非営利団体を運営する Bart de Witte 氏が X に次のように投稿しました。「どういうわけか見逃していましたが、Apple は 10 月にオープンソース AI コミュニティに参加しました。Ferret のリリースは、Apple の広範囲にわたる AI 研究への取り組みを示すものであり、マルチモーダル AI のリーダーとしての地位を固めるものです...追記: ローカル大規模言語モデル (LLLM) が、再設計された iOS の統合サービスとして iPhone で実行される日を楽しみにしています。」

「2023年にあなたにとって最も予想外だったAIの展開は何でしょうか？私にとっては、AppleがオープンソースのLLM（非商用ライセンスではありますが）をリリースすることです」と、技術ブロガーでVentureBeatの寄稿者であるベン・ディクソン氏はLinkedInに書いています。

Ferret は非商用ライセンスに基づくオープンソースであるため、現在のバージョンは商用目的で使用できません。ただし、将来の Apple 製品やサービスで使用される可能性はあります。 AppleのAI/ML研究科学者Zhe Gan氏は10月のツイートでFerretの目的を説明し、「画像内のあらゆる場所のあらゆるものを、あらゆる粒度で参照して特定できる」と述べ、画像内のあらゆる形状の領域を使用してこれを実行できると述べた。

簡単に言えば、 Ferret は画像上の描画領域を検査し、その中の要素を識別して選択することができます。その後、識別された要素をクエリの一部として使用し、通常の方法で応答できます。たとえば、ユーザーが画像内の動物をハイライトして、それがどんな動物であるかを尋ねると、Ferret は種を識別し、ユーザーが画像内の特定の動物について言及していることを認識できます。また、画像内の他の要素のコンテキストを使用して、さらに応答を提供することもできます。

Ferret のリリースは研究者にとって大きな意義があり、Apple が AI 研究を徐々にオープンにしていることを示しており、これまでの神秘的で閉鎖的なイメージとは対照的だ。 Appleはインフラの課題にも直面している。 Appleは保有するAIサーバーの数を増やそうとしているが、ChatGPTのようなモデルと比較するとその規模はまだ不十分かもしれない。他社と連携して機能を拡張することに加え、オープンソースモデルは Apple が模索しているもう 1 つの道です。

IT Home は、Reddit の r/Apple セクションで Ferret が「トレーニングに 80GB のメモリを搭載した 8 つの A100 GPU を使用した」ことが判明したという興味深い詳細に気付きました。これは、過去にNvidia GPUとのサポート関係があったことを考えると、AppleによるNvidiaの珍しい支持と見られています。

<<: NVIDIA が 2023 年のトップ 10 研究プロジェクトを公式に発表しました。「Neuro Angelo」はAIを使って3D仮想世界を作り出し、数秒で本物そっくりのダビデ像に変身する

>>: 2030年までにAI/自動化によって消滅する6つの技術職