AppleがAI研究成果を公開、マルチモーダルLLMモデルFerretをリリース

AppleがAI研究成果を公開、マルチモーダルLLMモデルFerretをリリース

IT Homeは12月25日、Appleがコロンビア大学の研究者らと協力して2023年10月にオープンソースのマルチモーダルLLM「Ferret」をリリースすると報じたが、当時はあまり注目されなかった。

AIコミュニティの多くはFerretのリリースを見逃し、Appleが伝統的に「壁に囲まれた庭園」と考えられてきたこともあり、オープンソースLLM分野への予想外の参入を歓迎した。

今朝、医療におけるオープンソース AI に焦点を当てたヨーロッパの非営利団体を運営する Bart de Witte 氏が X に次のように投稿しました。「どういうわけか見逃していましたが、Apple は 10 月にオープンソース AI コミュニティに参加しました。Ferret のリリースは、Apple の広範囲にわたる AI 研究への取り組みを示すものであり、マルチモーダル AI のリーダーとしての地位を固めるものです...追記: ローカル大規模言語モデル (LLLM) が、再設計された iOS の統合サービスとして iPhone で実行される日を楽しみにしています。」

「2023年にあなたにとって最も予想外だったAIの展開は何でしょうか?私にとっては、AppleがオープンソースのLLM(非商用ライセンスではありますが)をリリースすることです」と、技術ブロガーでVentureBeatの寄稿者であるベン・ディクソン氏はLinkedInに書いています。

Ferret は非商用ライセンスに基づくオープンソースであるため、現在のバージョンは商用目的で使用できません。ただし、将来の Apple 製品やサービスで使用される可能性はあります。 AppleのAI/ML研究科学者Zhe Gan氏は10月のツイートでFerretの目的を説明し、「画像内のあらゆる場所のあらゆるものを、あらゆる粒度で参照して特定できる」と述べ、画像内のあらゆる形状の領域を使用してこれを実行できると述べた。

簡単に言えば、 Ferret は画像上の描画領域を検査し、その中の要素を識別して選択することができます。その後、識別された要素をクエリの一部として使用し、通常の方法で応答できます。たとえば、ユーザーが画像内の動物をハイライトして、それがどんな動物であるかを尋ねると、Ferret は種を識別し、ユーザーが画像内の特定の動物について言及していることを認識できます。また、画像内の他の要素のコンテキストを使用して、さらに応答を提供することもできます。

Ferret のリリースは研究者にとって大きな意義があり、Apple が AI 研究を徐々にオープンにしていることを示しており、これまでの神秘的で閉鎖的なイメージとは対照的だ。 Appleはインフラの課題にも直面している。 Appleは保有するAIサーバーの数を増やそうとしているが、ChatGPTのようなモデルと比較するとその規模はまだ不十分かもしれない。他社と連携して機能を拡張することに加え、オープンソース モデルは Apple が模索しているもう 1 つの道です。

IT Home は、Reddit の r/Apple セクションで Ferret が「トレーニングに 80GB のメモリを搭載した 8 つの A100 GPU を使用した」ことが判明したという興味深い詳細に気付きました。これは、過去にNvidia GPUとのサポート関係があったことを考えると、AppleによるNvidiaの珍しい支持と見られています。

<<:  NVIDIA が 2023 年のトップ 10 研究プロジェクトを公式に発表しました。 「Neuro Angelo」はAIを使って3D仮想世界を作り出し、数秒で本物そっくりのダビデ像に変身する

>>:  2030年までにAI/自動化によって消滅する6つの技術職

ブログ    
ブログ    
ブログ    

推薦する

清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。

最近、清華大学コンピュータサイエンス学部の朱軍教授の研究グループが発表したシュレーディンガー橋[1]...

無料ですか?寄生? ChatGPTに夢中です!

51CTOウェブサイトコンテンツ調査に参加するにはクリックしてくださいマット・アセイ編纂者:Qia...

...

AIエンジニアリングについて知っておくべきこと

人工知能は、21 世紀の世界のテクノロジー主導型市場において最も注目されている破壊的テクノロジーです...

人工知能は私たちの仕事を奪うのでしょうか?北京大学の教授2人は次のように解釈した。

[[317607]]人工知能(AI)とは、人間と同等かそれ以上の知覚、認知、行動などの知能を機械に...

俳優の顔の交換、AIデート、モザイク除去…2020年のAI界の注目トピックトップ10を振り返る

[[373822]] 2020年が終わりを迎えました。今年、人工知能(AI)分野は浮き沈みに富み、常...

3つの主要な要因の影響を受けて、自動運転トラックの開発は加速し続けています

近年、自動運転は幅広い注目を集め、熱い議論を呼んでいます。自動運転は自動車産業の将来のトレンドである...

人工知能を活用する準備はできていますか?

[[349302]]今日、職場での学習は課題に直面しています。高度な分析、人工知能、ロボットが職場...

...

新参者と大企業が直接会うとき、研究室なしではやっていけないことがよくある | T Guanhai

インタビューゲスト | アンジー・チュー、ロージー・チャン編集者 | ユン・チャオ海を観察する人は、...

2011 コンピュータソフトウェア試験プログラマー: アルゴリズム分析の基礎学習

コンピュータの問題解決のプロセスにおいて、データ構造とアルゴリズムはプログラムの 2 つの主要要素で...

TCP/IPトランスポート層におけるTCP BBRアルゴリズムについての簡単な説明

0x00. はじめにこれは、TCP/IP プロトコル スタック シリーズの 3 番目の記事です。前回...

クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3は発売されてから24時間以上経ちますが、今でも人々の認知をリフレッシュさせています。量子物...

フェデレーテッドラーニングも安全ではないのでしょうか? Nvidiaの研究は「プライバシーフリー」データを使用して元の画像を直接再構築します

フェデレーテッド ラーニングは、データがローカルの場所から出ないようにするプライバシー保護戦略により...

Llama インデックスを使用したマルチエージェント RAG の構築

検索拡張生成 (RAG) は、大規模言語モデル (LLM) の機能を強化する強力な手法として登場しま...