Google Project Ellman が Gemini AI モデルのシナリオを公開

Google Project Ellman が Gemini AI モデルのシナリオを公開

Googleチームは、AI技術を使ってユーザーの写真や検索エンジンのクエリ情報を処理し、ユーザーの生活がどのようなものか総合的に分析するというコンセプトを提案した。このプロジェクトは「Project Ellmann」と呼ばれている。

当初のアイデアによれば、Project Ellmann は LLM (Gemini など) を使用して情報を抽出し、ユーザーの写真から特定のパターンを見つけ、質問に正確に答えることができるチャットボットを作成する予定でした。グーグルによれば、エルマン氏は「私生活の語り手」となるという。

興味深い話だが、Google は Ellmann の機能を Google フォトや他の製品に組み込むつもりだろうか?現時点では不明です。 Google フォトには 10 億人を超えるユーザーがおり、4 兆枚の写真や動画が保存されています。

Google は現在、自社の製品ラインを最適化するために AI 技術を使用しており、Ellmann はその使用方法の 1 つにすぎません。数日前、Google は Gemini をリリースしました。これは、いくつかのケースで OpenAI GPT-4 を上回りました。

Google は、Google Cloud ユーザーに Gemini のライセンスを供与する予定です。ユーザーは Gemini を使用して必要な機能を開発できます。 Gemini の最も顕著な利点は「マルチモーダル性」にあります。つまり、テキスト、画像、ビデオ、オーディオなど、複数の種類の情報を理解できるということです。

最近の社内会議で、Google フォトの上級幹部が Project Ellman のデモンストレーションを行いました。内部文書によると、Google チームは大規模な言語モデルを使用して、ユーザーの現実世界の人生ストーリーを「鳥瞰」できると考えているようです。

伝記、過去の記録、写真、その他の資料を通じて、エルマンは状況を深く理解することができました。たとえば、一連のクリップを分析することで、エルマンはさまざまなメッセージの主題が大学生活であるかどうかを判断できます。

プレゼンテーションのスライドの 1 つに、「個人の生活を俯瞰しなければ、難しい質問に答えることも、良いストーリーを伝えることもできません」と書かれていました。

別の人はこう言った。「私たちはあなたの写真を見て、どんなタグや場所から撮られたのかを確認し、それが意味のある瞬間の一部であるかどうかを判断します。あなたの人生を総合的に理解すると、個人的な物語がより明確になります。」

Google チームも Ellmann Chat について語りました。 Ellmann Chatとは何ですか?チームは次のように説明した。「これをオンにすると、あなたの個人的な生活についてすべて知っていると想像してください。あなたはどんな質問をしますか?」

たとえば、ユーザーが Ellmann Chat に「私は犬を飼っていますか?」と質問すると、AI は飼い主が犬を飼っていると答え、その犬の名前を言いました。また、家族の中で犬と一緒にいるのが最も好きな人が 2 人いること、そしてその家族の名前は何であるかも答えました。

もうひとつの問題は、所有者が引っ越したいと思っていて、AIに現在の生活環境に似た町をいくつか提供して選択してもらうことです。エルマンはこれらの質問に答えることができます。それだけでなく、エルマン氏はユーザーの食習慣も把握しています。

たとえば、Ellmann は写真を分析して、ユーザーが何を購入したいのか、何に興味があるのか​​、仕事や旅行の計画は何かといった質問に対する答えを見つけることができます。エルマン氏は、ユーザーが好んで訪れるウェブサイトや使用するアプリを正確に把握しています。

Googleの広報担当者は次のように明らかにした。「Googleフォトは、ユーザーの写真や動画の検索を支援するためにAI技術を常に利用したいと考えてきました。LLMを使えば、より実用的な体験を提供できます。Ellmannはまだ社内で検討している段階であり、最終的にリリースされるかどうかは、まだ時間がかかるでしょう。Googleは、Ellmannがユーザーにとって本当に役立つものであることを保証し、ユーザーのプライバシーとセキュリティも考慮したいと考えています。」

Project Ellmann は、新しいテクノロジーを使用してユーザーのためによりパーソナライズされた個人的な思い出を作成しようとしている多くのテクノロジー企業の 1 つにすぎません。

Google フォトでも Apple フォトでも、写真を分析し、そこからパターンを見つけて、アルバムを作成します。 Google フォトでは、類似した写真を自動的にアルバムにグループ化して、ユーザーが写真を見つけやすくすることができます。アップルは6月、アップグレード後には写真に写っている人物や犬、猫をソフトウェアで識別できるようになると発表した。ユーザーは人物の名前を言うだけで、ソフトウェアがその人物の写真を見つける手助けをしてくれる。

素晴らしいように聞こえますが、Google と Apple のテクノロジーはまだ完璧ではなく、時々間違いを犯します。 2015年、AppleとGoogleのAIが黒人をチンパンジーと認識し、ジョークを巻き起こした。今日でも、間違いを避けるのは依然として難しい。 (ナイフ)

<<: 

>>: 

ブログ    

推薦する

Equinix CIO: AI を活用して潜在能力の高いパートナーを見つける

多国籍データ インフラストラクチャ企業である Equinix は、機械学習の確率モデルを使用して潜在...

...

キャラクター AI は私たちのやり取りの方法をどのように変えるのでしょうか?

Persona AI は、人々がチャットボットと対話する方法に革命をもたらします。ニューラル言語モ...

古代から皇帝の寿命は短かった。皇帝も負荷分散アルゴリズムを理解していたら...

[51CTO.com オリジナル記事] 古代の皇帝はハーレムに3000人の美女を抱えていたことは誰...

史上最大のチューリングテスト実験が完了! 150万人が1000万回の会話に参加し、相手が人間かAIかを判断した。

史上最大のチューリングテストの予備結果が出ました!今年 4 月中旬、AI 21 Lab は楽しいソー...

人材に余裕がないわけではありませんが、AI 検査の方がコスト効率が良いのです。

著者 | Tu Chengyeレビュー | Chonglou石炭、電力、化学などの多くの産業では、安...

製造業における AI 活用事例 10 選

製造企業は、ビジネスのやり方を合理化し、効率を高めるために人工知能に注目しています。一般的な使用例を...

Nvidia に挑戦する Groq の起源は何ですか?新しいAIチップLPUの簡単な紹介

今日の人工知能分野では、「GPUがあれば十分」というのが徐々にコンセンサスになってきています。十分な...

清華大学と快手は、手動注釈なしで単一の参照画像に基づいて画像品質評価方法を生成しました。

導入生成画像の評価に関する既存の研究では、主に生成された画像の分布に基づいてモデルの「全体的な」生成...

Metaは、すべての製品のビデオ推奨エンジンをサポートする巨大なAIモデルを構築しています。

3月7日水曜日、Metaの上級幹部は米国時間、同社がFacebookを含む傘下のさまざまなプラット...

スタンフォード大学の学生が出会い系アプリをハッキング! GAN モデルを使用して男性に変装し、顔認識システムを欺く

誰かが本当にあなたの顔を真似して、顔認識システムを回避できるのです! 最近、スタンフォード大学の研究...

製造業における人工知能の8つの応用シナリオ

人工知能の概念は、60年以上前の1950年代に初めて提案されました。しかし、モノのインターネット、ビ...

DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

5月29日、全国科学技術労働者の日が近づく中、アリババDAMOアカデミーのAIによって識別されラベル...

「最もわかりにくい」Paxos アルゴリズムと、データベースの高可用性におけるその使用法をわかりやすい言葉で理解する

最近、Paxos アルゴリズムについてみんなが議論しています。私はオンラインで多くの記事を読みました...