Google Project Ellman が Gemini AI モデルのシナリオを公開

Google Project Ellman が Gemini AI モデルのシナリオを公開

Googleチームは、AI技術を使ってユーザーの写真や検索エンジンのクエリ情報を処理し、ユーザーの生活がどのようなものか総合的に分析するというコンセプトを提案した。このプロジェクトは「Project Ellmann」と呼ばれている。

当初のアイデアによれば、Project Ellmann は LLM (Gemini など) を使用して情報を抽出し、ユーザーの写真から特定のパターンを見つけ、質問に正確に答えることができるチャットボットを作成する予定でした。グーグルによれば、エルマン氏は「私生活の語り手」となるという。

興味深い話だが、Google は Ellmann の機能を Google フォトや他の製品に組み込むつもりだろうか?現時点では不明です。 Google フォトには 10 億人を超えるユーザーがおり、4 兆枚の写真や動画が保存されています。

Google は現在、自社の製品ラインを最適化するために AI 技術を使用しており、Ellmann はその使用方法の 1 つにすぎません。数日前、Google は Gemini をリリースしました。これは、いくつかのケースで OpenAI GPT-4 を上回りました。

Google は、Google Cloud ユーザーに Gemini のライセンスを供与する予定です。ユーザーは Gemini を使用して必要な機能を開発できます。 Gemini の最も顕著な利点は「マルチモーダル性」にあります。つまり、テキスト、画像、ビデオ、オーディオなど、複数の種類の情報を理解できるということです。

最近の社内会議で、Google フォトの上級幹部が Project Ellman のデモンストレーションを行いました。内部文書によると、Google チームは大規模な言語モデルを使用して、ユーザーの現実世界の人生ストーリーを「鳥瞰」できると考えているようです。

伝記、過去の記録、写真、その他の資料を通じて、エルマンは状況を深く理解することができました。たとえば、一連のクリップを分析することで、エルマンはさまざまなメッセージの主題が大学生活であるかどうかを判断できます。

プレゼンテーションのスライドの 1 つに、「個人の生活を俯瞰しなければ、難しい質問に答えることも、良いストーリーを伝えることもできません」と書かれていました。

別の人はこう言った。「私たちはあなたの写真を見て、どんなタグや場所から撮られたのかを確認し、それが意味のある瞬間の一部であるかどうかを判断します。あなたの人生を総合的に理解すると、個人的な物語がより明確になります。」

Google チームも Ellmann Chat について語りました。 Ellmann Chatとは何ですか?チームは次のように説明した。「これをオンにすると、あなたの個人的な生活についてすべて知っていると想像してください。あなたはどんな質問をしますか?」

たとえば、ユーザーが Ellmann Chat に「私は犬を飼っていますか?」と質問すると、AI は飼い主が犬を飼っていると答え、その犬の名前を言いました。また、家族の中で犬と一緒にいるのが最も好きな人が 2 人いること、そしてその家族の名前は何であるかも答えました。

もうひとつの問題は、所有者が引っ越したいと思っていて、AIに現在の生活環境に似た町をいくつか提供して選択してもらうことです。エルマンはこれらの質問に答えることができます。それだけでなく、エルマン氏はユーザーの食習慣も把握しています。

たとえば、Ellmann は写真を分析して、ユーザーが何を購入したいのか、何に興味があるのか​​、仕事や旅行の計画は何かといった質問に対する答えを見つけることができます。エルマン氏は、ユーザーが好んで訪れるウェブサイトや使用するアプリを正確に把握しています。

Googleの広報担当者は次のように明らかにした。「Googleフォトは、ユーザーの写真や動画の検索を支援するためにAI技術を常に利用したいと考えてきました。LLMを使えば、より実用的な体験を提供できます。Ellmannはまだ社内で検討している段階であり、最終的にリリースされるかどうかは、まだ時間がかかるでしょう。Googleは、Ellmannがユーザーにとって本当に役立つものであることを保証し、ユーザーのプライバシーとセキュリティも考慮したいと考えています。」

Project Ellmann は、新しいテクノロジーを使用してユーザーのためによりパーソナライズされた個人的な思い出を作成しようとしている多くのテクノロジー企業の 1 つにすぎません。

Google フォトでも Apple フォトでも、写真を分析し、そこからパターンを見つけて、アルバムを作成します。 Google フォトでは、類似した写真を自動的にアルバムにグループ化して、ユーザーが写真を見つけやすくすることができます。アップルは6月、アップグレード後には写真に写っている人物や犬、猫をソフトウェアで識別できるようになると発表した。ユーザーは人物の名前を言うだけで、ソフトウェアがその人物の写真を見つける手助けをしてくれる。

素晴らしいように聞こえますが、Google と Apple のテクノロジーはまだ完璧ではなく、時々間違いを犯します。 2015年、AppleとGoogleのAIが黒人をチンパンジーと認識し、ジョークを巻き起こした。今日でも、間違いを避けるのは依然として難しい。 (ナイフ)

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

AI エージェントが GPT-4 と連携して人間のディレクターを排除します。 「サウスパーク」はスタンフォード大学のウエストワールドを模倣して撮影された

AIエージェントがまた衝撃的なニュースをもたらしました。AIエージェントが直接監督に昇進し、「サウス...

...

人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

コンピューティング能力の需要が高まり続けるにつれて、さまざまな環境への影響が生じ、人工知能 (AI)...

ガベージ コレクション アルゴリズムと JVM ガベージ コレクターの概要

[[199042]]ガベージ コレクション アルゴリズムと JVM ガベージ コレクターの概要は、著...

アルゴリズムの品質を評価するにはどうすればよいでしょうか?

序文アルゴリズムの品質を評価するには、そのアルゴリズムが問題を解決できるかどうかを確認することが重要...

Kmojiの魔法の表情を支えるAI技術

2018年7月、Kuaishouはかわいい魔法の絵文字を発表し、iPhone XのAnimojiゲー...

2020年に注目すべき10のAIトレンド

今後 1 年間で AI テクノロジーはどのように進化するのでしょうか。組織が注目すべき主要な AI ...

...

会社はあなたの顔を20万ドルで買いたいそうです!性別や年齢制限なし、ロボットは2023年に実用化される予定

[[437475]]ビッグデータダイジェスト制作著者: カレブ国内ではNFTが年末ボーナスをゲットし...

...

...

5Gネットワ​​ーク構築80%:5Gロボットが新たな転換点を迎えようとしている

最近、CCTVニュースによると、中国は2月末までに計画通り5Gネットワ​​ーク構築の80%を完了した...

DeepMind のニューラル ネットワーク記憶研究を分析: 動物の脳をシミュレートして継続的な学習を実現する

1. はじめにインターネットに溢れる AI 関連の情報の大半は、一般の人向けに進歩を説明するものと、...

...

2年後、マスクはついに「脳内挿管」というブラックテクノロジーをリリースし、脳コンピューターインターフェースを革新した。

設立から2年を経て、マスク氏の有名な脳コンピューターインターフェース研究会社Neuralinkがつい...