Google Project Ellman が Gemini AI モデルのシナリオを公開

Googleチームは、AI技術を使ってユーザーの写真や検索エンジンのクエリ情報を処理し、ユーザーの生活がどのようなものか総合的に分析するというコンセプトを提案した。このプロジェクトは「Project Ellmann」と呼ばれている。

当初のアイデアによれば、Project Ellmann は LLM (Gemini など) を使用して情報を抽出し、ユーザーの写真から特定のパターンを見つけ、質問に正確に答えることができるチャットボットを作成する予定でした。グーグルによれば、エルマン氏は「私生活の語り手」となるという。

興味深い話だが、Google は Ellmann の機能を Google フォトや他の製品に組み込むつもりだろうか?現時点では不明です。 Google フォトには 10 億人を超えるユーザーがおり、4 兆枚の写真や動画が保存されています。

Google は現在、自社の製品ラインを最適化するために AI 技術を使用しており、Ellmann はその使用方法の 1 つにすぎません。数日前、Google は Gemini をリリースしました。これは、いくつかのケースで OpenAI GPT-4 を上回りました。

Google は、Google Cloud ユーザーに Gemini のライセンスを供与する予定です。ユーザーは Gemini を使用して必要な機能を開発できます。 Gemini の最も顕著な利点は「マルチモーダル性」にあります。つまり、テキスト、画像、ビデオ、オーディオなど、複数の種類の情報を理解できるということです。

最近の社内会議で、Google フォトの上級幹部が Project Ellman のデモンストレーションを行いました。内部文書によると、Google チームは大規模な言語モデルを使用して、ユーザーの現実世界の人生ストーリーを「鳥瞰」できると考えているようです。

伝記、過去の記録、写真、その他の資料を通じて、エルマンは状況を深く理解することができました。たとえば、一連のクリップを分析することで、エルマンはさまざまなメッセージの主題が大学生活であるかどうかを判断できます。

プレゼンテーションのスライドの 1 つに、「個人の生活を俯瞰しなければ、難しい質問に答えることも、良いストーリーを伝えることもできません」と書かれていました。

別の人はこう言った。「私たちはあなたの写真を見て、どんなタグや場所から撮られたのかを確認し、それが意味のある瞬間の一部であるかどうかを判断します。あなたの人生を総合的に理解すると、個人的な物語がより明確になります。」

Google チームも Ellmann Chat について語りました。 Ellmann Chatとは何ですか?チームは次のように説明した。「これをオンにすると、あなたの個人的な生活についてすべて知っていると想像してください。あなたはどんな質問をしますか？」

たとえば、ユーザーが Ellmann Chat に「私は犬を飼っていますか?」と質問すると、AI は飼い主が犬を飼っていると答え、その犬の名前を言いました。また、家族の中で犬と一緒にいるのが最も好きな人が 2 人いること、そしてその家族の名前は何であるかも答えました。

もうひとつの問題は、所有者が引っ越したいと思っていて、AIに現在の生活環境に似た町をいくつか提供して選択してもらうことです。エルマンはこれらの質問に答えることができます。それだけでなく、エルマン氏はユーザーの食習慣も把握しています。

たとえば、Ellmann は写真を分析して、ユーザーが何を購入したいのか、何に興味があるのか、仕事や旅行の計画は何かといった質問に対する答えを見つけることができます。エルマン氏は、ユーザーが好んで訪れるウェブサイトや使用するアプリを正確に把握しています。

Googleの広報担当者は次のように明らかにした。「Googleフォトは、ユーザーの写真や動画の検索を支援するためにAI技術を常に利用したいと考えてきました。LLMを使えば、より実用的な体験を提供できます。Ellmannはまだ社内で検討している段階であり、最終的にリリースされるかどうかは、まだ時間がかかるでしょう。Googleは、Ellmannがユーザーにとって本当に役立つものであることを保証し、ユーザーのプライバシーとセキュリティも考慮したいと考えています。」

Project Ellmann は、新しいテクノロジーを使用してユーザーのためによりパーソナライズされた個人的な思い出を作成しようとしている多くのテクノロジー企業の 1 つにすぎません。

Google フォトでも Apple フォトでも、写真を分析し、そこからパターンを見つけて、アルバムを作成します。 Google フォトでは、類似した写真を自動的にアルバムにグループ化して、ユーザーが写真を見つけやすくすることができます。アップルは6月、アップグレード後には写真に写っている人物や犬、猫をソフトウェアで識別できるようになると発表した。ユーザーは人物の名前を言うだけで、ソフトウェアがその人物の写真を見つける手助けをしてくれる。

素晴らしいように聞こえますが、Google と Apple のテクノロジーはまだ完璧ではなく、時々間違いを犯します。 2015年、AppleとGoogleのAIが黒人をチンパンジーと認識し、ジョークを巻き起こした。今日でも、間違いを避けるのは依然として難しい。（ナイフ）

<<:

>>:

ブログ

Google Project Ellman が Gemini AI モデルのシナリオを公開

左に狂気、右に合理性、真ん中にアルゴリズム

ネットワークデータセキュリティ管理に関する新たな規制が導入される

Llama2推論: RTX3090はレイテンシとスループットで4090を上回るが、A800には遠く及ばない

IDCレポート：ジェネレーティブAIは爆発的な産業探査の時代に入り、技術供給側は商業化の初期段階にある

2024年のビッグデータと関連分野の予測

人工知能はますますあらゆる分野に浸透しつつある

グラフィカルな説明 | RSAアルゴリズムとは

推薦する

「2020年中国AIコンピューティングパワーレポート」が発表：中国はGPT-3のコンピューティングパワー問題をどう解決するのか？

コンピュータービジョンにおける次の大きな進歩はどこから生まれるのでしょうか?

わかった！ニッチだけど役に立つAIテクニック6選

ビッグビデオモデルは世界モデルですか？ DeepMind/UC Berkeley Chinese: 次のフレームを予測することで世界を変えることができる

マイクロソフト、Bing Chat と Bing Search にダークモードを導入開始

機械学習において、トレーニングおよび検証メトリックグラフから何がわかるでしょうか?

遠隔管理+早期警告人工知能が危険物輸送の安全性を向上

海外の詐欺師はAIを使ってテイラー・スウィフトの声を合成し、「無料のキッチン用品」の広告を偽造して詐欺行為を行った。

スタンフォード大学が主流モデルのトップ10の透明性を公開！ラマ2が1位、GPT-4は透明性がない、ルカン氏が批判：収益性は完全に理解されている