GPT-4 のキラー Google Gemini が登場します! 26人のR&Dボスのリストが公開され、MidjourneyのようなRAW画像機能を提供する

GPT-4 のキラー Google Gemini が登場します! 26人のR&Dボスのリストが公開され、MidjourneyのようなRAW画像機能を提供する

Google の新しいキラー兵器、Gemini が世界に登場します!

GeminiはGPT-4のようにテキスト会話ができるだけでなく、MidjourneyやStable Diffusionの機能を統合し、画像も生成できると噂されています。

OpenAIに対抗するため、GoogleのCEOピチャイ氏は今年4月に異例の措置を取り、文化もコードも全く異なるチームであるGoogle BrainとDeepMindを合併した。

現在、何百人ものエンジニアを集めたGoogleのアベンジャーズは、OpenAIのGPT-4を狙い撃ちし、一挙にAI分野のトップの座を取り戻すべく、昼夜を問わず待機して作業に取り組んでいる。

Googleの創設者セルゲイ・ブリン氏も現場に戻り、ジェミニの訓練を自ら監督した。

Geminiは今秋にリリースされる予定で、Googleのテストも間もなく行われる。

アベンジャーズの名簿が発表された

ジェミニに賭けてGPT-4の最強キラーを作ろう

関係者によると、Gemini は LLM のテキスト機能と Vincent グラフの機能を組み合わせたものだそうです。

つまり、GPT-4 と Midjourney/Stable Diffusion の組み合わせに相当します。

ジェミニがこれほど強力な描画能力を持っていることが外部の人々に知られるのは今回が初めてです。

さらに、分析チャートを提供したり、テキスト説明付きのグラフィックを作成したり、テキストまたは音声コマンドを使用してソフトウェアを制御したりすることもできます。

6月末には、Google DeepMindのCEOであるハサビス氏も、GeminiをAlphaGoや大規模言語モデルと組み合わせ、Google DeepMindが数千万ドル、あるいは数億ドルを投資する用意があることを明らかにした。

ジェミニは、強化学習やツリー探索を利用するAlphaGOのほか、ロボット工学や神経科学などの分野の技術を統合します。

写真

Google は、Bard チャットボットを強化し、Google Docs や Slides などのエンタープライズ レベルのアプリケーションを推進する Gemini に大きな賭けをしていると言えるでしょう。

さらに、Google はクラウド サーバー レンタル サービスを通じて開発者に Gemini へのアクセス料金を請求することも望んでいる。

現在、Google Cloud は Vertex AI 製品を通じて Google AI モデルへのアクセスを販売しています。

これらの新機能が実現すれば、Google は Microsoft に追いつく可能性が高いでしょう。

結局のところ、Microsoft はすでに AI 製品のリーダーであり、Office 365 アプリには AI 機能が含まれており、そのアプリケーションではユーザーに ChatGPT へのアクセスも販売しています。

ブルームバーグのベンチャーキャピタル部門、ブルームバーグ・ベータのAIスタートアップ投資家、ジェームズ・チャム氏はブルームバーグに対し、「過去9か月間、誰もが尋ねてきた疑問は、OpenAIを追い抜く可能性を秘めた企業がいつ現れるのかということだ」と語った。

「ついに、GPT-4 に対抗できるモデルが登場したようです。」

Google、快適な領域から抜け出すことを余儀なくされる

OpenAIの台頭により、Googleは中核となる検索事業を確保しながら、新たな技術の導入に努めなければなりません。

関係者によると、Google は Gemini をリリースする前に、いくつかの製品でこれを使用する可能性が高いとのことです。

これまで Google は検索を改善するためにより単純なモデルを使用してきましたが、Bard や Gemini などの製品では、大量の画像やテキストを分析して、より人間らしい回答を生成する必要があります。

こうした膨大な量のデータによって生じる潜在的な莫大なサーバーコストも、Google が管理しなければならないものである。

アップデートされたバードはさらに強力になりました

YouTubeの利点

The Informationによると、Googleは大量のYouTube動画を使ってGeminiをトレーニングしたという。

さらに、Gemini はオーディオとビデオをモデル自体に統合してマルチモーダル機能を形成することもできます。これは多くの研究者によって AI の次のフロンティアであると考えられています。

たとえば、YouTube 動画でトレーニングされたモデルは、整備士が動画に基づいて自動車の修理の問題を診断するのに役立ちます。

あるいは、ユーザーが作成したい Web サイトやアプリのスケッチに基づいてソフトウェア コードを生成することもできます。 OpenAI は以前、GPT-4 のこの機能を実証しましたが、まだリリースされていません。

OpenAIの責任者グレッグ・ブロックマンはかつてGPT-4の画像読み取りとウェブページコード書き込み能力を実証したが、遅れているようだ。

YouTube コンテンツを使用することで、Google は、ユーザーが視聴したい内容の説明に基づいて詳細な動画を自動的に生成する、より高度なテキスト動画変換ソフトウェアを開発することもできます。

これは、Google が支援するスタートアップ企業 RunwayML が開発している技術に似ており、ハリウッドのコンテンツ クリエイターたちは現在、その開発に注目しています。

Google DeepMindが本格的な反撃を開始

Google は 2011 年に Google Brain を設立しました。これは、検索結果、ターゲット広告、Gmail の自動入力機能を最適化する Google 独自の AI を構築することを目的としています。

一方、ロンドンを拠点とするディープマインドは、学術研究に重点を置いています。2016年には、アルファ囲碁がイ・セドルを4対1で破り、この研究は汎用人工知能(AGI)への道における重要なマイルストーンとみなされています。

DeepMind が開発したソフトウェアは Google のデータセンターの運用効率を向上させるために使用されているが、DeepMind の取り組みは同社の中核製品にはあまり影響を与えていない。

しかし昨年末、すべてが変わりました。

2022年11月、OpenAIはChatGPTをリリースしました。わずか数週間でユーザー数は数千万人に急増し、その後、最短時間でユーザー数1億人を突破するという成果を達成しました。

数か月以内に、OpenAI の収益は数億ドルに達しました。この期間中、Microsoft は新たに 100 億ドルを投資し、数え切れないほどの熱い資金が OpenAI に流入しました。OpenAI の市場価値と人気は前例のない高さに達しました。

その時初めて、Google は AI 分野における自社のリーダーシップが危機に瀕していることに気づいたのです。

Google Brain + DeepMind =?

今年4月、これまで消極的な立​​場だったGoogleが、Google BrainとDeepMindを正式に合併するという究極の一手を打った。

『王は王に会うことはない』の2つの主要部門は実際に統合され、この動きにも観客は驚愕した。

合併後のGoogle DeepMindはDeepMindのCEOであるデミス・ハサビス氏が率い、元Google AI部門責任者のジェフ・ディーン氏が主任科学者として後任となる。

現在、少なくとも26人の大物がジェミニの開発を担当しており、その中にはかつてGoogle BrainやDeepMindで働いていた研究者も含まれている。

事情に詳しい関係者によると、ディープマインドの幹部2人、オリオル・ビニャルス氏とコライ・カブククオグル氏が、元グーグル・ブレインの責任者ジェフ・ディーン氏とともにジェミニの開発を担当することになるという。彼らはジェミニの開発に携わる数百人の従業員を監督することになる。

さらに、Googleの共同創業者セルゲイ・ブリン氏も待望の復帰を果たした。

セルゲイ・ブリンとラリー・ペイジ

彼はジェミニ モデルを評価し、従業員のトレーニングを支援してきました。

報道によると、ブリン氏は、ジェミニが誤って不快な可能性のあるコンテンツでトレーニングされていたことをチームが発見した後、モデルを再トレーニングする技術的な意思決定プロセスにも関与していたという。

予期せぬ結婚の苦しみ

Google Brain と DeepMind の合併により、新しいチームはすぐに非常に深刻な問題に直面しました。それは、コードをどのようにマージするか、開発にはどのソフトウェアを使用するか、という問題でした。

結局のところ、以前は 2 つの部門のコード ベースは完全に独立していました。

双方は譲歩して妥協に達したが、

- モデルの事前トレーニング段階では、Google Brainが機械学習モデルのトレーニングに使用するソフトウェアであるPaxを使用します。

- 後期段階では、DeepMindのモデル開発ソフトウェアであるCore Model Strikeを使用して

しかし、内部関係者によると、多くの従業員は、慣れていないソフトウェアを使わなければならないことに依然として不満を抱いているという。

さらに、Google と DeepMind は ChatGPT 用の独自のモデルを開発しました。

DeepMindは、コードネームGoodallのプロジェクトに着手した。このプロジェクトは、非公開のモデルChipmunkのさまざまなバリエーションを使用して、ChatGPTと競合するシステムを開発することを目指している。 Google Brain は Gemini プロジェクトを開発し、立ち上げました。

最終的に、DeepMind は当初の取り組みを断念し、Google Brain プロジェクトに基づいて Gemini の開発に協力することを決定しました。

興味深いことに、Google Brain はリモートワークのポリシーに関しては DeepMind よりもはるかに寛容な姿勢をとっているとも言われています。

内部摩擦、恥ずかしさ、反撃

OpenAI の明るい状況と比較すると、Google は疲弊する内部闘争に巻き込まれている。

まず、多くの上級技術人材が退職し、リアム・フェダス、バレット・ゾフ、ルーク・メッツなどの研究者がOpenAIへの参加を選択しました。

Google は、例えば Jacob Devlin 氏と Jack Rae 氏を再採用するなど、一部の優秀な人材を取り戻しました。

ジェイコブ・デブリン氏はバードの開発を批判した後、1月にOpenAIを去った。ジャック・レイは、2022 年に OpenAI に入社した元 DeepMind 研究者です。

以前、デブリン氏は、バード社のチームがトレーニングにChatGPTデータを使用していることについて、ピチャイ氏やディーン氏などの幹部に懸念を表明し、その後辞任した。

そして、支配的なChatGPTに対抗し、人工知能分野のリーダーとしての地位を取り戻すために、Googleは今年2月にチャットボットBardを急遽リリースした。

しかし、記者会見は些細な事実誤認によって台無しになり、同社の時価総額は一夜にして1000億ドルも消え去った。

Google の最初の反撃は不名誉な結果に終わった。

5月、Google I/Oカンファレンスで新しいPaLM 2モデルがリリースされ、Bardの質問に答えたりコードを生成する能力が大幅に向上しました。

また、生成 AI と独自の従来の検索サービスを組み合わせた Search Generative Experience (SGE) もリリースされました。

簡単に言えば、SGE は Bing Chat に似た AI 検索サービスですが、新しいチャット ウィンドウを直接使用するのではなく、AI によって生成されたコンテンツ コレクションを検索結果としてユーザーに表示します。

つまり、検索中に、Google は AI を利用して検索内容の説明を提供したり、ユーザーの質問に答えたり、旅行計画の支援などを行うことになります。

利用可能なすべてのコンテンツが AI によって収集された返信に集中しているため、ユーザーは価格を比較するために複数のリンク間を行ったり来たりする必要がなくなり、リンクの背後にあるどの情報が真実であるかを判断するのに時間を費やす必要もありません。

最近のアップデートで、Google は SGE に AI 生成の応答に画像や動画を添付する機能を追加し、ユーザーが検索する知識や情報をより直感的に理解できるようにしました。

Bing Chat と同様に、SGE の AI 応答には、AI が生成した返信をサポートするタイムスタンプ付きのリンクが含まれます。ユーザーが関連情報に興味がある場合は、リンクをクリックして特定のコンテンツをより包括的に理解することができます。

AI によって生成された応答では、多くの知識ベースの情報や概念について、ユーザーはマウスをホバーするだけで概念の正確な定義を得ることができます。

現在、この機能は、科学、歴史、経済などの知識に関する質問に AI が回答するために開始されました。

情報を学習または理解するために非常に長い Web ページを閲覧する必要があるユーザーのために、SGE は Web ページ内の AI 要約機能も更新しました - 閲覧中の SGE。

この機能は、いつでも使用できる「アウトライン ジェネレーター」をユーザーに提供するのと同じです。長い Web ページ コンテンツの場合、ユーザーはこれを使用してアウトラインを生成し、重要なポイントをすばやく把握できます。

下の「ページの探索」セクションでは、ユーザーはページ コンテンツに関連する質問も確認できます。ユーザーが質問に興味がある場合は、クリックするだけで、記事の内容がこれらの質問にどのように答えているかを確認できます。

ただし、Google の保守的なマーケティング戦略により、SEG では現在、待機リストを使用してテストを申請できるのは米国のユーザーのみです。

そのため、ほとんどのユーザーは、Google がこのようなサービスを開始したことすら知らないかもしれません。

つまり、2つの部門が合併した後、ユーザーに人生のアドバイスや心理カウンセリングを提供するツールも含め、少なくとも21の生成AIツールをテストしたと報告されています。

昨年、自社のチャットAIに意識があると主張したエンジニアを緊急解雇したGoogleは、現在、この種の「デリケートな」領域の調査を開始しており、本当に試してみることにしたようだ。

ジェミニプロジェクトは現在順調な状況にある

しかし、2つのチームの合併は、ジェミニプロジェクトを担当していた一部のエンジニアにとって、実に大きな驚きでした。

以前DeepMindで働いていたジェームズ・モロイ氏とトム・ヘニガン氏は、Googleの上級研究員ポール・バーハム氏とともにインフラを担当している。

以前ディープマインドでチェスや囲碁のシステムに携わっていたティモシー・リリクラップ氏と、グーグル・ブレインの研究者エミリー・ピトラー氏は、法学修士課程の学生が数学やウェブ検索などの特殊なタスクを処理できるようにすることに重点を置いたチームを率いている。

しかし、統合された組織内の人員問題に加えて、Gemini チームは、モデルのトレーニングに使用できるデータの特定など、開発プロセス中に大きな課題にも直面しました。

その結果、Google の弁護士はトレーニングの取り組みを綿密に評価してきました。

あるケースでは、著作権者からの異議を恐れた弁護士が研究者に教科書からトレーニングデータを削除するよう要求した。

そのデータは、天文学や生物学などの分野に関する質問に答えるためのモデルのトレーニングに役立つ可能性があります。

しかし、元グーグル幹部でベンチャーキャピタル企業フェリシス・ベンチャーズの創設者であるアイディン・センクト氏は、ジェミニの立ち上げは「グーグルが極端に保守的になるのではなく、再び最前線に立つ決意をしている」ことを示したとコメントした。

Aydin Senkut 氏も Google の決定に同意している。

「これは正しい方向です。最終的には、彼らは成功することになるでしょう。」

<<:  ネイチャー誌に「LK-99は超伝導体ではない」という記事が掲載された。

>>: 

ブログ    
ブログ    

推薦する

...

...

分析技術は、2019-nCoVの潜在的な感染を追跡し予測するのに役立っています。

[[314175]] 2019-nCoVの最も危険な特徴は人から人へと感染する能力であり、中国では...

採血時に血管が見つからない?人工知能には解決策がある

[[318810]]ビッグデータダイジェスト制作出典: rutgers.edu編纂者:張大毓如、夏亜...

Kingsoft WPS Office 2019 正式リリース: Word、Excel、PPT を 1 つのソフトウェアで操作

7月3日、キングソフトは北京オリンピックタワーで「シンプル・クリエイティブ・シンプルではない」をテー...

このトレンドは止められない!すべてのデータ サイエンティストが知っておくべき 5 つのグラフ アルゴリズム

すべてがつながっている世界では、ユーザーは独立した個人ではなく、何らかの形で互いにつながっています。...

ニューラル ネットワークが適切に機能するには、なぜ十分なパラメータが必要なのでしょうか?

従来、パラメータの数が満たすべき方程式の数より多い場合は常に、パラメータ化されたモデルを使用してデー...

アルゴリズム技術の向上とアルゴリズムの適用の標準化(デジタル時代の文化生活)

[[399442]]アルゴリズム技術を改善し、アルゴリズムの適用を標準化することによってのみ、技術...

人工知能は人類の終焉をもたらすのでしょうか? AIに対する5つの実存的脅威

私たちは現在、この地球上で最も知的な種であり、他のすべての生命は生き続けるために私たちの善意に依存し...

自動運転車の危険性: 自動運転車が世界中で実現できないのはなぜか

テスラは2020年10月、車の所有者が駐車し、巡航速度で車線を自動的に維持し、赤信号で停止することを...

韓国初のAI女性キャスターが誕生。本物と間違えられ議論を巻き起こす。AIサベイニングはすでに存在していた

最近、韓国のテレビ局が韓国初の人工知能キャスターを導入した。この新しく作られたAI女性キャスターは、...

覚えておいてください!私たちの未来に影響を与えるのはビッグデータや人工知能ではなくブロックチェーンです!

[[216863]]私たちの未来に影響を与えるそれは「ビッグデータ」でも「モノのインターネット」で...

大規模言語モデルを導入し、国内初のコンピューティングパワーエコシステムをサポートする新しいオープンソースRLフレームワークRLLTEが登場

近年、強化学習に対する研究熱は高まり続けており、インテリジェント製造、自動運転、大規模言語モデルなど...

マイクロソフトCEO、テクノロジー大手各社がAIを訓練するためのコンテンツをめぐって競争していると語る

ナデラ氏は最近、米国政府によるグーグルに対する反トラスト訴訟で証言した。これは、米国政府が1998年...

20年間のAIベテランの告白

[[256514]] EyeSight Technologyの創設者兼CEO、周俊氏。彼は20年以上...