Googleの「AIが写真を推測」アプリがWeChat Momentsで人気:ユーザーの参加でよりスマートに

Googleの「AIが写真を推測」アプリがWeChat Momentsで人気:ユーザーの参加でよりスマートに

Google 初の WeChat ミニプログラム「絵を当てよう」アプリは、リリースから 1 日で、一部の人々の Moments を席巻しました。多くの「ソウル ペインター」が Moments で自分の絵を喜んで共有する一方で、「なぜ AI は私の絵をこんなにうまく当てられないのか」という疑問も数多く生じています。

コミュニケーション効果から判断すると、Googleが初めて立ち上げたWeChatミニプログラムは大きな成功を収めたと言える。

「Guess the Picture Song」は、ゲームプレイが非常にシンプルな小さなプログラムです。具体的なゲームプレイは、ユーザーが Google AI とチームを組んで、制限時間内にスケッチするというものです。体験の各ラウンドでは、ユーザーは指定された時間内に日常的なアイテム(犬、時計、靴など)の絵をスケッチする必要があり、AI チームメイトは時間切れになる前に絵の中のオブジェクトを推測する必要があります。

AIが写真内のオブジェクトを推測すると、ユーザーは次のラウンドに進み、それに応じてユーザーの連勝数が増加します。ユーザーは、友人や家族を招待して最長連勝記録に挑戦したり、興味深いスケッチを共有したり、体験中に新しい質問や絵を収集し続けることもできます。

「絵当て小歌」が提供したランキングリストによると、絵画スタジオの見習いレベルのユーザーが、25分30秒以内にAIが正確に認識できる絵を288枚続けて描いたため、現在ランキングリストの1位にランクされています。

絵の歌を推測した結果は、必ずしもあなたの描画スキルに比例するとは限りません。実際、多くのユーザーは、体験中に次のような状況に遭遇します。特定のオブジェクトを非常に鮮明に描いたのに、AIがそれを推測できないのです。この質問に答えるには、推測ゲームの仕組みを理解する必要があります。

絵画を推測する Xiaoge は、大量の落書きサンプルからの学習に基づいて、ニューラル ネットワーク テクノロジを使用してユーザーの絵画を識別します。

Google は公式声明でこれについて簡単に紹介している。「AI 技術の一種であるコンピューター ビジョン技術により、コンピューターは入力された視覚情報を直接理解し、それによって世界を「見る」ことができるようになります。」この技術は、ビデオ通話中の友人を識別してタグ付けできるだけでなく、人間の眼底診断画像で糖尿病の初期兆候を特定するのにも役立ちます。 「ニューラル ネットワーク」テクノロジーのおかげで、コンピューターは一見非常に困難に思えるいくつかのことを非常にうまく処理できます。たとえば、大まかなスケッチから物体が何であるかを識別することができます。コンピューターは、耳の付いたランダムなインクの落書きがパンダである可能性があることを「認識」できるようになりました。

このゲームを具体的にサポートしているのは、RNN と呼ばれる再帰ニューラル ネットワークです。RNN は内部メモリを使用して任意の時間シーケンスの入力シーケンスを処理できるため、セグメント化されていない手書き認識や音声認識などをより簡単に処理できます。いわゆる入力順序とは、文字を書くときの筆順や、描くときの前後の過程を指します。

実際、Google は 2016 年にはすでに、同様のゲームプレイを備えたクイック ドローの Web バージョンをリリースしていました。このゲームでは、名詞がランダムに表示され、20 秒以内にそれを描くように求められます。プレイヤーはマウスを使ってオブジェクトの輪郭を描くだけで、Quick, Draw! があなたの描いた絵が似ているかどうかを判断します。

このゲームはシンプルで簡単に見えますが、Google による一連の AI 実験ツールの重要な部分です。実際には、ニューラル ネットワーク アルゴリズムを使用して、プレイヤーの落書きを判断します。 Google はこれを活用して、AI 分野の中核となるテーマである画像認識と光学文字認識を AI が自ら学習できるようにする方法を研究しようとしている。

1年後、Googleはこのプロジェクトのデータセットを公開しました。 Quick Draw データセットは、Quick, Draw! ゲームのプレイヤーが描いた 5,000 万枚の絵を 345 のカテゴリに分類したコレクションです。描画はタイムスタンプ付きのベクター画像で、プレイヤーに描画するように求められたものやプレイヤーの所在国などのメタデータが含まれています。

今回、WeChatモーメントに溢れている絵当てソングにも同じような目的があり、人工知能技術による人間とコンピューターの相互作用を体験する機会をすべての人に提供するという。

AIとの継続的なインタラクションの過程で、プレイヤーはAIが絵を推測するプロセスを見ることができます。 Google は、このような設定も配慮しています。ユーザーがある項目を完了した後、その項目について他の人がどう表現しているかを確認できます。目の前に物体の画像データセットが表示されたとき、AI の目に「アイスクリーム」がどのように見えるかを理解しようとすることも可能になるかもしれません。

さらに重要なのは、「Guess the Painting」ゲームを体験したすべてのユーザーが、実際には世界に対する理解に基づいて、自分の絵画を通じて AI を継続的にトレーニングしているということです。

Google がクイック ドロー データセットを公開した際に述べたように、これは膨大な量のデータであるだけでなく、興味深い鏡でもあります。クラウドソーシングの形で一般の人々が機械学習システムのトレーニングに参加できるようにする方法や、さまざまな文化的背景や概念を反映したデータセットを作成する方法を確認するために使用できます。

この文章は「絵を当てようソング」を説明するときにも使えます。これは単なる小さなプログラムではなく、一般の人々が機械学習システムのトレーニングに参加できる方法でもあります。

Google がミニプログラムを開発する動きから判断すると、この国際的なテクノロジー大手は、自社の製品や技術の研究開発に参加するために、中国のユーザーの習慣に適応する方法を模索し、見つけようと懸命に取り組んでいることがわかります。

<<:  WeChatモーメンツを席巻しているGoogleのAI版「Draw and Guess」の原理はこうだ。

>>:  2018 年の最もクールな機械学習と人工知能のスタートアップ 10 社

ブログ    
ブログ    

推薦する

災害後、ウェイモブは独自のデータベースの構築を断念し、商人に1億5000万元を支払った。

[[316623]] 【51CTOオリジナル記事】先週、WeMallは大規模なシステム障害に見舞わ...

北京ソフトウェア協会が「人工知能委員会」の設立準備を進め、アジアインフォテクノロジーズの欧陽葉博士が委員長に選出される

10月26日、中国科学技術協会社会サービスセンターの支援を受けて、北京ソフトウェア情報サービス協会(...

人工知能の現状と今後の発展はどのようなものでしょうか?

まず、人工知能の現在の開発状況を理解しましょう。人工知能技術は現在、急速な発展期にあります。雨後の筍...

...

ザッカーバーグはオープンソース AGI に全力を注ぐ: Llama 3 をトレーニング、35 万台の H100 を年末までに提供開始

ザッカーバーグ氏は新たな目標「すべてをオープンソースの AGI に」を発表しました。そう、ザッカーバ...

感情 AI はデジタルヘルスケアの未来となるでしょうか?

進化するヘルスケアとテクノロジーの世界では、「感情 AI」と呼ばれる画期的なイノベーションが変化の兆...

せっかちなGoogleのハードウェアから、中国と米国がAI商業化の問題をそれぞれどのように解決できるかまで

建国記念日の休日中は家にいて、Google カンファレンスを視聴しました。これらの製品のいくつかを見...

...

...

アイデアから実装まで、2018 年の 13 の驚くべき新しい NLP 研究

2018 年には、自然言語処理の分野で多くの刺激的なアイデアやツールが生まれました。概念的な視点から...

AI人工知能は研究室から生産現場へと進出したが、依然として大きな課題に直面している。

国内企業におけるAI導入の現状アクセンチュアが世界各国の企業幹部を対象に実施した「中国企業はどのよう...

人工知能と機械学習の時代に新たなサイバー脅威にどう対抗するか

侵入テスト サービスの必要性は、システムへの攻撃が頻繁に行われるようになった 1 世紀以上にわたって...

...

インテリジェント時代の到来により、インテリジェントロボットが私たちの仕事と収入を奪ってしまうのでしょうか?

インテリジェント社会の到来とともに、インテリジェントロボットは私たちの生活や仕事にますます多く登場す...

デジタルセンサーを使用してピンホールカメラを作るにはどうすればいいですか?

ビッグデータダイジェスト制作出典: IEEE近年、ピンホール写真に対する人々の関心は年々高まり、関連...