GPT-4 に先んじよう! Microsoft Bingは突然、ミームを読んだり、病気を診断したり、コードを書いたりできる「画像認識」機能をアップグレードした。

GPT-4 に先んじよう! Microsoft Bingは突然、ミームを読んだり、病気を診断したり、コードを書いたりできる「画像認識」機能をアップグレードした。

何ですか? Microsoft の Bing は画像を認識できるんですか?それとも ChatGPT より前にそこに到着したのでしょうか?

空想に過ぎず、決して実装されなかった GPT-4 プレビューと比較すると、今回は Bing が脚光を浴びました。

Reddit ユーザーは、Bing インターフェースに写真をアップロードするオプションが突然表示されたことを発見しました。

写真をアップロードしたら、Bing は何でもできると言われています。

プログラミング、コードの記述、問題の解決、グラフの描画、さらには医師の診察など、すべて問題ありません。

(ただし、まだ小規模なテスト段階のようで、私はまだ体験していません)

ミーム画像を見る

多数のネットユーザーがこの機能を発見した後、彼らが最初にテストしたのは間違いなくさまざまなミームの画像でした。

ミームを Bing に入力して、何が面白いのかわかるかどうか確認してみましょう。

たとえば、下の写真では、男性がタクシーの後部座席で衣類にアイロンをかけており、車はまだ動いています。

ビングさんは、その写真には珍しい部分が多すぎると言った。まず、タクシー内でアイロンをかけるなんてとんでもないことです。また、男性が着ている服はタクシーと同じ色です。これは何かを暗示していますか?それとも何かの偶然でしょうか?

3つ目は、アイロン台がタクシーに固定されているため、不安定になる危険性があることです。最後に、男性がアイロンをかけている服は青色で、黄色とぶつかっています。これは何かを暗示しているのでしょうか?

Bing は写真の詳細を可能な限りすべて捉えており、分析も意味を成していることがわかります。

下の漫画「ニューラル ネットワークにレイヤーを追加する理由」では、Bing 氏も独自の分析を示しています。

この漫画は、統計学習とニューラル ネットワークの違いを誇張し、前者で使用されている真面目で技術的な言語と後者のシンプルで直接的なアドバイスを対比させることで、ユーモラスな対比を生み出しています。

全体として、この漫画は、機械学習に対するこれら 2 つのアプローチに関連する固定観念と一般的な認識を利用して、統計学習とニューラル ネットワークの違いを強調しています。

もちろん、GPT-4のプレビュー版でも同じ画像が表示されました。

GPT-4 はまさに的を射ており、この漫画はモデルのパフォーマンスを向上させる方法という観点から、統計学習とニューラル ネットワークの違いを風刺しています。

しかし、別の写真セットでは、Bing は要点を理解していないようです。

Bing はそれを分析するふりをして、コネクタとパッケージのコントラストが原因かもしれないと言っていました。プラグの下側が顔のように見えることもあります。

彼は3枚の写真が何であるかを分析したが、そのジョークが何であるかについては言及しなかった。

ただし、ケーブル ブランドの特定などの客観的な分析を Bing に依頼すると、結果は依然として非常に正確です。

対照的に、GPT-4 は次のミームのセットを 1 つずつ分析するとすぐに反応できます。

写真の「Lightning 充電ケーブル」は、この小型で最新のスマートフォンに差し込まれた、大きくて時代遅れの VGA インターフェイスのように見え、鮮明なコントラストを生み出しています。

コードを書く

GPT-4 が初めて登場したとき、最も驚くべき点は、コードを理解する優れた能力でした。

デモでは、グレッグ・ブロックマン氏が紙に直接スケッチを描き、写真を撮ってGPT-4に送信し、「このレイアウトに従ってWebページのコードを書いてください」と指示すると、コードが書かれました。

この男性は、Bing に同様のジョーク Web サイトを作成できるかどうか試してみるよう依頼しました。

最終的な効果は本当に素晴らしいです。インターフェースは見た目があまり美しくありませんが、必要なものはすべて揃っています。

プログラムコードは次のとおりです。

その後、その男性は Bing にコードの改良を続け、対応する Web ページを作成するように依頼しました。

Bing は、もちろん可能だ、コードを微調整するだけだと言いました。しかし、JavaScript はコンパイル言語ではなく、インタープリタ言語であることを指摘しています。

したがって、コンパイラは必要ありません。ブラウザまたは JavaScript エンジンだけが必要です。

友情が広まった後、ビングも任務を無事に完了しました。

医者になる

次の使用例は非常に強力です。

男は赤くなった腕の写真を撮り、ビングに何の病気なのか尋ねました。

ビングはそれが皮膚の下の血管が破裂した打撲傷であるとすぐに判断した。

症状を緩和するために処方される方法も数多くあります。

  • 腫れや炎症を軽減するために、最初の 24 時間はアイスパックを当ててください。
  • 24時間後に温めると血液循環が促進され、血液の停滞が解消されます。
  • 打撲した部分を心臓より高く上げると、血圧と血液の溜まりが軽減されます。
  • 市販の鎮痛剤を服用してください。
  • 傷の治癒とコラーゲンの合成を促進するために、ビタミン C、ビタミン K、亜鉛、ブロメラインが豊富な食品を多く摂取してください。
  • 打撲や腫れを軽減するために軟膏を塗ってください。

まだかなりプロフェッショナルです。

別の人物が組織のさまざまな部門を派遣し、Bing に判断を依頼しました。

ビングさんは写真の内容を理解しただけでなく、組織や断面が何であるかを詳しく説明してくれました。

組織の横断的な情報がどのような場合に役に立つのかについてさえも説明しています。

すると若者は、それは組織のどの側面だと思うかと尋ねました。

Bing の分析により、これが筋肉組織の断面であることが分かりました。

ビング氏は、一枚の写真だけで人が健康かどうかを判断することはできないと厳しく指摘した。

ネットユーザーの中には、困っている大学生に変身し、ビンさんに良い先生になって写真に写っているものを説明するよう頼む者もいた。

Bing は、先生の言うことをよく聞いてください (削除済み)、これはネフロンで、主な機能は 4 つあります、つまり、などなど...と言いました。

いい子だね、これからはこういう整理や要約といった学習タスクをAIに直接引き継ぐことができるんだ。 AIは決して忍耐を失いません。

細胞の減数分裂について Bing に直接質問する人もいました。

ビングは、アップロードされた画像は減数分裂、つまり二倍体細胞が4つの半数体細胞に分裂する図だと述べた。

次に減数分裂の過程と意義について説明しました。

あまり賢くないこともある

もちろん、Bing の画像認識機能にはまだ改善の余地が大いにあります。

たとえば、男の子は、写真のボックス A に × がいくつあるかを尋ねました (伝説によると、A. trifida は × です)。

肉眼で見ると 11 個ありますが、それが間違っていると言えるでしょうか?

Bing によると、ボックス A には X が 5 つ、ボックス B には ○ が 4 つあり、合計は 9 個です。

AフレームとXはどこにありますか?なぜ○枠とB枠が両方あるのでしょうか?

たとえば、「Nintendo Smash Bros.」のゲーム キャラクターのこの画像では、Bing はそのうち 7 個しか認識しませんでした。

それから、その男はチェスの質問をした。「このオープニングで、白は次に何をすべきか?」

しかし、ビングは最初から間違った答えを出した。「今度は黒が動く番です。白がどう動くかは黒次第です…」

ネットユーザーたちはすぐに彼を訂正し、「それは正しくない、まずは駒の位置をはっきり見るべきだ、そしてもう一度言うが、白が動く番だ」と言った。

しかし、Bing は今回も正しく答えませんでした。実際には、指定された位置のいくつかにはピースがありませんでした...

Bing の新しい画像認識機能は非常に強力であることがわかります。

ゲームはマップから始まり、残りは強力な生成能力に完全に依存します。

事実の認識や生成に関しては問題ありませんが、文化的な比喩の部分は今後もっと良くできるかどうかわかりません。

参考文献:

https://www.timesnownews.com/technology-science/snap-and-ask-microsofts-bing-chatbot-now-accepts-picture-prompts-article-100900618

<<:  米国版Tiebaの8000グループが閉鎖を発表! Google OpenAIがデータを無料で利用することを拒否したCEOはネットユーザーから叱責された:サードパーティのアプリケーションを裏切る

>>:  Promptは音声言語モデルを生成する機能を提供し、SpeechGenは音声翻訳と修復タスクを実装します。

ブログ    
ブログ    

推薦する

BBAug: PyTorch 用のオブジェクト検出境界ボックスデータ拡張パッケージ

多くのニューラル ネットワーク モデルと同様に、オブジェクト検出モデルは大量のデータでトレーニングす...

2018 年の AI テクノロジーのブレークスルーの完全なコレクションをご紹介します。

[[253124]] 2018 年は AI 分野にとって依然として刺激的な年です。今年はNLP研究...

...

ChatGPTの最強の対戦相手が実際のテストでWen Xin Yi Yanに敗れました!

編纂者:王睿平校正 | Yan Zheng著作権侵害、プライバシー侵害、度重なる訴訟により、Chat...

プログラマーはAIアルゴリズムを使用して3,000匹の新しいポケモンを生成した

「人間は見たことのないものを想像することはできない」ということわざがあります。したがって、ほとんどの...

データ センターをよりスマートに: 人工知能はどのように役立つのか?

[[382637]]データセンターが国の経済の原動力となるにつれ、人工知能を導入することでより高い...

AppleはApp Storeのアプリランキングアルゴリズムを変更する可能性がある

北京時間4月19日朝のニュースで、モバイル広告ネットワーク関係者は、AppleがApp Storeの...

チャットボットにおける2つの技術的火種: AIと機械学習

チャットボットの人気が高まるにつれて、競合するアプリケーション フレームワークが多数登場しました。 ...

人工知能の真の可能性

サイエンス フィクションや大衆文化では、人工知能 (AI) 技術に関する大胆な予測や説明がよく取り上...

美団は食品配達に「ドローン」を使う予定?テクノロジーは飛躍的な進歩を遂げました!

以前のPC時代では、人々は携帯電話やウェブページを通じて近くのレストランに注文をしていたが、これには...

...

ビッグデータと人工知能がもたらす危機:テクノロジーの巨人は私たちの生活を台無しにしてしまうのか?

01 ハイテク時代の失業ゼロ半世紀以上前、有名な数学者ジョン・フォン・ノイマンは、機械を製造するコ...

こんにちは、音声認識について学びましょう!

[51CTO.com からのオリジナル記事] 音声認識は自動音声認識とも呼ばれ、人間の音声に含まれ...

AIが宇宙飛行士の健康を宇宙で監視する方法

[[286902]] ▲ 火星探査機ロゼッタが光学スペクトル赤外線リモートイメージングシステム(OS...