GPT-4 に先んじよう! Microsoft Bingは突然、ミームを読んだり、病気を診断したり、コードを書いたりできる「画像認識」機能をアップグレードした。

GPT-4 に先んじよう! Microsoft Bingは突然、ミームを読んだり、病気を診断したり、コードを書いたりできる「画像認識」機能をアップグレードした。

何ですか? Microsoft の Bing は画像を認識できるんですか?それとも ChatGPT より前にそこに到着したのでしょうか?

空想に過ぎず、決して実装されなかった GPT-4 プレビューと比較すると、今回は Bing が脚光を浴びました。

Reddit ユーザーは、Bing インターフェースに写真をアップロードするオプションが突然表示されたことを発見しました。

写真をアップロードしたら、Bing は何でもできると言われています。

プログラミング、コードの記述、問題の解決、グラフの描画、さらには医師の診察など、すべて問題ありません。

(ただし、まだ小規模なテスト段階のようで、私はまだ体験していません)

ミーム画像を見る

多数のネットユーザーがこの機能を発見した後、彼らが最初にテストしたのは間違いなくさまざまなミームの画像でした。

ミームを Bing に入力して、何が面白いのかわかるかどうか確認してみましょう。

たとえば、下の写真では、男性がタクシーの後部座席で衣類にアイロンをかけており、車はまだ動いています。

ビングさんは、その写真には珍しい部分が多すぎると言った。まず、タクシー内でアイロンをかけるなんてとんでもないことです。また、男性が着ている服はタクシーと同じ色です。これは何かを暗示していますか?それとも何かの偶然でしょうか?

3つ目は、アイロン台がタクシーに固定されているため、不安定になる危険性があることです。最後に、男性がアイロンをかけている服は青色で、黄色とぶつかっています。これは何かを暗示しているのでしょうか?

Bing は写真の詳細を可能な限りすべて捉えており、分析も意味を成していることがわかります。

下の漫画「ニューラル ネットワークにレイヤーを追加する理由」では、Bing 氏も独自の分析を示しています。

この漫画は、統計学習とニューラル ネットワークの違いを誇張し、前者で使用されている真面目で技術的な言語と後者のシンプルで直接的なアドバイスを対比させることで、ユーモラスな対比を生み出しています。

全体として、この漫画は、機械学習に対するこれら 2 つのアプローチに関連する固定観念と一般的な認識を利用して、統計学習とニューラル ネットワークの違いを強調しています。

もちろん、GPT-4のプレビュー版でも同じ画像が表示されました。

GPT-4 はまさに的を射ており、この漫画はモデルのパフォーマンスを向上させる方法という観点から、統計学習とニューラル ネットワークの違いを風刺しています。

しかし、別の写真セットでは、Bing は要点を理解していないようです。

Bing はそれを分析するふりをして、コネクタとパッケージのコントラストが原因かもしれないと言っていました。プラグの下側が顔のように見えることもあります。

彼は3枚の写真が何であるかを分析したが、そのジョークが何であるかについては言及しなかった。

ただし、ケーブル ブランドの特定などの客観的な分析を Bing に依頼すると、結果は依然として非常に正確です。

対照的に、GPT-4 は次のミームのセットを 1 つずつ分析するとすぐに反応できます。

写真の「Lightning 充電ケーブル」は、この小型で最新のスマートフォンに差し込まれた、大きくて時代遅れの VGA インターフェイスのように見え、鮮明なコントラストを生み出しています。

コードを書く

GPT-4 が初めて登場したとき、最も驚くべき点は、コードを理解する優れた能力でした。

デモでは、グレッグ・ブロックマン氏が紙に直接スケッチを描き、写真を撮ってGPT-4に送信し、「このレイアウトに従ってWebページのコードを書いてください」と指示すると、コードが書かれました。

この男性は、Bing に同様のジョーク Web サイトを作成できるかどうか試してみるよう依頼しました。

最終的な効果は本当に素晴らしいです。インターフェースは見た目があまり美しくありませんが、必要なものはすべて揃っています。

プログラムコードは次のとおりです。

その後、その男性は Bing にコードの改良を続け、対応する Web ページを作成するように依頼しました。

Bing は、もちろん可能だ、コードを微調整するだけだと言いました。しかし、JavaScript はコンパイル言語ではなく、インタープリタ言語であることを指摘しています。

したがって、コンパイラは必要ありません。ブラウザまたは JavaScript エンジンだけが必要です。

友情が広まった後、ビングも任務を無事に完了しました。

医者になる

次の使用例は非常に強力です。

男は赤くなった腕の写真を撮り、ビングに何の病気なのか尋ねました。

ビングはそれが皮膚の下の血管が破裂した打撲傷であるとすぐに判断した。

症状を緩和するために処方される方法も数多くあります。

  • 腫れや炎症を軽減するために、最初の 24 時間はアイスパックを当ててください。
  • 24時間後に温めると血液循環が促進され、血液の停滞が解消されます。
  • 打撲した部分を心臓より高く上げると、血圧と血液の溜まりが軽減されます。
  • 市販の鎮痛剤を服用してください。
  • 傷の治癒とコラーゲンの合成を促進するために、ビタミン C、ビタミン K、亜鉛、ブロメラインが豊富な食品を多く摂取してください。
  • 打撲や腫れを軽減するために軟膏を塗ってください。

まだかなりプロフェッショナルです。

別の人物が組織のさまざまな部門を派遣し、Bing に判断を依頼しました。

ビングさんは写真の内容を理解しただけでなく、組織や断面が何であるかを詳しく説明してくれました。

組織の横断的な情報がどのような場合に役に立つのかについてさえも説明しています。

すると若者は、それは組織のどの側面だと思うかと尋ねました。

Bing の分析により、これが筋肉組織の断面であることが分かりました。

ビング氏は、一枚の写真だけで人が健康かどうかを判断することはできないと厳しく指摘した。

ネットユーザーの中には、困っている大学生に変身し、ビンさんに良い先生になって写真に写っているものを説明するよう頼む者もいた。

Bing は、先生の言うことをよく聞いてください (削除済み)、これはネフロンで、主な機能は 4 つあります、つまり、などなど...と言いました。

いい子だね、これからはこういう整理や要約といった学習タスクをAIに直接引き継ぐことができるんだ。 AIは決して忍耐を失いません。

細胞の減数分裂について Bing に直接質問する人もいました。

ビングは、アップロードされた画像は減数分裂、つまり二倍体細胞が4つの半数体細胞に分裂する図だと述べた。

次に減数分裂の過程と意義について説明しました。

あまり賢くないこともある

もちろん、Bing の画像認識機能にはまだ改善の余地が大いにあります。

たとえば、男の子は、写真のボックス A に × がいくつあるかを尋ねました (伝説によると、A. trifida は × です)。

肉眼で見ると 11 個ありますが、それが間違っていると言えるでしょうか?

Bing によると、ボックス A には X が 5 つ、ボックス B には ○ が 4 つあり、合計は 9 個です。

AフレームとXはどこにありますか?なぜ○枠とB枠が両方あるのでしょうか?

たとえば、「Nintendo Smash Bros.」のゲーム キャラクターのこの画像では、Bing はそのうち 7 個しか認識しませんでした。

それから、その男はチェスの質問をした。「このオープニングで、白は次に何をすべきか?」

しかし、ビングは最初から間違った答えを出した。「今度は黒が動く番です。白がどう動くかは黒次第です…」

ネットユーザーたちはすぐに彼を訂正し、「それは正しくない、まずは駒の位置をはっきり見るべきだ、そしてもう一度言うが、白が動く番だ」と言った。

しかし、Bing は今回も正しく答えませんでした。実際には、指定された位置のいくつかにはピースがありませんでした...

Bing の新しい画像認識機能は非常に強力であることがわかります。

ゲームはマップから始まり、残りは強力な生成能力に完全に依存します。

事実の認識や生成に関しては問題ありませんが、文化的な比喩の部分は今後もっと良くできるかどうかわかりません。

参考文献:

https://www.timesnownews.com/technology-science/snap-and-ask-microsofts-bing-chatbot-now-accepts-picture-prompts-article-100900618

<<:  米国版Tiebaの8000グループが閉鎖を発表! Google OpenAIがデータを無料で利用することを拒否したCEOはネットユーザーから叱責された:サードパーティのアプリケーションを裏切る

>>:  Promptは音声言語モデルを生成する機能を提供し、SpeechGenは音声翻訳と修復タスクを実装します。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

異常検出のためのいくつかのグラフ分割アルゴリズム

セキュリティ分野では、アカウント取引の異常や異なるイベント間の相関関係など、さまざまなシナリオで「グ...

PyTorch Lightning モデルを本番環境にデプロイするにはどうすればいいですか?

[51CTO.com クイック翻訳] 機械学習の分野を見ると、ソフトウェアエンジニアリングの原理を...

建設業界には後継者がいないのでしょうか?考えすぎです!建設ロボットがやって来ます!

世界の建設業界の現状人口ボーナスの消滅により、中国の建設業界は人件費への大きな圧力に直面しているほか...

外国メディアが報じたところによると、EUはデータプライバシーを弱めるため、エンドツーエンドの暗号化にバックドアを検討している。

インド、米国、英国、オーストラリアに続き、エンドツーエンドの暗号化は欧州連合から厳しい監視を受けてい...

アプリケーション管理における AI/ML のユースケース

[[320826]]概要人工知能ベースの運用 (AIOps) は、人工知能と従来の AM/IM 運用...

自動運転車の安全性保証、検証、認証の見直し

2022年2月6日にarXivにアップロードされたレビュー論文「自動運転車の安全性保証、検証、認証:...

MITの研究チームがスマート着替え補助ロボットの衝突防止アルゴリズムを改良

普通の人にとって、毎日起きて服を着るのはかなり簡単な作業です。しかし、身体に障害のある人にとって、着...

人工知能は核爆弾と同じくらい人類にとって脅威なのでしょうか? AI脅威理論の謎を解く

新たに世界一の富豪となり、テスラのCEO、そしてテクノロジー界の大物となったマスク氏は、ロボットが近...

AIがあなたが何歳で死ぬかを予測?トランスフォーマーの「占い」がネイチャーのサブジャーナルに掲載され、事故死の予測に成功

AIは本当に科学的に占いができるんですね! ?デンマーク工科大学(DTU)の研究者らは、各人の死亡の...

...

...

2030年までに、仕事の70%が人工知能に置き換えられるでしょう。子どもたちが競争力を維持できるよう、私たちはどう支援できるでしょうか?

10年前は多くの人が必死に五線譜を練習していましたが、今ではほとんど誰も使っていません。 5年前は...

ホンダのエンジニアはAIを活用して安全性と燃費規制を設計

[[378826]]本田技術研究所では、エキスパートナレッジシステムを活用して車体設計プロセスに A...