ChatGPT マルチモーダル禁止が解除され、ネットユーザーは楽しんでいます!写真を撮ってコードを生成したり、古文書を一目で認識したり、6つ以上のチャートを要約したりできる

今週の水曜日、OpenAI は ChatGPT のマルチモーダル機能のリリースを発表しました。

さて、それがオンラインに公開されるとすぐに、ネットユーザーは熱狂しました。

次に、ChatGPTの画像認識能力がどれほど優れているかを見てみましょう。

写真を撮ってアップロードするとコードが生成されます

あるネットユーザーが会議のホワイトボードの写真を録画してアップロードし、ChatGPTにコードの作成を依頼しました。

また、手描きのスケッチをアップロードして、ChatGPT に HTML で Web ページを作成するよう依頼することもできます。

シューッ、シューッ、数分でコードが出てきました。

これはまさに、今年 GPT-4 がリリースされたときに Greg Brockman が実証したマルチモーダル機能です。

たとえば、ToDo リストブックの写真を撮ります。

そこでGPT-4にPython Tkinter GUIを作らせたら実現したのですが…

古代の写本を一目で翻訳

こちらは 17 世紀の錬金術師ロバート・ボイルの別の原稿です。GPT-4 はこれを読み取ることができますか?

これは簡単なことだ。

たとえば、カタロニア語の医学書『薬用ミイラ』。

ChatGPT は文字起こしや翻訳も可能です。

UCSCの歴史学准教授ベンジャミン・ブリーンはこう語った。

これは歴史家にとって重要な意味を持つでしょう。特定の原稿セットでトレーニングされたカスタムマルチモーダル GPT-4 を想像してください。転記だけでなく、翻訳や分類も可能です。（これがまさに、LLM を執筆に使用しないことが大きな問題であると私が考える理由です）。

チャートの要約も非常に良い

グラフに基づいてデータを抽出するように GPT-4 に指示することもできます。

その後、チャートを複製し、チャートに似たものにするための Python コードを作成できます。

株価トレンドチャートを入力すると、特徴を分析してまとめることもできます。

画像認識「優れたIQ」

GPT-4 に抽象的な画像を与えます。

この4枚の絵が表現したい「コミュニケーションの大切さ」という比喩を的確に捉えているのがすごい。

GPT-4Vは医師の手書き文字も読み取ることができます。

日本のネットユーザーの中には、「ドラゴンボール」の孫悟空を使ってChatGPTテストを受ける人もいました。

「あなたは人間ですか？」の認証コードもいろいろあります。

自分の作品の一部をアップロードすると、GPT-4 が改善の提案をしてくれます。

一部のネットユーザーは、GPT-4VがKosmos-1論文でこの質問に正しい答えを出したものの、推論プロセスに誤りがあったことを発見した。

この機能により、子供たちは宿題をする必要がなくなります。

ネットユーザーのまとめ

上記の経験に加えて、一部のネットユーザーは、GPT-4V に関する独自のテストを紹介する長い記事を書きました。

テスト 1: 視覚的な質問応答

絵文字を与えて、GPT-4V がそれをどれだけ理解するか確認してみませんか?

GPT-4V は、なぜそれが興味深いのかをうまく説明し、画像の構成要素とそれらの間のつながりについて言及しています。

特に、GPT-4V は、提供された括弧内のコメントをテキストを使用して読み取り、応答することができました。

それでも、GPT-4V はフライドチキンに「GPU」ではなく「NVIDIA BURGER」というラベルを付けるというミスを犯しました。

次に、米国の 1 セント硬貨の写真を使ってテストします。 GPT-4V は、硬貨の起源と額面を正確に特定することができました。

しかし、複数のコインの写真があり、GPT-4V に「お金はいくらあるか」と尋ねたらどうでしょうか?

この時点では、コインの枚数を識別することしかできず、通貨の種類を判別することはできません。

テスト2: OCR認識

Webページからテキスト画像をキャプチャしてアップロードすることで、GPT-4Vはコンテンツを適切に読み取ることができます。

テスト3: 数学OCR

Math OCR は、特に数式に焦点を当てた特殊な形式の光学文字認識です。

ネットユーザーはGPT-4Vに数学の問題を出し、それを文書のスクリーンショットの形で提示した。

この問題では、2 つの角度が与えられた場合にジップラインの長さを計算します。「解いてください」というプロンプトが画像上にあります。

このモデルは、三角測量を使用して解決できる問題を特定し、使用する関数を識別し、問題を解決する方法を段階的に示します。 GPT-4V は質問に対する正しい答えを提供します。

そうは言っても、GPT-4V システムカードには、モデルで数学記号が欠落する可能性があると記載されています。

紙に手書きで書かれた方程式や表現を使用するテストを含むさまざまなテストにより、モデルが数学の問題に答えられないことが示される場合があります。

テスト4: 物体検出

GPT-4V に画像内の犬を検出するように依頼し、犬の位置に関連付けられた x_min、y_min、x_max、y_max の値を提供すると、GPT-4V によって返される境界ボックスの座標は犬の位置と一致しません。

GPT-4V は画像に関する質問に答えるのに非常に強力ですが、画像内のオブジェクトがどこにあるかを知りたい場合に、オブジェクト検出モデルを微調整する代わりにはなりません。

テスト5: 検証コード

GPT-4V は画像に CAPTCHA が含まれていることを認識できましたが、テストに失敗することが多いことがわかりました。

信号グリッドを選択する例では、GPT-4V は信号を含むグリッドをより少なく選択しました。

テスト6: クロスワードと数独

数独テストでは、GPT-4V はゲームを認識しましたが、ボードの構造を誤解したため、不正確な結果を返しました。

ちなみに、ChatGPT ネットワーキング機能が復活しました。

<<: GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者：上級ユーザー必読

>>: DALL·E 3のベンチマーク！メタ最強の文豪エミュの技術レポートを公開

ChatGPT マルチモーダル禁止が解除され、ネットユーザーは楽しんでいます!写真を撮ってコードを生成したり、古文書を一目で認識したり、6つ以上のチャートを要約したりできる

写真を撮ってアップロードするとコードが生成されます

古代の写本を一目で翻訳

チャートの要約も非常に良い

画像認識「優れたIQ」

ネットユーザーのまとめ

ナレッジグラフはどのようにして「人工知能」をよりスマートにするのでしょうか?

ビッグデータとAIの未来は1つに集約される

指先で操作できる人工知能（基礎編）

OpenAIがマスク氏に正面から対決！イリヤは8年間のメールの「犯罪」を暴露した後、ついに姿を現した

Jupyter Notebookの3つの大きな欠点は、この新しいツールによってすべて補われています。

エッジ AI ソフトウェア市場は 2023 年までに 11 億 5,000 万ドルに達する見込み

人工知能は創意工夫を駆使して古い映画を修復し、色あせた記憶を蘇らせる

ディープラーニングの背後にある数学的アイデアを分析する

推薦する

サーバーレスコンピューティングによる機械学習の解決策は何でしょうか?

危険な顔認識：「尊厳を保たなければ」私たちは裸になる

ハン・ソン、チュー・ジュンヤンらがGAN圧縮方式を提案：計算電力消費は1/9以下、オープンソース化

老黄の「ナイフスキル」が変わった！ Nvidiaの次世代RTX 50シリーズグラフィックカードの詳細がリーク、コードネームはBlackwell、AMDが王者に挑戦するにはまだ長い道のり

Daguan Data が自社開発の OCR と NLP 技術を統合し、インテリジェント RPA をリリース<

人工知能の時代が到来すると、私たちはどこへ向かうのでしょうか?

今では、脳とコンピューターのインターフェース信号さえも無線で送信でき、麻痺した人でも自宅で簡単にインターネットにアクセスできる。

Nvidiaの生成AIスーパーチップGH200はH100の2倍の計算能力を持つ。黄仁訓：それは狂ったように推論できる

ビッグデータの時代に、「アルゴリズム崇拝」に陥らないためにはどうすればいいのでしょうか?

都市 AI アプリケーションの失敗事例: 善意の自治体 AI プロジェクトはなぜ失敗したのか?

初めて、脳コンピューターインターフェースが人間の音声をリアルタイムで読み取ることができるようになった