今週の水曜日、OpenAI は ChatGPT のマルチモーダル機能のリリースを発表しました。 さて、それがオンラインに公開されるとすぐに、ネットユーザーは熱狂しました。 次に、ChatGPTの画像認識能力がどれほど優れているかを見てみましょう。 写真を撮ってアップロードするとコードが生成されますあるネットユーザーが会議のホワイトボードの写真を録画してアップロードし、ChatGPTにコードの作成を依頼しました。 また、手描きのスケッチをアップロードして、ChatGPT に HTML で Web ページを作成するよう依頼することもできます。 シューッ、シューッ、数分でコードが出てきました。 これはまさに、今年 GPT-4 がリリースされたときに Greg Brockman が実証したマルチモーダル機能です。 たとえば、ToDo リスト ブックの写真を撮ります。 そこでGPT-4にPython Tkinter GUIを作らせたら実現したのですが… 古代の写本を一目で翻訳こちらは 17 世紀の錬金術師ロバート・ボイルの別の原稿です。GPT-4 はこれを読み取ることができますか? これは簡単なことだ。 たとえば、カタロニア語の医学書『薬用ミイラ』。 ChatGPT は文字起こしや翻訳も可能です。 UCSCの歴史学准教授ベンジャミン・ブリーンはこう語った。 これは歴史家にとって重要な意味を持つでしょう。特定の原稿セットでトレーニングされたカスタム マルチモーダル GPT-4 を想像してください。転記だけでなく、翻訳や分類も可能です。 (これがまさに、LLM を執筆に使用しないことが大きな問題であると私が考える理由です)。 チャートの要約も非常に良いグラフに基づいてデータを抽出するように GPT-4 に指示することもできます。 その後、チャートを複製し、チャートに似たものにするための Python コードを作成できます。 株価トレンドチャートを入力すると、特徴を分析してまとめることもできます。 画像認識「優れたIQ」GPT-4 に抽象的な画像を与えます。 この4枚の絵が表現したい「コミュニケーションの大切さ」という比喩を的確に捉えているのがすごい。 GPT-4Vは医師の手書き文字も読み取ることができます。 日本のネットユーザーの中には、「ドラゴンボール」の孫悟空を使ってChatGPTテストを受ける人もいました。 「あなたは人間ですか?」の認証コードもいろいろあります。 自分の作品の一部をアップロードすると、GPT-4 が改善の提案をしてくれます。 一部のネットユーザーは、GPT-4VがKosmos-1論文でこの質問に正しい答えを出したものの、推論プロセスに誤りがあったことを発見した。 この機能により、子供たちは宿題をする必要がなくなります。 ネットユーザーのまとめ上記の経験に加えて、一部のネットユーザーは、GPT-4V に関する独自のテストを紹介する長い記事を書きました。 テスト 1: 視覚的な質問応答 絵文字を与えて、GPT-4V がそれをどれだけ理解するか確認してみませんか? GPT-4V は、なぜそれが興味深いのかをうまく説明し、画像の構成要素とそれらの間のつながりについて言及しています。 特に、GPT-4V は、提供された括弧内のコメントをテキストを使用して読み取り、応答することができました。 それでも、GPT-4V はフライドチキンに「GPU」ではなく「NVIDIA BURGER」というラベルを付けるというミスを犯しました。 次に、米国の 1 セント硬貨の写真を使ってテストします。 GPT-4V は、硬貨の起源と額面を正確に特定することができました。 しかし、複数のコインの写真があり、GPT-4V に「お金はいくらあるか」と尋ねたらどうでしょうか? この時点では、コインの枚数を識別することしかできず、通貨の種類を判別することはできません。 テスト2: OCR認識 Webページからテキスト画像をキャプチャしてアップロードすることで、GPT-4Vはコンテンツを適切に読み取ることができます。 テスト3: 数学OCR Math OCR は、特に数式に焦点を当てた特殊な形式の光学文字認識です。 ネットユーザーはGPT-4Vに数学の問題を出し、それを文書のスクリーンショットの形で提示した。 この問題では、2 つの角度が与えられた場合にジップ ラインの長さを計算します。「解いてください」というプロンプトが画像上にあります。 このモデルは、三角測量を使用して解決できる問題を特定し、使用する関数を識別し、問題を解決する方法を段階的に示します。 GPT-4V は質問に対する正しい答えを提供します。 そうは言っても、GPT-4V システム カードには、モデルで数学記号が欠落する可能性があると記載されています。 紙に手書きで書かれた方程式や表現を使用するテストを含むさまざまなテストにより、モデルが数学の問題に答えられないことが示される場合があります。 テスト4: 物体検出 GPT-4V に画像内の犬を検出するように依頼し、犬の位置に関連付けられた x_min、y_min、x_max、y_max の値を提供すると、GPT-4V によって返される境界ボックスの座標は犬の位置と一致しません。 GPT-4V は画像に関する質問に答えるのに非常に強力ですが、画像内のオブジェクトがどこにあるかを知りたい場合に、オブジェクト検出モデルを微調整する代わりにはなりません。 テスト5: 検証コード GPT-4V は画像に CAPTCHA が含まれていることを認識できましたが、テストに失敗することが多いことがわかりました。 信号グリッドを選択する例では、GPT-4V は信号を含むグリッドをより少なく選択しました。 テスト6: クロスワードと数独 数独テストでは、GPT-4V はゲームを認識しましたが、ボードの構造を誤解したため、不正確な結果を返しました。 ちなみに、ChatGPT ネットワーキング機能が復活しました。 |
<<: GPT-4Vを試した後、マイクロソフトは166ページに及ぶ評価レポートを作成した。業界関係者:上級ユーザー必読
>>: DALL·E 3のベンチマーク!メタ最強の文豪エミュの技術レポートを公開
「未来の工場には、男性と犬の2人の従業員しかいないでしょう。男性は犬に餌を与え、犬は男性を監視して機...
最近では、新しいデータ処理技術に関して、さまざまな用語が飛び交っています。ある人は機械学習を使用して...
近年、人工知能技術は飛躍的な進歩を遂げ、戦闘指揮の分野で広く応用され、観察・判断・決定・行動(OOD...
近年、AI プロジェクトに対する組織の関心は着実に高まっています。調査会社ガートナーの調査によると、...
MITテクノロジーレビューは毎年、その年の「トップ10のブレークスルーテクノロジー」を選出していま...
[51CTO.com クイック翻訳]今日、プロセス自動化にはさまざまな形があります。また、ツールの...
翻訳者 | 朱 仙中校正 | 梁哲、孫淑娟導入この記事では、機械学習のインフラ、従業員、プロセスを統...
「私は、8年間誰も発見できなかった注目度の式のバグを発見しました。GPTやLLaMAを含むすべてのT...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
7月25日、杭州公安局は「杭州人妻殺害事件」について記者会見を開き、捜査結果を発表した。ネットユーザ...
私たちは前例のない危機を生きています。 COVID-19パンデミックの間、医療従事者は最前線のヒーロ...
[[248782]]量子コンピュータが実用化されるまでにはしばらく時間がかかるだろうが、国際的な暗号...
自撮り写真を他人が撮った写真に変えることもできます。魔法の写真編集の世界に新しいトリックが登場し、そ...
私たちは皆工学を勉強していますが、どの分野を選択すべきでしょうか?給与水準は、人々が将来のキャリアを...