GPT-4V は驚くべきマルチモーダル機能を備えています。数式のスクリーンショットが直接コードを出力、「ドラゴンと魔法の世界」が瞬時に生成され、OpenAI社長が興奮して転送

GPT-4V は驚くべきマルチモーダル機能を備えています。数式のスクリーンショットが直接コードを出力、「ドラゴンと魔法の世界」が瞬時に生成され、OpenAI社長が興奮して転送

最近、GPT-4 は静かに更新され、マルチモーダル性や音声対話などの機能が追加されました。

しかし、OpenAI がリリースする新機能のすべてが外部から驚嘆の波を引き起こした今年の初めと比較すると、現在、GPT-4 の声ははるかに小さくなっているようです。

OpenAI は、自社の製品発表が派手すぎるため、監視や訴訟が絶えないのではないかと心配しているのかどうかは分かりません。3 週間前に Vincent グラフ モデル DALL-E 3 を更新した以外は、GPT-4 のリリースから 7 か月間、新製品や新機能を公式にリリースしていません。

しかし、OpenAIの社長であるグレッグ・ブロックマン氏自身が、GPT-4の新バージョンを使用して実現されたさまざまな想像力豊かな機能をX(Twitter)でリツイートし続けました。

GPT-4V のマルチモーダル機能とコーディング機能を活用することで、本に書かれた数式を Python コードに直接変換できます。

GPT-4 の最近アップデートされた音声機能を活用して、ビジネス交渉のコーチとしてシミュレーション演習を行う人も出始めています。

この投稿のすぐ下に、インペリアル・カレッジ・ビジネス・スクールの学習デザイナーが、MBA 向けのトレーニング コースの設計に GPT-4 の音声機能を使い始めたというメッセージを残しました。

ChatGPT に統合された DALLE 3 を使用して、ゲーム デザイナー向けの世界観とオリジナルの図面を生成します。

ほんの数行のプロンプトで、ドラゴンの世界のテキスト説明とオリジナルスタイルの写真が表示されます。

DALLE 3 を直接使用して、必要な GIF ファイルを生成します。

トウモロコシの粒がポップコーンになる仕組み。

踊る犬。

GPT-4 を使用してこの一連の機能を完了する方法を見てみましょう。

GPT-4 総合科学版

ネットユーザーは、スクリーンショットを撮るだけで、ほぼすべての数式を GPT-4 を通じて Python コードに変換できることを発見しました。

もちろん、モデルにはまだ幻覚が含まれている可能性があるため、すべての結果をそのまま使用することはできず、エラーや漏れがないか慎重にチェックする必要があります。

たとえば、スクリーンショットのコードの 6 行目では、「d_hat(i, j)」は「d_hat(i)」にする必要があります。

いくつかの小さなエラーはあるものの、ネットユーザーたちはこの機能に非常に高い評価を与えました。

MITの博士号を持ち、AIスタートアップの創設者でもある彼は、追加のコンテキストがなければGPT-4は機能を認識できないが、何をしているのかは分かっていると主張している…かなりすごいことだ。

金融 AI ツールを構築した別の開発者は、このユースケースは素晴らしいと述べました。想像の余地は無限にあります。

そして彼は 2 つの具体的な使用例を挙げました。

  1. 研究論文内の複雑な数式をスクリーンショットし、ローカルですぐに実行できます。

2. スクリーンショット(何でも)を撮り、GPT に UI を実装するコードを生成させることができます。

同様に数式だけでなく分子式も直接読み取り、調製方法を直接出力することもできます。

ヘッドフォンの設計図を入力すると、デバイスを組み立てるための大まかな手順が表示されます。

GPT-4V の優れたマルチモダリティ サポートと、そのエンコード機能および豊富な知識を組み合わせることで、ほぼ無限の使用シナリオを作成できます。

いくつかのヒントでドラゴンと魔法の世界が生まれます

別のネットユーザーは、ChatGPTを通じてドラゴンに関連したファンタジーの世界を作成するプロセスを共有しました。

GPT-4 は、ドラゴン関連の概念、解剖学的構造、さらにはドラゴンの生息地を生成します。

ドラゴンの頭のクローズアップ。

ドラゴンの骨格と解剖学。

ドラゴンの生息環境の原画や説明も掲載されています。

まず、必要な画像スタイルを指定する必要があります。

著者は技術的なインフォグラフィック スタイルのアートを望んでいたため、非常に平易な英語の説明であるこのプロンプトを使用しました。

「ドラゴンの技術エンジニアによる図面を、各パーツのラベル付きで生成してもらえますか? ワイドアスペクト比を使用してください:」

以下の結果が得られます。

次に、ドラゴンの頭のクローズアップを作成します。

次に、生息地のコンセプトアートと説明を作成してもらいます。

満足できない場合は、要件をさらに絞り込み、GPT-4 で要件を満たします。

ゲーム デザイナーとして、ドラゴンに関連するシーンをデザインしたい場合は、すぐに作業を開始して、使用可能な結果を​​生み出すことができます。

別のネットユーザーは、この使用例からインスピレーションを得て、サフランに関連した紹介を作成しました。

「サフランのさまざまな部分のラベルが付いた、技術エンジニア向けの図面を生成してもらえますか? ワイドアスペクト比を使用してください。」

このプロンプトワードを使用して、サフランの構造図が生成されました。

サフランの花束のクローズアップに再生されました。 「サフランの茎のクローズアップをワイドアスペクト比で生成できますか?」

サフラン畑の遠景。 「サフラン畑の航空写真をワイドアスペクト比で生成してください。」

最後に、サフランの断面が生成されました。 「ワイドアスペクト比でのサフランの糸の解剖図。」

非常に複雑な潜水艦の構造図です!

ガンダムの構造の概略図。

頭部の詳細図。

足の詳細図。

武器の構造図。

パン焼き機の非常に詳細な図。

ネットユーザーらは「全然止められない」とコメントした。


<<: 

>>:  マイクロソフトとスタンフォード大学の新アルゴリズムがAIによる人類絶滅のリスクを排除! GPT-4の自己反復、プロセスは制御可能かつ説明可能

ブログ    

推薦する

...

原子力 + AI: 原子力技術の未来を創造するのか?

近年、原子力技術と人工知能(AI)の融合により、原子力AIと呼ばれる強力な相乗効果が生み出されていま...

ビル・ゲイツがダボス会議でAIについて語る: プログラマーはAIを使って生産性を50%向上させた

ダボスで開催された世界経済フォーラムで、マイクロソフトの元社長兼CEOのビル・ゲイツ氏が、ヤフー・フ...

仕事の脅威? AIはマーケティング担当者の仕事を奪うのでしょうか?

先週、コピーライターのパネルがAIによってコピーライターの必要性がなくなるかどうかを議論した。一部の...

ArcSoft Open Platformの新しいアルゴリズムは、顔認識セグメンテーションのシナリオの拡張に役立ちます

ArcSoft ビジュアルオープンプラットフォームであるArcFace 3.0の発売以来、アルゴリ...

中国の優秀な人工知能人材の70%が米国に奪われた

昨年、Xiaomi がジョンズ・ホプキンス大学の人工知能の専門家であるダニエル・ポービー氏を採用した...

2019 年の JavaScript 向け機械学習ライブラリ トップ 6

通常、機械学習 (ML) の方法とアルゴリズムは、Python または R の 2 つのプログラミン...

ロボットが高齢者の在宅生活を変える

ほとんどの人がロボットについて考えるとき、映画に出てくる歩くロボット、掃除機、産業用ロボットなどを想...

気候変動との戦い: AIはエネルギーソリューションをリードできる

AI と機械学習をエネルギーと組み合わせることで、再生可能エネルギーの導入を加速することができます。...

...

大規模言語モデルの最大のボトルネック:レート制限

マット・アセイ企画 | ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:bl...

AIGCとアップグレードにより、PC販売は2024年に8%回復する可能性がある

Canalysのアナリスト、ベン・キャディ氏とキーレン・ジェソップ氏は最近、一部の消費者が新世代のP...

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS....

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...

賢い負荷分散アルゴリズム: 頭を使って

負荷分散技術は現在ではどこにでもありますが、基本的にはまだ使用段階であり、その核心は十分に理解されて...

人工知能が製造業を改善する3つの方法

製造業者は、AI を、適切に機能するために会社全体にわたるエンドツーエンドのシステムを必要とする、非...