GPT-4V は驚くべきマルチモーダル機能を備えています。数式のスクリーンショットが直接コードを出力、「ドラゴンと魔法の世界」が瞬時に生成され、OpenAI社長が興奮して転送

GPT-4V は驚くべきマルチモーダル機能を備えています。数式のスクリーンショットが直接コードを出力、「ドラゴンと魔法の世界」が瞬時に生成され、OpenAI社長が興奮して転送

最近、GPT-4 は静かに更新され、マルチモーダル性や音声対話などの機能が追加されました。

しかし、OpenAI がリリースする新機能のすべてが外部から驚嘆の波を引き起こした今年の初めと比較すると、現在、GPT-4 の声ははるかに小さくなっているようです。

OpenAI は、自社の製品発表が派手すぎるため、監視や訴訟が絶えないのではないかと心配しているのかどうかは分かりません。3 週間前に Vincent グラフ モデル DALL-E 3 を更新した以外は、GPT-4 のリリースから 7 か月間、新製品や新機能を公式にリリースしていません。

しかし、OpenAIの社長であるグレッグ・ブロックマン氏自身が、GPT-4の新バージョンを使用して実現されたさまざまな想像力豊かな機能をX(Twitter)でリツイートし続けました。

GPT-4V のマルチモーダル機能とコーディング機能を活用することで、本に書かれた数式を Python コードに直接変換できます。

GPT-4 の最近アップデートされた音声機能を活用して、ビジネス交渉のコーチとしてシミュレーション演習を行う人も出始めています。

この投稿のすぐ下に、インペリアル・カレッジ・ビジネス・スクールの学習デザイナーが、MBA 向けのトレーニング コースの設計に GPT-4 の音声機能を使い始めたというメッセージを残しました。

ChatGPT に統合された DALLE 3 を使用して、ゲーム デザイナー向けの世界観とオリジナルの図面を生成します。

ほんの数行のプロンプトで、ドラゴンの世界のテキスト説明とオリジナルスタイルの写真が表示されます。

DALLE 3 を直接使用して、必要な GIF ファイルを生成します。

トウモロコシの粒がポップコーンになる仕組み。

踊る犬。

GPT-4 を使用してこの一連の機能を完了する方法を見てみましょう。

GPT-4 総合科学版

ネットユーザーは、スクリーンショットを撮るだけで、ほぼすべての数式を GPT-4 を通じて Python コードに変換できることを発見しました。

もちろん、モデルにはまだ幻覚が含まれている可能性があるため、すべての結果をそのまま使用することはできず、エラーや漏れがないか慎重にチェックする必要があります。

たとえば、スクリーンショットのコードの 6 行目では、「d_hat(i, j)」は「d_hat(i)」にする必要があります。

いくつかの小さなエラーはあるものの、ネットユーザーたちはこの機能に非常に高い評価を与えました。

MITの博士号を持ち、AIスタートアップの創設者でもある彼は、追加のコンテキストがなければGPT-4は機能を認識できないが、何をしているのかは分かっていると主張している…かなりすごいことだ。

金融 AI ツールを構築した別の開発者は、このユースケースは素晴らしいと述べました。想像の余地は無限にあります。

そして彼は 2 つの具体的な使用例を挙げました。

  1. 研究論文内の複雑な数式をスクリーンショットし、ローカルですぐに実行できます。

2. スクリーンショット(何でも)を撮り、GPT に UI を実装するコードを生成させることができます。

同様に数式だけでなく分子式も直接読み取り、調製方法を直接出力することもできます。

ヘッドフォンの設計図を入力すると、デバイスを組み立てるための大まかな手順が表示されます。

GPT-4V の優れたマルチモダリティ サポートと、そのエンコード機能および豊富な知識を組み合わせることで、ほぼ無限の使用シナリオを作成できます。

いくつかのヒントでドラゴンと魔法の世界が生まれます

別のネットユーザーは、ChatGPTを通じてドラゴンに関連したファンタジーの世界を作成するプロセスを共有しました。

GPT-4 は、ドラゴン関連の概念、解剖学的構造、さらにはドラゴンの生息地を生成します。

ドラゴンの頭のクローズアップ。

ドラゴンの骨格と解剖学。

ドラゴンの生息環境の原画や説明も掲載されています。

まず、必要な画像スタイルを指定する必要があります。

著者は技術的なインフォグラフィック スタイルのアートを望んでいたため、非常に平易な英語の説明であるこのプロンプトを使用しました。

「ドラゴンの技術エンジニアによる図面を、各パーツのラベル付きで生成してもらえますか? ワイドアスペクト比を使用してください:」

以下の結果が得られます。

次に、ドラゴンの頭のクローズアップを作成します。

次に、生息地のコンセプトアートと説明を作成してもらいます。

満足できない場合は、要件をさらに絞り込み、GPT-4 で要件を満たします。

ゲーム デザイナーとして、ドラゴンに関連するシーンをデザインしたい場合は、すぐに作業を開始して、使用可能な結果を​​生み出すことができます。

別のネットユーザーは、この使用例からインスピレーションを得て、サフランに関連した紹介を作成しました。

「サフランのさまざまな部分のラベルが付いた、技術エンジニア向けの図面を生成してもらえますか? ワイドアスペクト比を使用してください。」

このプロンプトワードを使用して、サフランの構造図が生成されました。

サフランの花束のクローズアップに再生されました。 「サフランの茎のクローズアップをワイドアスペクト比で生成できますか?」

サフラン畑の遠景。 「サフラン畑の航空写真をワイドアスペクト比で生成してください。」

最後に、サフランの断面が生成されました。 「ワイドアスペクト比でのサフランの糸の解剖図。」

非常に複雑な潜水艦の構造図です!

ガンダムの構造の概略図。

頭部の詳細図。

足の詳細図。

武器の構造図。

パン焼き機の非常に詳細な図。

ネットユーザーらは「全然止められない」とコメントした。


<<: 

>>:  マイクロソフトとスタンフォード大学の新アルゴリズムがAIによる人類絶滅のリスクを排除! GPT-4の自己反復、プロセスは制御可能かつ説明可能

推薦する

C# モザイク アルゴリズムの実装

視聴者の要望に応えて、今日は C# モザイク アルゴリズムの実装についてお話します。古いルール、理解...

...

AIを活用して産業データの価値を見出す

すべての業界に共通するものが 1 つあります。それは、大量のデータです。データ量は、個人用デバイス、...

Googleのエンジニアリングディレクターがアルゴリズム改善の背後にある数字を明らかに

Google は検索の問題を解決したと多くの人が考えていますが、Google の観点から見ると、検索...

2021年チューリング賞発表:高性能コンピューティングの先駆者であり、TOP500スーパーコンピューティングリストの共同創設者であるジャック・ドンガラが受賞

丸一日待った後、ついに答えが明らかになりました!先ほど、2021年のチューリング賞が発表されました。...

...

自己教師学習の効率限界を突破! Ma Yi と LeCun が共同で EMP-SSL をリリース: 特別なトリックは不要、30 エポックで SOTA を達成可能

過去数年間、教師なし学習と自己教師あり学習 (SSL) は大きな進歩を遂げてきました。SSL を通じ...

...

人工知能の継続的な発展により、ロボットが人間に取って代わり、あらゆる労働を行うようになるのでしょうか?

[[385749]]写真はロボット最近、メディアの報道によると、人類の生存を脅かすと言われる米国の...

...

...

生成型人工知能とは何かについて話しましょう

ジェネレーティブ AI は、これまでビジネス パーソンに依存していたモデルをアルゴリズム担当者が生成...

GPT-4が「愚か」になったと誰もが不満を言っていますが、これはアーキテクチャの再設計が原因かもしれません。

OpenAI が GPT-4 を最初にリリースしてから約 4 か月が経ちました。しかし、時間が経つ...

...

人工知能時代に対応するための知識と技術の蓄積を向上させる

記者がインタビューした専門家によると、人工知能などの知能化技術の応用が加速するにつれ、雇用への構造的...