CTOは「大きな衝撃を受けた」:GPT-4Vの自動運転テストを5回連続で実施

CTOは「大きな衝撃を受けた」:GPT-4Vの自動運転テストを5回連続で実施

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

皆様の注目の下、GPT4 は本日ついに視覚関連の機能をリリースしました。

今日の午後、私は友人たちと一緒に GPT の画像認識機能をテストする機会を得ました。予想はしていましたが、それでも大きな衝撃を受けました。

中核となるアイデア:

自動運転における意味関連の問題は大規模モデルによって十分に解決されているはずだが、大規模モデルの信頼性と空間認識能力はまだ不十分であると思う。

効率性に関するいわゆるコーナーケースを解決するには十分すぎるはずですが、大型モデルに完全に依存して運転を自立的に完了し、安全性を確保するにはまだ長い道のりがあります。

例1: 道路上に未知の障害物が現れた

△ GPT4の説明

正確な部分:3台のトラックが検出され、前方車両のナンバープレートの番号は基本的に正確であり(漢字は無視)、天候と環境は正確であり、前方の未知の障害物はプロンプトなしで正確に識別されました

不正確な部分: 3 台目のトラックの位置が左右の区別がつかず、2 台目のトラック上部のテキストがランダムな推測になっています (解像度が不十分なため?)。

これだけじゃ十分ではありません。引き続きヒントを与え、この物体が何なのか、そして押すことができるのかどうかを尋ねます。

印象的な!同様のシナリオをいくつかテストしましたが、未知の障害物に対するパフォーマンスは驚くべきものでした。

例2: 道路冠水に関する理解

何も指示しなくても自動的に標識を認識できることは基本的な操作です。引き続きヒントをいくつか提供しましょう。

またショックを受けました。 。 。トラックの後ろの霧と水たまりについては自動的に言及できましたが、方向はやはり左と示されました。 。 。 GPT が位置と方向をより適切に出力できるようにするには、ここで迅速なエンジニアリングが必要になる可能性があると感じています。

例3: 車両が方向転換してガードレールに衝突した

最初のフレームが入力されると、タイミング情報がないため、右側のトラックは単に駐車されているとみなされます。ここに別のフレームがあります:

この車がガードレールを突き破って道路の端に浮かんでいるのがすぐにわかります。すごいですね。 。 。しかし、簡単に思えた道路標識は間違っていました。 。 。これは巨大なモデルだとしか言えません。常に衝撃を与え、いつ涙を流すことになるか分かりません。 。 。別のフレーム:

今回、彼は道路上の瓦礫について直接話し、改めて驚いていました。 。 。ただ一度だけ、道路の矢印を読み間違えただけなんです。 。 。全体的に、このシーンで特に注意が必要な情報は網羅されており、道路標識の問題は欠陥によって上回られることはありません。

例4: 面白い例をやってみよう

非常によくできているとしか言いようがありません。それに比べると、以前は非常に難しかった「誰かがあなたに手を振った」というケースは、今では子供の遊びのように簡単です。これは、セマンティックコーナーケースで解決できます。

例5 有名なシーンを見てみましょう。 。 。配送トラックが誤って新しい道路に入る

私は当初は比較的保守的だったので、原因を直接推測することはしませんでした。代わりに、アライメントの目標に沿って複数の推測をしました。

CoT を使用した後、問題は車が自動運転車であることを知らなかったことであり、プロンプトを通じてこの情報を提供することでより正確な情報を提供できることがわかりました。

最後に、一連のプロンプトを通じて、新しく舗装されたアスファルトは運転に適していないという結論を出力できます。最終結果は問題ありませんが、プロセスはかなり複雑で、より迅速なエンジニアリングと慎重な設計が必要です。

これは、写真が最初の視点からのものではなく、3 番目の視点からのみ推測できるためであると考えられます。したがって、この例はあまり正確ではありません。

要約する

いくつかの簡単な試みにより、GPT4V のパワーと一般化パフォーマンスが完全に実証されました。適切なプロンプトにより、GPT4V の強みを完全に実証できるはずです。

意味上のコーナーケースを解決することは非常に有望ですが、セキュリティ関連のシナリオでは、幻覚の問題が依然として一部のアプリケーションに影響を及ぼすことになります。

とても楽しみです。このような大規模なモデルを合理的に使用することで、L4、さらにはL5の自動運転の開発が大幅に加速されると個人的には思っています。しかし、LLMは直接運転する必要がありますか?特にエンドツーエンドの運転は依然として議論の余地のある問題です。

<<:  21 歳の SpaceX インターンが AI を使って大規模な考古学的事件を解決し、4 万ドルを獲得しました。

>>: 

ブログ    

推薦する

ドローンは諸刃の剣でしょうか?それでは5Gを追加した後をご覧ください!

「ドローンは諸刃の剣だ」とよく言われます。なぜなら、一方ではドローンの大きな応用価値が私たちの生産...

Pika 1.0 はアニメーション業界に完全な革命をもたらします!ドリームワークスの創設者は、3年後にはアニメーションのコストが10分の1に下がると予測

最近、ドリームワークスの創設者ジェフリー・カッツェンバーグ氏は、生成AIの技術がメディアとエンターテ...

2021年の機械学習ライフサイクル

機械学習プロジェクトを実際に完了するにはどうすればよいでしょうか? 各ステップを支援するツールにはど...

AIとスマート信号機が通勤を変えるかもしれない

世界的なパンデミックの影響で、世界各地でロックダウンが実施されたことにより、街の交通量は減少し、地域...

ちょうど今、人工知能に関する大きなニュースが発表されました

中国における人工知能熱の高まりは、テクノロジーとビジネスによって推進されているだけでなく、政府の推進...

今後10年間の主要な投資の方向性を予測して、あなたは未来に向けて準備ができていますか?

古代から今日のモバイルインターネット時代に至るまで、人類の誕生以来、世界に影響を与えてきたあらゆる破...

...

Pytorch の最も重要な 9 つの操作! ! !

今日は、pytorch についてお話します。今日は、9 つ​​の最も重要な pytorch 操作をま...

Apple iPhone 15の発表イベントではAI機能に焦点が当てられたが、AI技術についてはほとんど語られなかった

9月13日北京時間午前1時に行われたアップルの秋季製品発表イベントで、アップルの広報担当者はAI技術...

...

チャットボットを作りたいですか?まず100通の遺書をすべて読む

[51CTO.com オリジナル記事]デリケートな状況にうまく対処するために、AI は絶望の言語につ...

清華大学が世界初のオンチップ学習メモリスタメモリコンピューティング統合チップを開発、その成果がサイエンス誌に掲載された。

10月9日、清華大学の公式Weiboアカウントは、オンチップ学習をサポートする世界初のメモリスタス...

医学と人工知能が出会うとき、将来の医学の5つの主要なトレンドを知っておく必要があります

[[257227]] 2015年、映画『ベイマックス』は多くの人々の心を動かし、『ベイマックス』とい...

...

AIアルゴリズムは携帯電話の画像プロセッサを置き換え、携帯電話で一眼レフのような写真を撮ることができる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...