視覚的なプロンプトを使用するとどのような感じでしょうか? 写真をランダムにフレームに入れるだけで、同じカテゴリが数秒で丸で囲まれます。 GPT-4Vでも米粒を数えるのは困難です。フレームを手動で引っ張るだけで、すべての米粒を見つけることができます。 物体検出の新しいパラダイムがここにあります! 先日終了した IDEA 年次会議において、IDEA 研究所の創設会長であり、米国工学アカデミーの外国人会員でもあるハリー・シャム氏が、最新の研究成果を発表しました。 Visual Prompt に基づいて T-Rex をモデル化します。 プロセス全体はインタラクティブですぐに使用でき、わずか数ステップで完了できます。 これまで、Meta のオープンソース SAM セグメンテーション モデルは、CV 分野における GPT-3 の瞬間を直接的に導きましたが、依然としてテキスト プロンプト パラダイムに基づいていたため、複雑でまれなシナリオに対処することが困難でした。 現在、この問題は画像を交換することで簡単に解決できます。 さらに、カンファレンス全体は、Think-on-Graph知識駆動型ビッグモデル、開発者プラットフォームMoonBit、AI科学研究成果物ReadPaperアップデート2.0、SPU機密コンピューティングコプロセッサ、制御可能なポートレートビデオ生成プラットフォームHiveNetなど、実用的な情報でいっぱいでした。 最後に、沈向陽氏は、過去数年間で最も多くの時間を費やしたプロジェクトである低高度経済についても話した。
視覚的なプロンプトを使用する基本的なシングルラウンドプロンプト機能に加えて、T-Rex は 3 つの高度なモードもサポートしています。
これは、より正確な結果を得て、検出漏れを回避するために、複数回の会話を繰り返すようなものです。
視覚的な手がかりが曖昧で誤検出を引き起こすシナリオに適用できます。 * クロスグラフモード。 単一の参照画像をヒントとして使用して、他の画像をテストします。 T-Rexは、事前に定義されたカテゴリに制限されず、視覚的な例を使用して検出対象を指定できると報告されています。これにより、一部のオブジェクトを言葉で完全に表現することが難しいという問題を克服し、プロンプトの効率が向上します。一部の産業シナリオでは特に複雑なコンポーネントです。 さらに、ユーザーとの対話を通じて、いつでもテスト結果を迅速に評価し、エラー修正を行うことができます。 T-Rex は主に、イメージ エンコーダー、ヒント エンコーダー、ボックス デコーダーの 3 つのコンポーネントで構成されています。 この研究は、IDEA 研究所のコンピューター ビジョンおよびロボティクス研究センターによるものです。 チームが以前にオープンソース化した物体検出モデル DINO は、COCO 物体検出リストで 1 位にランクされた最初の DETR モデルです。ゼロショット検出器 Grounding DINO はGithub で非常に人気があり (現在までに 11,000 個のスターを獲得) 、Grounded SAM はすべてを検出してセグメント化できます。より技術的な詳細については、記事の最後にあるリンクをクリックしてください。 会議全体が実用的な情報でいっぱいですさらに、IDEAカンファレンスではいくつかの研究成果も共有されました。 たとえば、 Think-on-Graph 知識駆動型ビッグモデルは、簡単に言えば、ビッグモデルとナレッジグラフを組み合わせたものです。 大規模モデルは意図の理解と自律学習に優れていますが、ナレッジグラフは構造化された知識保存方法により論理チェーン推論に優れています。 Think-on-Graph は、大規模なモデル エージェントをナレッジ グラフ上で「考える」ように促し、徐々に最適な答えを検索して推論します (ナレッジ グラフの関連エンティティを段階的に検索して推論します)。推論のあらゆるステップにおいて、ビッグモデルが個人的に関与し、知識グラフを補完します。 MoonBitは、Wasm を基盤とし、クラウド コンピューティングとエッジ コンピューティング向けに設計された開発者プラットフォームです。 一般的なプログラミング言語設計を提供するだけでなく、コンパイラ、ビルド システム、統合開発環境 (IDE)、デプロイメント ツール、その他のモジュールを統合して、開発エクスペリエンスと効率を向上させます。 以前リリースされた科学研究ツール「ReadPaper」も2.0にアップデート。記者会見では、リーディング・コパイロットやポリッシング・コパイロットなどの新機能が披露された。 記者会見の最後に、沈向陽は「低高度経済発展白書(2.0)-完全デジタルソリューション」を発表し、スマート統合低空域システム(SILAS)における時空間プロセスの新しい概念を提案した。 T-Rex リンク: |
>>: OpenAI の謎の Q* は人類を滅ぼすのか?人気の「Q*仮説」は実際には世界モデルにつながり、インターネット上のAI専門家は長い記事で熱く議論してきました。
AIの助けを借りれば、月に10万元、年に100万元稼ぐことができます。想像できますか?信じないでく...
人工知能 (AI) と機械学習 (ML) が組織全体に導入されるケースが増えるにつれ、最も大きなビジ...
[[257117]] [51CTO.com クイック翻訳] 今日では、携帯電話の写真ストリーム認識...
この間、ゴミの分別に関するミニプログラムやアプリの登場により、画像認識が再び人々の注目を集めています...
1年間の開発を経て、人工知能の技術とアプリケーションは、特に通信業界で徐々に爆発的に増加しました。 ...
編集者 | イーフェン制作:51CTO テクノロジースタック(WeChat ID:blog)大きな続...
二足歩行ロボットは高価で複雑、そして壊れやすい。バランスという観点で言えば、二足歩行は四足歩行よりは...
著者: ラセル・コーン編纂者:ヤン・ジェンChatGPT のような大規模言語モデル (LLM) は ...
最近、インペリアル・カレッジ・ロンドンの研究チームは、画像の内容を変えずに画像内容をスキャンするアル...
馬文華氏は、中国科学院自動化研究所でパターン認識と人工知能の博士号を取得しました。主に画像認識、ター...
高速ロボット動作の分野では、速度と安全性の両立が常に大きな課題となっています。しかし今、カーネギーメ...