Microsoft は、特定の限定されたテストにおいて人間の精度を上回る新しい画像キャプション作成アルゴリズムを開発しました。このAIシステムは、同社の視覚障害者向けアシスタントアプリ「Seeing AI」のアップデートに使用されており、近々Word、Outlook、PowerPointなど他のマイクロソフト製品にも組み込まれる予定だ。そこでは、アクセシビリティの向上に特に重要な機能である、画像の代替テキストの作成などのタスクに使用されます。 これらのアプリには、マイクロソフトが2017年に初めてリリースした同社独自の「Seeing AI」も含まれる。 Seeing AI は、コンピューター ビジョンを使用して、視覚障害者向けにスマートフォンのカメラを通して見た世界を説明します。家庭用品を識別したり、テキストを読み取ってスキャンしたり、場面を説明したり、さらには友人を認識したりすることもできます。また、電子メール クライアント、ソーシャル メディア アプリ、WhatsApp などのメッセージング アプリなど、他のアプリ内の画像を説明するためにも使用できます。 マイクロソフトはSeeing AIのユーザー数を公表していないが、Azure AIのコーポレートバイスプレジデントであるエリック・ボイド氏はThe Vergeに対し、このソフトウェアは「視覚障害者や弱視者向けの主要なアプリケーションの1つ」だと語った。 Seeing AI は、視覚障碍者および弱視者の iOS ユーザー向けコミュニティである AppleVis によって、3 年連続で最優秀アプリまたは最優秀支援アプリに選ばれました。 Microsoft の新しい画像キャプション アルゴリズムは、オブジェクトを識別するだけでなく、それらの間の関係をより正確に記述することで、Seeing AI のパフォーマンスを大幅に向上させます。したがって、アルゴリズムが写真を見ると、写真にどのようなアイテムやオブジェクトが含まれているか(「人、椅子、アコーディオン」など)だけでなく、それらの間の相互作用関係(「人が椅子に座ってアコーディオンを演奏している」など)も判断できます。マイクロソフト社によると、このアルゴリズムは同社が2015年から使用している従来の画像キャプションシステムよりも2倍高速だという。 9月に発表されたプレプリント論文で説明されているこのアルゴリズムは、「nocaps」として知られる画像キャプションのベンチマークでこれまでで最高のスコアを達成した。これは業界をリードする画像キャプション スコアリング ボードですが、独自の制限があります。 nocaps ベンチマークは、Open Images Dataset から抽出された約 15,100 枚の画像を説明する、166,000 を超える人間が生成したキャプションで構成されています。画像はスポーツから休日のスナップ、食べ物の写真など、さまざまなシーンをカバーしています。
|
>>: 「脳コンピューターインターフェースドレス」とはどのようなものでしょうか? 1024個の独立した電極、機械学習、カスタムチップ
AIを活用して企業業務の自動化プロセスを加速し、デジタルトランスフォーメーションや業務プロセスのアッ...
さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングは費用がかかり、困...
デジタル変革の結果、テクノロジーは長年にわたってどのように変化してきましたか?アクセンチュアが第 2...
人工知能と機械学習は現在では導入が容易であり、現在実行されている反復的なタスクやプロセスの多くを自動...
[51CTO.com からのオリジナル記事] 話者適応アルゴリズムは、少量の話者データを使用して、満...
認知科学、人工知能、言語学、哲学の研究者たちは、35年間にわたり、ニューラルネットワークが人間のよう...
7月20日、スタンフォード大学とカリフォルニア大学バークレー校の研究チームが最近GPT-4の詳細な研...
著者 | Tu Chengyeレビュー | Chonglou石炭、電力、化学などの多くの産業では、安...
人工知能の概念はますます普及しています。急速に発展する人工知能にとって、チェスの世界を席巻することは...
今日の量子コンピューティング デバイスをシミュレートする際の主な課題は、量子ビット間で発生する複雑な...
人工知能の今後の発展の見通し。中国の人工知能研究は爆発的な成長期にあり、人工知能産業の基礎条件は整っ...