マイクロソフトの新しい画像キャプションAIは、Word、Outlook、その他のソフトウェアのアクセシビリティ向上に役立ちます。

マイクロソフトの新しい画像キャプションAIは、Word、Outlook、その他のソフトウェアのアクセシビリティ向上に役立ちます。

Microsoft は、特定の限定されたテストにおいて人間の精度を上回る新しい画像キャプション作成アルゴリズムを開発しました。このAIシステムは、同社の視覚障害者向けアシスタントアプリ「Seeing AI」のアップデートに使用されており、近々Word、Outlook、PowerPointなど他のマイクロソフト製品にも組み込まれる予定だ。そこでは、アクセシビリティの向上に特に重要な機能である、画像の代替テキストの作成などのタスクに使用されます。

これらのアプリには、マイクロソフトが2017年に初めてリリースした同社独自の「Seeing AI」も含まれる。 Seeing AI は、コンピューター ビジョンを使用して、視覚障害者向けにスマートフォンのカメラを通して見た世界を説明します。家庭用品を識別したり、テキストを読み取ってスキャンしたり、場面を説明したり、さらには友人を認識したりすることもできます。また、電子メール クライアント、ソーシャル メディア アプリ、WhatsApp などのメッセージング アプリなど、他のアプリ内の画像を説明するためにも使用できます。

マイクロソフトはSeeing AIのユーザー数を公表していないが、Azure AIのコーポレートバイスプレジデントであるエリック・ボイド氏はThe Vergeに対し、このソフトウェアは「視覚障害者や弱視者向けの主要なアプリケーションの1つ」だと語った。 Seeing AI は、視覚障碍者および弱視者の iOS ユーザー向けコミュニティである AppleVis によって、3 年連続で最優秀アプリまたは最優秀支援アプリに選ばれました。

Microsoft の新しい画像キャプション アルゴリズムは、オブジェクトを識別するだけでなく、それらの間の関係をより正確に記述することで、Seeing AI のパフォーマンスを大幅に向上させます。したがって、アルゴリズムが写真を見ると、写真にどのようなアイテムやオブジェクトが含まれているか(「人、椅子、アコーディオン」など)だけでなく、それらの間の相互作用関係(「人が椅子に座ってアコーディオンを演奏している」など)も判断できます。マイクロソフト社によると、このアルゴリズムは同社が2015年から使用している従来の画像キャプションシステムよりも2倍高速だという。

9月に発表されたプレプリント論文で説明されているこのアルゴリズムは、「nocaps」として知られる画像キャプションのベンチマークでこれまでで最高のスコアを達成した。これは業界をリードする画像キャプション スコアリング ボードですが、独自の制限があります。 nocaps ベンチマークは、Open Images Dataset から抽出された約 15,100 枚の画像を説明する、166,000 を超える人間が生成したキャプションで構成されています。画像はスポーツから休日のスナップ、食べ物の写真など、さまざまなシーンをカバーしています。

[[346441]]

<<:  ML Ops: データ品質が鍵

>>:  「脳コンピューターインターフェースドレス」とはどのようなものでしょうか? 1024個の独立した電極、機械学習、カスタムチップ

ブログ    

推薦する

...

...

AI の成功にはなぜ知識管理が不可欠なのでしょうか?

AIに適切なコンテキストを提供することで、精度が向上し、幻覚が軽減されます。 AI が仕事に革命を...

...

Google 研究者: AI が優秀すぎて「ラインを落とした」

数日前、人工知能の分野でほとんどブラックユーモアとも言えるニュースが発表された。Google のエン...

...

顔認識は政治的立場を決定できるか?研究者:本当ですよ!正解率は72%にも達する

アメリカのテクノロジーウェブサイト「ベンチャービート」が1月12日に報じたところによると、米スタンフ...

VGG畳み込みニューラルネットワークモデル分析

1: VGGの紹介とモデル構造VGGはVisual Geometry Groupの略で、オックスフォ...

可視性プラットフォームがセキュリティ オペレーション センター (SOC) にとって重要な理由は何ですか?

ディスプレイ ソリューションは、今日のセキュリティ オペレーション センター (SOC) で必要な複...

AIが達成できること

半世紀にわたり、人工知能はコンピュータ開発の夢でしたが、常に手の届かないところにありました。しかし、...

ChatGPTとDALL·E 3間の業界用語が発見された

先月末、OpenAIは最新の画像ジェネレーターDALL・E 3をリリースしました。爆発的な生成効果も...

マイクロソフトはAIを活用して新しい電池材料を選別し、電池のリチウムの70%をナトリウムに置き換える

1 月 10 日、マイクロソフトの量子コンピューティング チームは、米国エネルギー省傘下のパシフィッ...

...

MITが世界の画期的な技術トップ10をランク付け、アリババはそのうち4つを研究中

2月22日のニュース:昨日、権威あるアメリカの科学雑誌「MITテクノロジーレビュー」は、2018年の...

PyGWalkerを使用して表形式のデータを視覚化および分析する

導入Jupyter Notebook に大量のデータがあり、それを分析して視覚化したいとします。 P...