レノボとブラジルのイノベーションセンターCESARは、聴覚障害者が手話を理解できるように人工知能を活用している。

レノボとブラジルのイノベーションセンターCESARは、聴覚障害者が手話を理解できるように人工知能を活用している。

レノボとブラジルのレシフェにある先端研究システムセンター(CESAR)は、聴覚障害者向けに手話を「翻訳」できる人工知能(AI)ベースのアプリケーションを開発した。

ブラジル地理統計研究所(IBGE)によると、ブラジルでは230万人以上が重度の難聴によりコミュニケーションに困難を抱えており、ブラジル手話(Libra)とポルトガル手話(LGP)を方言として使用しているほか、いくつかの地方手話も使用している。課題の規模と複雑さから、Lenovo は 400 万ドルを超える投資による 5 年間の研究開発プロジェクトを開始しました。

レノボと CESAR は、数千本のブラジル手話ビデオのデータベースを使用して、個々のジェスチャーを視覚的に認識し、それを文脈に沿って配置できる特許取得済みの AI テクノロジーを開発しました。 CESAR と Lenovo は、この取り組みは世界初であり、幅広い応用の可能性があると説明しています。

「オンライン翻訳が書き言葉に与えた影響よりも、こうした人々に与える影響の方が大きいと私たちは考えています」とレノボ・ブラジルの研究開発ディレクター、ヒルデブランド・リマ氏はフォーブス誌に語った。

「オンライン翻訳が登場する以前にもオンライン辞書はあったが、記号を理解する上で多くの人が直面する困難さには対処していなかった。時には練習不足や学習教材や講師の不足が原因となることもある」とリマ氏は指摘し、こうした障壁が完全に解消されれば技術は崩壊すると付け加えた。

リアルタイムのチャット翻訳ツールにより、聴覚障害者はデバイスのカメラにサインインすることができ、その後、アルゴリズムによって即座にポルトガル語のテキストに翻訳され、相手側に届けられる。 AI とそれに付随するデータベースは、各ジェスチャーを個別に翻訳するのではなく、手の輪郭と、最も重要な、手話者の骨格のデジタルピボットポイントを分析することで手の形を認識します。これらの動きを正確に処理することで、アルゴリズムは文の構造を認識し、それをポルトガル語のテキストに変換することができます。

このシステムは、GPT-3 などのモデルに類似したアーキテクチャを持つディープラーニング ニューラル ネットワークに基づいており、ポルトガル語からブラジル手話への翻訳と認識に使用され、リアルタイムの手話翻訳を可能にします。手話ビデオを生成するために、研究グループは生成的敵対的ネットワーク (GAN) モデルを使用して合成通訳者 (人間のようなアバター) を作成しました。

しかし、アプリケーションの複雑さにより、多数のタスクを自動化するための人工知能システムの開発が必要になると、CESARのシニアテクニカルデータサイエンティストマネージャーであるVitor Casadei氏は述べた。 「例えば、チームが作成したコンピュータービジョンシステムは、トレーニングデータベース(標識認識モデルのトレーニングに使用される記録)の作成を容易にしました」と幹部は指摘した。

聴覚障害の専門家 5 名を含む 80 名のチームがこのプロジェクトと、このシステムがサービスを提供するコミュニティに関わりました。 「チーム内の聴覚障害者の専門家に加えて、難聴者コミュニティの参加がプロジェクトにとって重要でした」とカサデイ氏は述べ、数十人の聴覚障害者がこのツールの設計、検証、テストのプロセスに関わったと付け加えた。

世界的な重要性

レノボの計画は、異なる手話間の共通性を活用して学習プロセスをスピードアップする特許出願中の手順を使用して、このシステムの使用を世界中の他の手話に拡大することです。

「いくつかの研究で、手話には音声言語との共通点があることがわかっています。私たちはこの事実を考慮した技術を開発し、ブラジル手話のトレーニングから学んだことを他の手話の学習を加速するために活用することができ、非常に有望な結果が得られました」とCESARのカサデイ氏は語った。

レノボのリマ氏は、ラテンアメリカと米国を皮切りに、2024/25年までにこのプロジェクトを国際市場に拡大する計画があると述べた。 「(米国での)ユースケースのニーズは非常に似ていると考えている」と幹部は語った。

当初は銀行や小売などの分野に重点を置いていますが、最終的な目標は、仮想、物理、ハイブリッドを問わず、あらゆる公共サービス環境にアプリケーションを展開することです。さらに、Lenovo は、聴覚障害者向けソリューションの開発をさらに促進するために、開発者コミュニティにソフトウェア開発キット (SDK) を提供する予定です。

プライバシーもプロジェクト開発プロセス全体を通じて重要な問題でした。記録保持者から検証およびテストに携わる者まで、すべての参加者は、ブラジルの一般データ保護規則(LGPD)に準拠して、自分の貢献を研究に使用することを許可する文書に署名しました。

CESARのカサデイ氏によると、ユーザーのプライバシーを保護するため、モデルは手の形や体の動きなどのランドマークを認識するための基本的なデータのみをカメラから取得するように設計されているという。 「このデータセットから特定の個人を特定することはできないため、ユーザーのプライバシーを尊重しながらGDPRに準拠することができます」と幹部は指摘した。

このツールは、より多くの人々が使用するにつれて、改善され続けます。これらの演習では、ランドマーク レコードを継続的に追加し、ユーザーからのフィードバックを収集し、アプリケーションの調整プロセスを改善します。 「チームはアクティブラーニング(ディスカッション、問題解決、ロールプレイングを通じて学生がインタラクティブに学習できる教育方法)の実験も開始しており、まだやるべきことはたくさんあるものの、有望な結果が得られています」とCESARのCEOは語った。

CESAR と Lenovo は、特に手話の指導において、このツールの教育における可能性も模索しています。両社はこの分野でいくつかの特許を申請しており、現在審査中です。手話「翻訳機」には現在、話すことはできるが耳が聞こえないユーザーのための音声認識機能は含まれていませんが、これは将来の開発に向けて現在議論されているトピックです。

最終的に、このシステムは、聴覚障害者が単なる受信者ではなくコミュニケーションの担い手として積極的に参加することを促進し、既存の障壁を打ち破り、より包括的な社会を推進することを目指しています。 「この技術が健聴者と難聴者の間の交流に革命をもたらすと確信しています」とリマ氏は結論付けた。

<<:  日常の問題を自動的に解決する 5 つの AI API

>>:  ガートナーの調査によると、ジェネレーティブAIは企業にとって新たな大きなリスクとなっている

ブログ    
ブログ    

推薦する

...

機器の検査に手作業が必要な人はいますか? AIの活用

著者 | Tu Chengyeレビュー | Chonglou前の記事:「人材が足りないのではなく、A...

来年1月1日からAIフェイク動画は自由に公開できなくなる

新しいルールが登場します。 今回公布された「オンライン音声・動画情報サービス管理規則」では、ディープ...

Google はなぜいつも AI に芸術を強制するのでしょうか?

Google の人工知能といえば、チェスマシンの AlphaGo や Waymo の自動運転車を思...

イノベーションを統合し、障壁を下げ、PaddlePaddleは人工知能を推進して大規模な工業生産を実現します。

5月20日、中国国家深層学習技術応用工程研究室と百度が共催する「WAVE SUMMIT 2021 ...

金融業界における AI とビッグデータのトップ 10 トレンド

今日では、人々の仕事や生活のあらゆる側面がテクノロジーによって支援されています。人工知能はそのような...

ロボット開発で人気の言語:不滅のJava、不滅のC/C++、そして新興のPython

プログラミング言語は流行ったり廃れたりするものですが、Java と C/C++ は変わりません。 [...

GAFT: Python で実装された遺伝的アルゴリズム フレームワーク

序文最近、遺伝的アルゴリズムを使用していくつかのことを最適化する必要があります。当初は、最適化のため...

エンジニアリングチームでよく使用される 6 つの AI ツール

アレックス・オメイヤー翻訳者 | 陳俊レビュー | Chonglou人工知能(AI)の急速な進化と発...

さあ、アルゴリズムの複雑さをもう一度理解しましょう!

[[346356]] 0. はじめにみなさんこんにちは。私は、複数選択パラメータのプログラマーポッ...

GPT-4Vの自動運転への応用の見通しは?現実世界のシナリオの包括的な評価はここにあります

GPT-4V のリリースにより、多くのコンピューター ビジョン (CV) アプリケーションに新たな可...

データベース設計: MySQL フィールド名がキーワードと衝突するのを防ぎ、データの整合性を保護します。

MySQL は広く使用されているリレーショナル データベース管理システムです。データベース設計では...

...

ジェネレーティブ AI がデータ センターの要件をどのように変えるか

データ センターとは何ですか。どのように使用しますか。具体的には、データ センターにはどのような種類...

Gen-2 は AI 生成ビデオに革命をもたらします。一言で4K高画質映画が作れる。ネットユーザー「ゲームのルールを完全に変えた」

これは間違いなく、生成 AI の進歩における画期的な出来事です。深夜、Runway の象徴的な AI...