YOLOv5の魔法:手話を学び、聴覚障害者を支援する

YOLOv5の魔法:手話を学び、聴覚障害者を支援する

コンピュータービジョンはアメリカ手話を学習して聴覚障害者を助けることができるでしょうか?データサイエンティストの David Lee 氏は、プロジェクトを通じてその答えを示しました。

聞こえなかったらどうしますか?唯一のコミュニケーション方法が手話だったらどうなるでしょうか?

食べ物を注文したり、金銭面について話し合ったり、友人や家族と会話したりするような単純なことでさえ、相手があなたの言っていることを理解してくれないとがっかりすることがあります。

普通の人にとって簡単なことでも、聴覚障害者にとっては非常に難しいことであり、そのために差別を受けることもあります。多くの場合、彼らは適切な翻訳サービスにアクセスできず、失業、社会的孤立、公衆衛生上の問題につながります。

聴覚障害者コミュニティの声をより多くの人に届けるために、データ サイエンティストの David Lee 氏はデータ サイエンス プロジェクトを利用してこの問題を解決しようとしました。

コンピュータービジョンはアメリカ手話を学習して聴覚障害者を助けることができるでしょうか?

機械学習アプリケーションが最も基本的なアルファベットからでもアメリカ手話を正確に翻訳できれば、聴覚障害者コミュニティにさらなる利便性と教育リソースを提供することに一歩近づくことができます。

データとプロジェクトの紹介

David Lee は、いくつかの理由から、生画像データセットを作成することを決定しました。まず、モバイル デバイスまたはカメラに基づいて目的の環境を設定します。通常は 720p または 1080p の解像度が必要です。存在するデータセットは数が少なく、解像度が低く、完成させるのに多少の動きを必要とする「J」と「Z」の文字が含まれないデータセットも多くあります。

この目的のため、デイビッド・リーはソーシャルプラットフォーム上で手話画像データの収集を要請し、プロジェクトと手話画像の提出方法の説明を紹介し、意識を高めてデータを収集したいと願った。

プロジェクトアドレス: https://github.com/insigh1/GA_Data_Science_Capstone

データの変形とオーバーサンプリング

デビッド・リー氏はこのプロジェクトのために、自身の手の写真も含め 720 枚の画像を収集しました。このデータセットは小さいため、David は labelImg ソフトウェアを使用して境界ボックスのラベル付けを手動で実行し、変換関数の確率を設定して、同じ画像に基づいて複数のインスタンスを作成し、各インスタンスに異なる境界ボックスを設定しました。

次の図はデータ拡張の例を示しています。

データ拡張後、データセットのサイズは 720 枚の画像から18,000 枚の画像に拡張されました。

モデリング

David はモデリングに YOLOv5 を使用することを選択しました。データセット内の画像の 90% はトレーニング データとして使用され、10% の画像は検証セットとして使用されます。転移学習と YOLOv5m の事前トレーニング済み重みを使用して 300 エポックトレーニングします。

検証セットにラベルと予測信頼度を含む新しい境界ボックスが正常に作成されました。

損失値が増加していないため、モデルは過剰適合しておらず、モデルはおそらくより多くのエポックにわたってトレーニングされる可能性があります。

このモデルは最終的に [email protected]:.95 スコア 85.27% を達成しました。

画像推論テスト

デイビッドはさらに、息子の手の画像データをテストセットとして収集しました。実際のところ、モデルをトレーニングするための子供の手の画像は存在しません。理想的には、さらにいくつかの画像があればモデルのパフォーマンスを示すのに役立ちますが、これはほんの始まりに過ぎません。

26 文字のうち、4 文字 (G、H、J、Z) には予測がありません。

正確に予測されなかったのは次の 4 つです。

D は F になると予測されます。

E は T になると予測されます。

P は Q になると予測されます。

R は U であると予測されます。

ビデオ推論テスト

トレーニング用の手の画像がわずか数枚しかない場合でも、モデルはこのような小さなデータセットで優れたパフォーマンスを発揮し、妥当な速度で優れた予測を提供することができ、大きな可能性を示しています。

より多くのデータは、さまざまな新しいコンテキストで使用できるモデルの作成に役立ちます。

上のビデオに示されているように、文字の一部がフレームから外れていても、モデルは良好な予測結果を出すことができます。最も驚いたのは、文字 J と Z も正確に認識されたことです。

その他のテスト

David は次のような他のテストも実行しました。

左利き手話テスト

元の画像はほとんどすべて右手が写っていましたが、左利きのユーザーの場合、画像が水平に反転している可能性が 50% あったため、データ拡張がここで役立ったことに David は驚きました。

子どもの手話テスト

デイビッドの息子の手話データはトレーニング セットでは使用されていませんでしたが、それでもモデルはそれに対して優れた予測を行いました。

複数のインスタンス

手話の使い方はビデオとは異なりますが、この例では、画面に複数の人物が登場する場合に、モデルが複数の手話を区別できることを示しています。

モデルの制限

デイビッドは、モデルにはまだ改善の余地があることに気付きました。

距離

‍多くの元画像は携帯電話で撮影されており、手とカメラの距離が比較的近いため、遠距離推論に一定の悪影響を及ぼします。

新しい環境

このビデオはボランティアによるもので、モデルのトレーニングには使用されません。モデルは多くの文字を認識していますが、それらの予測の信頼性は低く、誤分類がいくつかあります。

‍背景推論

このテストの目的は、さまざまな背景がモデルのパフォーマンスに影響を与えることを確認することです。

結論は

このプロジェクトは、コンピューター ビジョンを使用して、聴覚障害者コミュニティが教育リソースにアクセスしやすくする方法を示しています。

このモデルは、データセットが少量であっても優れたパフォーマンスを発揮できます。このモデルは、さまざまな環境のさまざまな手に対しても優れた検出結果を実現します。また、トレーニング データを増やすことで、いくつかの制限に対処できます。微調整とデータセットの拡張により、このモデルはアメリカ手話のアルファベット以外のシナリオにも拡張できる可能性があります。

リソース

Yolov5 GitHub プロジェクト: https://github.com/ultralytics/yolov5

<<:  AI を活用して建設現場の活動を監視

>>:  27回の機械学習インタビューの後、重要な概念を強調しましょう

ブログ    
ブログ    
ブログ    

推薦する

...

大規模モデルアプリケーションの探索 - エンタープライズ ナレッジ スチュワード

1. 伝統的なナレッジマネジメントの背景と課題1. 企業知識管理の必要性ナレッジ マネジメントは、あ...

コビオニクス、針を使わずにワクチンを投与する新しいロボットを開発

BGR によれば、注射針に対する恐怖は人口の少なくとも 10% を悩ませており、あらゆる種類のワクチ...

軍用ロボットは障害物を乗り越えるために車輪を使うか脚を使うかを決定できる

ロボットが環境内を移動するための最も効率的な方法の 1 つは、比較的滑らかな地形上で車輪を動かすこと...

2018年大学入試トップ学生調査:60%以上がビジネス・経営学専攻を希望、人工知能などの専攻にも関心

毎年、大学入試の結果が発表されると、多くの受験生が専攻の選択に悩みます。では、優秀な学生たちはこのよ...

2019 年の IT およびビッグデータ業界のトレンドを理解する

2018年ももうすぐ終わりです。今年は、ブロックチェーン、5G、チップ、量子コンピューティングが、誰...

速度が2倍に向上、超強力なCPUレベルのバックボーンネットワークPP-LCNetが誕生

[[431006]]アルゴリズムの速度最適化でボトルネックが発生し、要件を満たすことができませんか?...

この国産トランスフォーマーは自動変形、音声制御、プログラミングが可能。外国人は狂ったように気に入っている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

海洋工学における生成AI:独自のデータセットが不十分なため、実用化が制限されている

現代のコンピューティングは造船や海洋工学における設計および建設プロセスを大幅に改善していますが、限ら...

速度が1000倍になりました!拡散モデルは物質の錬金術プロセスを予測し、システムが複雑になればなるほど加速が大きくなる

拡散モデルを使用して化学反応を予測すると、速度が1,000 倍向上します。かつてはコンピューターで計...

エッジAIはIoTのメリットを高める

今日のデジタル世界では、人工知能とモノのインターネットが私たちの生活のあらゆる側面に大きな変化をもた...

...

2020年にAIがビジネスにもたらす変化

導入産業革命は一度しか起こらないが、私たちは今、人工知能 (AI) 革命という大きな革命の過程にある...

ビジネスにおいて人工知能との共生関係を築くには?

現代では、意図的か否かに関わらず、私たちは皆、人工知能に触れたり、人工知能を使用したりしています。私...