ジェスチャーをすると、AIが絵文字を認識し、ブラウザ上で動作する:オープンソース

ジェスチャーをすると、AIが絵文字を認識し、ブラウザ上で動作する:オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

優れたジェスチャー認識 AIになるには何が必要ですか?

姿勢を絶えず変えて、リアルタイムで絵文字を出力できるのはかなりクールです。

それはガード(間違い)で、「スタートレック」のバルカン人の敬礼です。これは一般的には使用されず、実行するのが困難な場合もあります。

それは幸運を意味し、人々は通常両手で比較します。しかし、それは人間にとって普遍的なジェスチャーではありません。

それでも、AIはそれを巧みに識別しました。さらに、ブラウザ上でもほとんど遅延なく動作します

AI の父親は Nick Bourdakos (略して「ニック」) という名の IBM のプログラマーです。

△ 666

Nick は、リアルタイム認識を簡単にするTensorFlow.jsを使用しています。

彼はそのアルゴリズムをオープンソースにして、誰でも試せるようにした。

たった30分

Nick 氏によると、このモデルは非常にシンプルで、 SSD-MobileNetだそうです。

MobileNet は分類用、SSD はターゲット検出用であり、これらを併用することも一般的な方法です。

彼は IBM クラウドの GPU、無料の k80を使用してトレーニングを行い、トレーニングの完了にはわずか 30 分しかかかりませんでした。

トレーニングを開始する前に、まずデータを準備する必要があります。AI はラベル付けされたジェスチャ マップをフィードします。

準備ができたので、モデルをインストールしましょう。

  1. 1 $ npm install -g クラウドアノテーション

その後、トレーニングを開始できます。

  1.   1 $カクリ
  2. 2 ┌──────────────────────────────┐
  3. 3 │ (C)loud (A)nnotations (CLI) │
  4. 4 │ バージョン1.0 . 12
  5. 5 └──────────────────────────────┘
  6. 6  
  7. 7使用法: cacli <コマンド>
  8. 8  
  9. 9ここで、<command> は次のいずれかです。
  10. 10 init 対話的にconfig.yamlファイルを作成する
  11. 11トレーニング トレーニングランを開始する
  12. 12ログ トレーニング実行のログを監視する
  13. 13進捗状況 トレーニングランの進捗状況を監視する
  14. 14リスト すべてのトレーニング実行をリストする
  15. 15ダウンロード トレーニング済みモデルをダウンロード
  16. 16  
  17. 17cacli <cmd> -h <cmd> のクイックヘルプ

もちろん、IBM Cloud や GPU を使用する必要はありません。 CPUを使用して AI を調整することもできますが、おそらく数時間かかります。

トレーニングが完了したら、ブラウザで実行します。 GitHub プロジェクトには、TensorFlow.js モデルに変換するためのスクリプトが付属しています。

React アプリにモデルを追加します。

nmp startと入力し、ブラウザでhttp://localhost:3000を開きます。

やった、これで画面に向かって指を振ると AI が理解するようになりました:

もちろん、この賢い AI は指を認識する以上のことができます。

飲む

それはすべて、AI に入力するためにどのようなデータを使用するかによって決まります。

かつてニックは、AI がソーダを区別する能力を訓練するのを手伝いました。

質問 1 : スプライトのボトルとカナダドライのボトルはどちらも緑色です。

位置が変わっても、ボトルが横向きになっても、AIは混乱しません。見てみましょう:

質問 2 : 難易度を上げてください。どちらのボトルもマウンテンデューで、1 本は通常タイプ、もう 1 本は低糖タイプです。

AIはそれでもためらうことなく違いをはっきりと見分けることができます。

彼はジェスチャーとソーダの区別が得意です。

そこで質問ですが、 AI に何を認識させたいのでしょうか?

考えがまとまったら、調整を始めましょう。コードは次のとおりです。

https://github.com/cloud-annotations/training/

PS 何人かの友人はすでにこれをうまくテストし、簡単だと言っています。

△認識結果が絵文字で表示されるともっと良い

<<:  マイクロソフトリサーチアジアと教育省が協力し、AI産業と教育の統合に向けた双方にメリットのあるエコシステムの構築に取り組んでいます。

>>:  非常に便利な無料データマイニングツール 19 個のコレクション!

ブログ    

推薦する

快手八卦についての噂: TensorFlow と PyTorch の並列ボトルネックを打破する分散トレーニング フレームワーク

最近、KuaishouとETH Zurichはオープンソースの分散トレーニングフレームワークBagu...

法律教育ロボット「ダニウ」が潼南で任務に就き、一般市民に無料の法律サービスを提供

[[373347]]最近、法律相談ロボット「ダニウ」が潼南区公共サービス法律センターで正式に運用され...

AIガバナンスとは何か、どのように、そしてなぜ生まれるのか

AI は登場以来、タスクの自動化や業務の効率化、より優れたテクノロジーの構築、エンドユーザー エクス...

Alibaba DAMO Academyが2019年のトップ10テクノロジートレンドを発表:AI、ブロックチェーンなど

Alibaba DAMO Academy は、2019 年のトップ 10 テクノロジー トレンド予測...

プログラマーが夜遅くにPythonでニューラルネットワークを実行し、中学生のようにデスクランプを消す

[[271670]]一度ベッドに入ったら決して起き上がりたくない人にとって、電気を消すことは寝る前の...

指紋、顔、音声認識技術は、本当に簡単に解読できます。

【AI世代編集部注】顔認識は今年、CCTVの315ガラで痛烈に批判された。この技術は人々が安心して...

...

2021年の世界トップ10の画期的テクノロジー:TikTokアルゴリズムと北斗ナビゲーションがリストに

[[384967]]最近、アメリカの「MITテクノロジーレビュー」は、2021年の世界のトップ10の...

...

Google は、ロボットにゴミを捨てることを教えることができる視覚言語アクション モデル RT-2 をリリースしました。

グーグルは7月28日、ゴミ捨てなどのタスクを理解できるようロボットを訓練するのに役立つ新しい人工知能...

...

...

ChatGPT と ReactJS を統合してよりスマートな会話型インターフェースを実現

翻訳者 |李睿レビュー | Chonglouテクノロジーの世界が進化し続けるにつれて、チャットボット...

...