中国初の真のAI入力方式が発表され、未来の入力方式を革新する

中国初の真のAI入力方式が発表され、未来の入力方式を革新する

入力がキーボードに別れを告げ、音声、表現、動作が入力方法になると、どのような魔法のような体験になるのでしょうか?

1月16日、百度入力「AI新入力全感覚入力2.0」記者会見で、中国初の真のAI入力方法である百度入力AI探索版が正式に発表されました。これは、完全な音声入力をデフォルトの入力方法とし、表情やボディランゲージなどによる完全な感覚入力も可能な新しい入力製品です。同時に、百度は自社の音声技術が世界の学術界と産業界にとって非常に意義深い技術的ブレークスルーを達成したと発表しました。ストリーミング切り捨て型多層注意モデル(SMLTA)により、オンライン音声認識の精度が15%向上し、世界で初めて注意技術に基づくオンライン音声認識サービスの大規模オンラインアプリケーションを実現しました。

記者会見で、百度の王海鋒上級副社長は、入力メソッドはユーザーに最も近い製品の一つであり、AI実装の「橋頭保」でもあると述べた。百度の総合的なAI機能は、入力メソッドを絶えず強化し、より「スマート」にしている。また、彼は入力メソッド業界の「将来像」も示した。現在の入力メソッド製品は主に携帯電話で使用されているが、将来の入力メソッドはさまざまなスマートデバイスとユーザー間のインタラクションに使用され、グローバル化して世界中のユーザーにさらに多様な入力メソッドを提供するだろうと彼は考えている。

[[255731]]

百度の上級副社長、王海鋒氏

2018年末時点で、百度入力の月間アクティブユーザー数は5億人に達し、ピーク時の1日の音声リクエスト量は5億5000万を超え、AR絵文字の使用数は1億を超えたと報告されています。同時に、百度の海外向け入力方法は全世界で1億回以上インストールされ、120の言語をサポートし、世界190の国と地域をカバーし、100を超える世界的に有名なIPとの協力に達し、技術と市場の両方の成功を収めました。

SMLTAの音声認識精度は世界をリードし、音声技術の革新はインタラクティブな変化を推進します

Baidu Input Method AI Exploration Edition は、Baidu AI アプリケーションのもう 1 つの重要な成果です。完全な音声対話はその最も特徴的な機能の 1 つです。 「現在はキーボード入力が主流の入力方法ですが、ユーザーニーズの変化に対する当社の洞察力により、この完全音声対話型製品をより早く発売する自信が生まれました」と、百度の中国語入力方法の責任者である蔡玉庭氏は述べた。2016年と比較すると、百度の入力方法の音声リクエストの1日あたりの平均量は8倍に増加し、音声入力方法のシナリオもチャットや検索からゲーム、エンターテインメント、ショッピングなど、さまざまなシナリオに拡大している。

[[255732]]

百度の中国語入力システム責任者、蔡玉亭氏

完全な音声インタラクションには、極めて高い音声認識精度が必要です。Baidu が完全な音声インタラクション入力方法の導入に自信を持っているのは、業界をリードする音声技術によるものです。会場では、百度の音声技術部門責任者である高良氏が、百度の音声入力における4つの大きな進歩と、それが入力方法のユーザーにもたらす体験の向上を発表した。

オンライン音声の分野では、百度はStreaming Truncated Multi-layer Attention Modeling (SMLTA)をリリースしました。これは、中国のオンライン音声認識の歴史における2つの大きな進歩です。1つは、グローバル注意モデルを上回る世界初のローカル注意モデリングの認識精度であり、もう1つは、オンライン音声インタラクション注意モデルの大規模な展開です。この技術は、従来のAttentionモデルの認識の遅れと、それに伴う大規模なリアルタイムオンライン音声インタラクションの実施不能を解決し、オンライン音声認識の精度を15%向上させ、業界最高レベルを15%上回ります。

百度音声技術部門責任者ガオ・リャン氏

オフライン音声認識の分野では、さまざまな入力シナリオにおけるユーザーのニーズを満たすために、Baidu は Deep Peak 2 システムの最適化を継続しており、オフライン音声入力の相対精度がさらに向上し、業界平均より 35% 高くなっています。ユーザーは、地下鉄、エレベーター、トンネル、混雑した場所などのオフラインのシナリオにいる場合でも、Baidu 入力方法を使用して正確な音声入力を行うことができます。

中国語と英語の混合音声入力技術、および方言間、方言と北京語間の混合音声入力技術の飛躍的進歩により、ユーザーは真に「自由に話す」ことができます。中国語と英語の混合でも、北京語と現地の方言の切り替えでも、Baidu Input Method は正確に認識できます。百度入力方式は現在、高精度の「中国語と英語の自由な発音」と「方言の自由な発音」を実現した唯一の入力方式製品であると報告されています。

記者会見の司会者、張少剛氏が百度入力システム「方言自由」を体験した。

Baidu の音声技術における画期的な進歩は、海外のユーザーにも便利な音声入力体験をもたらします。会議では、Baidu海外入力メソッドが日本語認識、ヒンディー語認識、インド英語混合入力機能を実演しました。第三者評価によると、Baidu日本語入力メソッドの音声認識精度は業界トップクラスで、認識結果のユーザー受け入れ率は90%と高く、日本最高のサードパーティ入力メソッド製品となっています。インドユーザーの音声機能の使用率は21%に達し、Baidu入力メソッドはインドユーザーの自由なコミュニケーションに役立っています。

[[255733]]

百度の海外入力システム責任者、江鋒氏

表現と動作が新しい入力方法になります。完全な感覚インタラクションにより、想像力が広がります。

音声、視覚、自然言語処理、ナレッジグラフなどの Baidu の AI 技術を入力メソッドに実装することで、「フル センサ」入力が現実のものとなりました。百度入力方式AI探索版では、音声入力に加え、インスタント写真、ショー、空中手書きなどの新機能も導入されました。 「インスタントライブ」機能は、愛するアイドルでも、昼夜を問わず付き添うペットでも、ユーザーが自分の行動を通じて相手に同じ表情をするように「ドライブ」することができます。「ショー」機能は、画像セグメンテーション技術を使用して、ユーザーがさまざまな仮想シーンに「旅行」できるようにします。テクノロジー、新鮮さ、サイバーパンクなど、さまざまなスタイルから選択できるため、表情の作成がよりシーンベースになり、よりリアルになります。空中での手書きは、遠くからモンスターと戦っているようなもので、空中での書き込みもスムーズに認識されます。現在、全体的な認識率は大規模なアプリケーションの要件に達しています。

[[255734]]

ネットセレブのシャオ・ウーが現地で百度入力方式のAR絵文字を体験

Baidu 入力方式のフル感覚インタラクションのトレンドは海外市場にも進出し、認知度を高めています。百度海外入力方式はAI技術の助けを借りて、世界で最も活発で権威のある絵文字コミュニティを確立したと報告されています。スーパーIP「トランスフォーマー」シリーズ初の独立映画「バンブルビー」が、百度海外入力方式と提携し、「バンブルビー」シリーズのテーマステッカーとAR絵文字を発売した。これまで、百度海外入力方式は、ハローキティ、ラバーダック、星の王子さま、グリンチなど、世界100以上の有名IPと提携し、ユーザーに愛されるIPスキンや絵文字シリーズを発売してきました。同時に、ローカライズ運営を深め、海外ユーザー向けに現地のネット有名人との提携プロモーションなど、カスタマイズコミュニケーションを設計してきました。 2018年、百度海外入力方式のプロモーションビデオの総再生回数は1億回を超えました。

入力方法は本質的に人間とコンピュータのインタラクションのためのツールです。AI時代が到来し、人間とコンピュータのインタラクションの形式もそれに応じて革新されるでしょう。 「将来、百度入力方式は携帯電話を基盤とするだけでなく、スマートホームや自動車のインターネットを含むさまざまな端末シナリオの接続にも注力し、複数の入力方式を1つに統合し、ユーザーがさまざまなシナリオで効率的かつ自由に情報を伝達できるようにします」と百度の上級副社長である王海鋒氏は述べた。

<<:  Amazon AIテクノロジーの応用と戦略的なレイアウトの詳細な分析:Alexa

>>:  開発者向け機械学習プラットフォーム 18 選

ブログ    
ブログ    
ブログ    

推薦する

...

Linux オブジェクトアロケータ スラブアルゴリズム

[[414991]]この記事はWeChatの公開アカウント「Linux Kernel Things」...

2020年グローバルスマート教育会議でAI教育統合イノベーションの成果が発表されました

2020年8月20日から22日まで、北京で「人工知能と未来の教育」に重点を置いた、待望の「2020年...

機械知能に取って代わられない5つのスキル

「機械知能が人間のために行っている 5 つのこと」という記事では、機械が常に新しい奇跡を生み出してい...

業界の資金調達が活発化しています!自動運転技術は物流分野で初めて導入される可能性

2019年、自動運転分野は谷間に向かうかに見えましたが、わずか数か月で業界は徐々に再び熱を帯び始め、...

...

マイクロソフト、OpenAI、グーグルなどの大手企業が共同でフロンティアモデルフォーラムを設立し、責任ある人工知能の開発を推進している。

人工知能の発展は日々変化しており、特に生成型人工知能はテクノロジー業界で話題になっています。しかし、...

人工知能を背景にした教育の未来を探る

教育の分野では、人工知能の倫理に関する人々の考え方には複数の道が存在します。例えば、主観に基づく検討...

米国エネルギー省、AIによる科学的発見の自動化を支援するために1,600万ドルを投資

技術の複雑さが年々増すにつれ、科学的な革新と発見への扉がより多くの分野に開かれています。現在の問題は...

暗号通貨ボットで利益を上げる方法: トレーディングボットの説明

暗号通貨は、その極端な変動性で知られています。市場の価格は非常に急速に変動するため、トレーダーが市場...

Google mBERT の秘密を解明: ディープラーニングは人間の言語をどのように処理するのか?

[[384615]]言語機能を備えたディープラーニングシステムは、人々の生活の中で広く利用されてき...

AIがフィンテックを変える4つの方法

[[432805]]金融業界の企業は、人工知能 (AI) を使用して複数のソースからのデータを分析お...

ザッカーバーグがAlpaca 2をベースにしたChatGPTのMetaバージョンを正式にリリース。Appleに先駆けて初のMRヘッドセットをリリース、価格は1/7以下

ChatGPT ネットワーキング モードが正式に復活しました。そして、この波は有料ユーザーだけでなく...

Gemini 1.5 ハンズオンレビュー: Sora は偽物に見えるが、もっと素晴らしい機能がある

Googleの「反撃」が来た!ジェミニはソラに脚光を奪われましたが、今は再び脚光を浴びているようです...