入力がキーボードに別れを告げ、音声、表現、動作が入力方法になると、どのような魔法のような体験になるのでしょうか? 1月16日、百度入力「AI新入力全感覚入力2.0」記者会見で、中国初の真のAI入力方法である百度入力AI探索版が正式に発表されました。これは、完全な音声入力をデフォルトの入力方法とし、表情やボディランゲージなどによる完全な感覚入力も可能な新しい入力製品です。同時に、百度は自社の音声技術が世界の学術界と産業界にとって非常に意義深い技術的ブレークスルーを達成したと発表しました。ストリーミング切り捨て型多層注意モデル(SMLTA)により、オンライン音声認識の精度が15%向上し、世界で初めて注意技術に基づくオンライン音声認識サービスの大規模オンラインアプリケーションを実現しました。 記者会見で、百度の王海鋒上級副社長は、入力メソッドはユーザーに最も近い製品の一つであり、AI実装の「橋頭保」でもあると述べた。百度の総合的なAI機能は、入力メソッドを絶えず強化し、より「スマート」にしている。また、彼は入力メソッド業界の「将来像」も示した。現在の入力メソッド製品は主に携帯電話で使用されているが、将来の入力メソッドはさまざまなスマートデバイスとユーザー間のインタラクションに使用され、グローバル化して世界中のユーザーにさらに多様な入力メソッドを提供するだろうと彼は考えている。
百度の上級副社長、王海鋒氏 2018年末時点で、百度入力の月間アクティブユーザー数は5億人に達し、ピーク時の1日の音声リクエスト量は5億5000万を超え、AR絵文字の使用数は1億を超えたと報告されています。同時に、百度の海外向け入力方法は全世界で1億回以上インストールされ、120の言語をサポートし、世界190の国と地域をカバーし、100を超える世界的に有名なIPとの協力に達し、技術と市場の両方の成功を収めました。 SMLTAの音声認識精度は世界をリードし、音声技術の革新はインタラクティブな変化を推進します Baidu Input Method AI Exploration Edition は、Baidu AI アプリケーションのもう 1 つの重要な成果です。完全な音声対話はその最も特徴的な機能の 1 つです。 「現在はキーボード入力が主流の入力方法ですが、ユーザーニーズの変化に対する当社の洞察力により、この完全音声対話型製品をより早く発売する自信が生まれました」と、百度の中国語入力方法の責任者である蔡玉庭氏は述べた。2016年と比較すると、百度の入力方法の音声リクエストの1日あたりの平均量は8倍に増加し、音声入力方法のシナリオもチャットや検索からゲーム、エンターテインメント、ショッピングなど、さまざまなシナリオに拡大している。
百度の中国語入力システム責任者、蔡玉亭氏 完全な音声インタラクションには、極めて高い音声認識精度が必要です。Baidu が完全な音声インタラクション入力方法の導入に自信を持っているのは、業界をリードする音声技術によるものです。会場では、百度の音声技術部門責任者である高良氏が、百度の音声入力における4つの大きな進歩と、それが入力方法のユーザーにもたらす体験の向上を発表した。 オンライン音声の分野では、百度はStreaming Truncated Multi-layer Attention Modeling (SMLTA)をリリースしました。これは、中国のオンライン音声認識の歴史における2つの大きな進歩です。1つは、グローバル注意モデルを上回る世界初のローカル注意モデリングの認識精度であり、もう1つは、オンライン音声インタラクション注意モデルの大規模な展開です。この技術は、従来のAttentionモデルの認識の遅れと、それに伴う大規模なリアルタイムオンライン音声インタラクションの実施不能を解決し、オンライン音声認識の精度を15%向上させ、業界最高レベルを15%上回ります。 百度音声技術部門責任者ガオ・リャン氏 オフライン音声認識の分野では、さまざまな入力シナリオにおけるユーザーのニーズを満たすために、Baidu は Deep Peak 2 システムの最適化を継続しており、オフライン音声入力の相対精度がさらに向上し、業界平均より 35% 高くなっています。ユーザーは、地下鉄、エレベーター、トンネル、混雑した場所などのオフラインのシナリオにいる場合でも、Baidu 入力方法を使用して正確な音声入力を行うことができます。 中国語と英語の混合音声入力技術、および方言間、方言と北京語間の混合音声入力技術の飛躍的進歩により、ユーザーは真に「自由に話す」ことができます。中国語と英語の混合でも、北京語と現地の方言の切り替えでも、Baidu Input Method は正確に認識できます。百度入力方式は現在、高精度の「中国語と英語の自由な発音」と「方言の自由な発音」を実現した唯一の入力方式製品であると報告されています。 記者会見の司会者、張少剛氏が百度入力システム「方言自由」を体験した。 Baidu の音声技術における画期的な進歩は、海外のユーザーにも便利な音声入力体験をもたらします。会議では、Baidu海外入力メソッドが日本語認識、ヒンディー語認識、インド英語混合入力機能を実演しました。第三者評価によると、Baidu日本語入力メソッドの音声認識精度は業界トップクラスで、認識結果のユーザー受け入れ率は90%と高く、日本最高のサードパーティ入力メソッド製品となっています。インドユーザーの音声機能の使用率は21%に達し、Baidu入力メソッドはインドユーザーの自由なコミュニケーションに役立っています。
百度の海外入力システム責任者、江鋒氏 表現と動作が新しい入力方法になります。完全な感覚インタラクションにより、想像力が広がります。 音声、視覚、自然言語処理、ナレッジグラフなどの Baidu の AI 技術を入力メソッドに実装することで、「フル センサ」入力が現実のものとなりました。百度入力方式AI探索版では、音声入力に加え、インスタント写真、ショー、空中手書きなどの新機能も導入されました。 「インスタントライブ」機能は、愛するアイドルでも、昼夜を問わず付き添うペットでも、ユーザーが自分の行動を通じて相手に同じ表情をするように「ドライブ」することができます。「ショー」機能は、画像セグメンテーション技術を使用して、ユーザーがさまざまな仮想シーンに「旅行」できるようにします。テクノロジー、新鮮さ、サイバーパンクなど、さまざまなスタイルから選択できるため、表情の作成がよりシーンベースになり、よりリアルになります。空中での手書きは、遠くからモンスターと戦っているようなもので、空中での書き込みもスムーズに認識されます。現在、全体的な認識率は大規模なアプリケーションの要件に達しています。
ネットセレブのシャオ・ウーが現地で百度入力方式のAR絵文字を体験 Baidu 入力方式のフル感覚インタラクションのトレンドは海外市場にも進出し、認知度を高めています。百度海外入力方式はAI技術の助けを借りて、世界で最も活発で権威のある絵文字コミュニティを確立したと報告されています。スーパーIP「トランスフォーマー」シリーズ初の独立映画「バンブルビー」が、百度海外入力方式と提携し、「バンブルビー」シリーズのテーマステッカーとAR絵文字を発売した。これまで、百度海外入力方式は、ハローキティ、ラバーダック、星の王子さま、グリンチなど、世界100以上の有名IPと提携し、ユーザーに愛されるIPスキンや絵文字シリーズを発売してきました。同時に、ローカライズ運営を深め、海外ユーザー向けに現地のネット有名人との提携プロモーションなど、カスタマイズコミュニケーションを設計してきました。 2018年、百度海外入力方式のプロモーションビデオの総再生回数は1億回を超えました。 入力方法は本質的に人間とコンピュータのインタラクションのためのツールです。AI時代が到来し、人間とコンピュータのインタラクションの形式もそれに応じて革新されるでしょう。 「将来、百度入力方式は携帯電話を基盤とするだけでなく、スマートホームや自動車のインターネットを含むさまざまな端末シナリオの接続にも注力し、複数の入力方式を1つに統合し、ユーザーがさまざまなシナリオで効率的かつ自由に情報を伝達できるようにします」と百度の上級副社長である王海鋒氏は述べた。 |
<<: Amazon AIテクノロジーの応用と戦略的なレイアウトの詳細な分析:Alexa
人工知能の助けを借りて地震を予測する新たな試みにより、この技術が将来、人々の生活や経済への壊滅的な影...
今日は人工的にしか開発できない重要な技術をいくつか紹介します。音声認識からスマートホーム、人間と機械...
[51CTO.com クイック翻訳]フィリップ・K・ディックの1968年の小説『アンドロイドは電気羊...
[51CTO.com からのオリジナル記事] 顔認識技術は新しいものではありません。多くの人が携帯...
ビジョントランスフォーマーや LLM などのディープラーニングモデルをトレーニングする場合、ピーク時...
近年、ビッグデータとディープラーニングに基づく人工知能は、驚くべきコンピューティング能力と学習能力を...
過去10年間、ImageNetは基本的にコンピュータービジョン分野の「バロメーター」となってきました...
1. 全体的なアーキテクチャ粗いソートは、リコールと細かいソートの中間のモジュールです。 。数万の候...
本日、Google の研究科学者 Kevin P. Murphy 氏は、「確率的機械学習: 上級」の...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
GPT-4 のモデルアーキテクチャ、インフラストラクチャ、トレーニングデータセット、コストなどの情報...
本日7月3日、デジタルブロガーの@长安数码君がソーシャルプラットフォームでニュースを発表しました。顔...
2007年、サンフランシスコのモスコーニセンターで開催されたMacWorldカンファレンスで、スティ...
今日、ビジネスプロフェッショナルは市場での収益を増やすために高度なテクノロジーを求めています。人工知...