会話型AIの本当の限界は人間の忍耐力だ

会話型AIの本当の限界は人間の忍耐力だ

私たちは多くの驚くべき進歩を目撃しました。最新の AI 技術は、数千億の計算能力を瞬時に活用することで、特定の種類のテキストを人間レベルの精度で理解することができます。ただし、ターゲット テキストが長い会話の一部である場合、会話のコンテキストを考慮してユーザーの意味を解釈し、応答方法を決定する必要があるため、システムにとっての課題はさらに困難になります。それでも、Facebook の BlenderBot 2.0 のようなチャットボットは、人間と AI の間のよりスムーズで自然なやり取りを先導しているようです。

しかし、問題は、会話型 AI ボットに複雑さが加われば加わるほど、リアルタイムの応答性に対する期待に応えることが難しくなるということです。 BlenderBot 2.0 はまさにその好例です。バージョン 2.0 は、BlenderBot 1.0 の主要な制限の多く (長期メモリの欠如を含む) を克服しており、前バージョンよりも大幅に洗練されています。その結果、舞台裏で動作する機械学習 (ML) の応答性を高めることが難しくなります。

会話型 AI とチャットボットの速度制限 自然でスムーズな会話を実現するための秘訣はありません。これには、非常に大規模な ML モデルのネットワークが必要であり、各モデルは次に何を答えるかを決定するために、パズルの小さなピースを解く必要があります。あるモデルではユーザーの位置を考慮し、別のモデルではインタラクションの履歴を考慮し、さらに別のモデルでは過去の同様の応答によって生成されたフィードバックを考慮します。それぞれが貴重な数ミリ秒の遅延をシステムに追加します。

言い換えれば、会話型 AI の本当の限界は私たちの忍耐力です。

「依存地獄」の深淵 学術的な文脈で AI に何を期待するかというのは、まったく別の問題です。学術的な環境では、結果が出るまで何時間も、場合によっては何日も待つことがありますが、現実の世界では、システムが即座に応答する必要があります。特に会話型 AI ボットの場合、あらゆる潜在的な改善を、レイテンシの削減という目標と比較検討する必要があります。

この遅延は、いわゆる「クリティカル パス」によって発生します。クリティカル パスとは、入力 (ユーザーの情報) から出力 (ロボットの応答) に到達するまでに必要となる ML モデル チェーンの最短シーケンスです。これはプロジェクト管理の古い概念ですが、不必要なステップを回避するという点で、今日の ML ネットワークにとって非常に重要です。

では、クリティカル パスを見つけるにはどうすればよいでしょうか。それはすべて依存関係に帰着します。これは、従来のソフトウェア開発の世界で長い間、決定的な問題となってきました。相互接続された多数の部分で構成されるソフトウェア アーキテクチャでは、1 つのアプリケーションを改善すると、エンジニアがシステム全体を更新する必要が生じる場合があります。しかし、アプリケーション A にとって重要な更新が、アプリケーション B、C、D と互換性がない場合があります。

これが「依存地獄」と呼ばれるものです。細部に注意を払わないと、機械学習の依存関係によって、私たちが直面する地獄はさらに暗く、深くなる可能性があります。

通常のソフトウェア依存関係は、スプレッドシートのセルが赤から緑に変わるなど、特定のアプリケーションの単純で個別の状態を伝える API に基づいています。 API を使用すると、エンジニアは各アプリケーションを同じページに保ちながら、ある程度独立して開発できます。しかし、ML の依存関係では、エンジニアは抽象的な確率分布に対処する必要があり、1 つのモデルの変更がより大きな ML ネットワークにどのように影響するかを理解することが困難になります。これらのモデル間の微妙な関係を習得することによってのみ、会話型 AI を現実のものにすることができ、リアルタイムの体験も実現できます。

手順を省略して時間を節約する 会話型 AI の依存関係を完全に理解するには、機械学習と人間の直感を組み合わせる必要があります。

たとえば、当社の会話型 AI ボットの 1 つは、PowerPoint ライセンスの希望や PTO ポリシーに関する質問など、従業員のリクエストに応答するように設計されています。一見単純な問題であっても、依存関係の深淵に陥る可能性があることが判明しました。 PTO に関する質問の答えは、従業員ハンドブックの 53 ページに埋もれている可能性があり、カナダの営業担当者とスペインのエンジニアでは答えが異なる可能性があります。それに加えて、多くの無関係な詳細 (従業員のハワイ旅行の計画など) を無視する必要があり、全体として機能する必要がある特殊な ML モデルが数十個あります。

重要なのは、各問題を解決するためにどのモデルが必要か、つまりクリティカル パスのどのステップが必要かを判断することです。最初のステップは自然言語理解(NLU)であり、その目的は構造化されていないテキストを機械が処理できる情報に変換することです。当社の NLU は、タイプミスの修正、主要なエンティティの識別、信号とノイズの分離、ユーザーの意図の把握などができる多数の ML モデルのパイプラインです。この情報を使用して、下流で不要なモデルを除外し始めることができます。

これは、現在会社で利用可能な実際のソリューションを分析する前に、対象の問題に対してどのような有益なソリューションがあるのか​​を予測することを意味します。 PowerPoint の使用を要求する従業員は、ソフトウェア ライセンスや申請書を希望するかもしれませんが、新しいオフィスの地図を希望する可能性はほとんどありません。 NLU プロセスからの情報を最大限に活用できる限り、いわゆる「プリトリガー」システムを通じて、どのモデルをアクティブ化する必要があるか、どのモデルをバイパスする必要があるかを予測できます。

このプロセスに関係する確率分布の抽象的な性質を考慮して、当社のプリトリガー システムは、機械学習の入力と、直感に基づいて人間の専門家が開発したルールの両方に依存しています。結局のところ、時間を有意義に過ごすことは芸術であり科学でもあります。

会話型 AI ボットの進歩に余地を残す 10 年後の会話型 AI がどのようなものになるかは誰にもわかりません。しかし、私たちが確実に知っているのは、将来の進歩のための余地を残すために、今すぐチャットボットを最適化する必要があるということです。人間同士の会話のような体験を望むなら、システム全体の遅延を考慮し、無謀に複雑さを増さないようにする必要があります。

SF とは対照的に、AI で見られた「ブレークスルー」は、既存のモデルや技術に対する多くの小さな漸進的な改善の総和です。会話型 AI を最適化する作業は、映画やテレビ番組で見られるような効果を達成することを目的としているわけではなく、一夜にして結果が出るということは考えにくいです。しかし、チャットボットが私たちの意図を理解し、リアルタイムで支援できるようになったのは、数回の天才的なひらめきではなく、長年の努力のおかげです。

<<:  スタンフォード大学が長いテキストをよりスムーズに生成する時間制御方式を導入、その論文がICLR 2022に選出される

>>:  ByteDance、検索速度が8倍に高速化した最新の音楽検索システム「ByteCover2」をリリース

ブログ    

推薦する

...

研究者は人工知能を使って、膨大なデータに隠された異常をリアルタイムで発見する

全国的な送電網の障害を特定することは、巨大な干し草の山から針を見つけるようなものです。米国全土に設置...

スタンフォードグローバルAIレポート:人材需要は2年間で35倍に増加し、中国のロボット導入は500%増加

先ほど、スタンフォード グローバル AI レポートが正式に発表されました。スタンフォード大学は昨年か...

...

マルチタスクでSOTA、UBCを実現 Googleなどが3Dポイントクラウド向けの教師なしカプセルネットワークを提案

これは、3D ポイント クラウド用に提案された教師なしカプセル アーキテクチャであり、3D ポイント...

AI産業化が深海域に入る中、コンピューティングパワーのボトルネックをどうやって打破するのか?

AI技術の応用は、一部の業界からあらゆる分野へ、一部のシーンからあらゆるシーンへ、ローカルな探索か...

AIの使用後、機械は人間の皮膚に匹敵する触覚を持つ丨科学サブジャーナル

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Facebookは人々の生活を一人称で分析する新しいAIシステムを開発中

Facebookは、独自のARグラスを開発するためにRay-Banと提携するなど、拡張現実技術に多大...

インターネットの後半、人工知能の春は始まったばかり

最近、インターネット企業における「人員最適化」問題が友人の間で話題になっており、多くの人がパニックに...

人工知能の将来の発展における4つの主要なトレンドについての簡単な議論

[[349269]] 2020年に世界的パンデミックが発生し、世界が完全にひっくり返る前から、人工知...

産業用ロボットの開発動向

産業用ロボットは、さまざまな産業用タスクを自動的に実行できる一種の機器として、製造、組み立て、梱包、...

ボストン・ダイナミクスがマスク氏を激しく批判、それは単なる自慢なのか、それとも現実なのか?テスラロボットに関する3つの大きな推測

テスラのロボットに関しては、まず主要なタイムラインを確認しましょう。実際、テスラのロボットの構想は1...

チャットボットはデータセンターをよりスリムで効率的にする

自然言語処理 (NLP) の進歩により、データセンターの運用コストの削減や人材の維持率の向上など、デ...

5G と AI のユースケース - 5G が人工知能の実装にどのように役立つか

マイケル・バクスター氏は、5Gは人工知能の可能性を解き放つだろうと語った。しかし、AI と 5G は...

運輸省:2025年までに自動運転技術の産業化を推進

道路交通自動運転技術の開発と応用の促進に関する運輸省の指導意見:道路交通の自動運転技術の開発と応用を...