人工知能は人間の言語を習得したのか?見た目は騙されることがある

人工知能は人間の言語を習得したのか?見た目は騙されることがある

[[247418]]

人工知能の分野における成果は、誤解されやすく、過大評価されやすい。このことは、人間の言語処理の分野において最も顕著に表れており、外見が誤ってより深い能力を示唆することがある。

過去 1 年間、多くの企業が、自社のチャットボット、ロボット、その他のアプリケーションが人間と同じように有意義な会話を行えるという印象を与えてきました。 Google の Duplex、Hanson Robotics の Sophia などの事例を見れば、AI が人間のような行動をとれる段階に到達したことがわかる。

しかし、人間の言語を習得するには、人間の音声を真似したり完全な文章を作ったりするだけでは不十分です。常識、環境の理解、創造性が必要であり、現在の AI トレンドにはこれらが備わっていません。

実際、ディープラーニングやその他の AI 技術は、人間とコンピューターの距離を縮める上で大きな進歩を遂げてきました。しかし、回路とバイナリデータの世界と人間の脳の謎の間には大きな隔たりが残っています。 AIと人間の知能の違いを理解して認めなければ、私たちは満たされない期待に失望し、AIの発展によってもたらされる本当の機会を逃してしまうことになります。

AI と人間の言語の関係の真の深さを理解するために、この分野をいくつかのサブドメインに分割してみましょう。

音声テキスト変換

音声文字変換は、AI アルゴリズムが最も進歩した分野の 1 つです。公平に言えば、これは AI と見なされるべきではないのですが、AI の定義は少し曖昧であり、多くの人が自動文字起こしを知性の兆候と誤って解釈する可能性があるため、ここで検討することにしました。

この技術の以前のバージョンでは、プログラマーは音声サンプルを分類してテキストに変換するためのルールを発見して体系化するという面倒なプロセスを経る必要がありました。ディープラーニングとディープニューラルネットワークの進歩により、音声からテキストへの変換は飛躍的に進歩し、はるかに簡単かつ正確になりました。ニューラル ネットワークでは、エンコード ルールではなく、大量の音声サンプルと対応するテキストを入力します。ニューラル ネットワークは、単語の発音における共通パターンを発見し、新しい音声録音を対応するテキストにマッピングすることを「学習」します。

[[247419]]

これらの進歩により、多くのサービスがユーザーにリアルタイムの文字起こしサービスを提供できるようになりました。

AI を活用した音声テキスト変換にはさまざまな用途があります。 Google は最近、詐欺電話を​​処理し、通話内容をリアルタイムで表示する Pixel スマートフォンの機能「Call Screen」をリリースしました。 YouTube はディープラーニングを使用して、クローズアップ字幕を自動で提供します。

しかし、AI アルゴリズムが音声をテキストに変換できるからといって、それが何を処理しているかを理解しているというわけではありません。

音声合成

音声テキスト変換のもうひとつの側面は音声合成です。繰り返しますが、これは知性ではありません。人間の言語の意味や文脈を理解することとは何の関係もないからです。しかし、人間とそれぞれの言語で対話する多くのアプリケーションでは、依然として不可欠な部分となっています。

音声テキスト変換と同様に、音声合成も長い間存在してきました。 90 年代に研究室で初めてコンピューター音声合成を見たのを覚えています。声を失ったALS患者は、文章を入力し、コンピューターに読み上げてもらうという方法でコミュニケーションをとるために、何十年もこの技術を使ってきました。視覚障害者もこの技術を使って、見えないテキストを読みます。

しかし、過去にはコンピューターで生成された音声は人間のようには聞こえず、音声モデルの作成には何百時間ものコーディングと調整が必要でした。現在では、ニューラル ネットワークの助けにより、人間の声を合成することがそれほど難しくなくなりました。

このプロセスでは、ニューラル ネットワークを互いに競わせて新しいデータを作成する AI 技術である生成的敵対的ネットワーク (GAN) を使用します。まず、ニューラル ネットワークに、新しい音声サンプルが同じ人物のものであるかどうかを判別できるようになるまで、ある人物の音声のサンプルが大量に入力されます。次に、2 番目のニューラル ネットワークが音声データを生成し、それを最初のネットワークに通して、それが対象者のものであるかどうかが検証されるかどうかを確認します。そうでない場合、ジェネレーターは例を修正し、分類器を介して再実行します。 2 つのネットワークは、自然なサウンドのサンプルを生成できるようになるまでこのプロセスを繰り返します。

ニューラルネットワークを使用して独自の音声を合成できる Web サイトがいくつかあります。このプロセスはシンプルで、必要なサウンド サンプルは十分であり、これは古いテクノロジの要件よりもはるかに少ないものです。

この技術には多くの良い用途があります。たとえば、企業は AI を活用した音声合成技術を使用して顧客体験を向上させ、ブランドに独自の声を与えています。医療分野では、AI が ALS 患者がコンピューターによる音声ではなく、本来の声を取り戻す手助けをしています。もちろん、Google もこの技術を使用しており、Duplex 機能ではユーザー自身の声を使って代わりに電話をかけることができます。

AI音声合成には悪質な用途もあります。標的の人物の声で通話を偽造したり、国家元首や有名政治家の声を真似て偽ニュースを広めたりするために使用できます。

コンピューターが人間のように話したり発音したりしても、それが何を言っているかを理解しているという意味ではないことは、改めて指摘する必要はないと思います。

人間の言語コマンドの処理

ここでは、表面を突破し、AI と人間の言語の関係についてさらに深く掘り下げます。近年、ディープラーニングの進歩により、自然言語処理 (NLP) の分野では驚異的な進歩が見られました。

NLP は人工知能のサブセットであり、音声をテキストに変換する場合、チャットボットなどのテキスト インターフェイスを介して受信する場合、またはファイルから読み取る場合に、コンピューターが書かれた単語の意味を認識できるようにします。そして、これらの単語の背後にある意味を利用して、特定のアクションを実行できます。

しかし、NLP は非常に幅広い分野であり、さまざまなスキルが必要になる場合があります。最も単純な形式では、NLP はテキスト コマンドを通じて与えられたコマンドをコンピューターが実行できるように支援します。

スマートフォンの AI アシスタントと音声アシスタントは、NLP を使用してユーザーのコマンドを処理します。基本的に、これはユーザーがコマンドの順序に厳密に従う必要がなく、同じ文のさまざまなバリエーションを使用できることを意味します。

一方、NLP は、Google の検索エンジンがユーザーのクエリのより広い意味を理解し、クエリに関連する結果を返すために使用するテクノロジーの 1 つです。

NLP は、Google Analytics や IBM Watson などの分析ツールで非常に役立ちます。これらのツールでは、ユーザーは複雑なクエリ ステートメントを記述する代わりに、自然言語ステートメントを使用してデータをクエリできます。

NLP の興味深い使用例は、Gmail のスマート リプライ機能です。 Google はメールの内容を確認し、推奨される回答を提供しました。この機能には範囲が限定されており、Google の AI アルゴリズムが会議の予定を検出した場合や、送信者が簡単な「ありがとう」や「確認させてください」を聞きたい場合など、短い返信で十分なメールにのみ機能します。しかし、時には、特にモバイル デバイスでは、非常に簡潔な回答が得られるため、入力にかかる時間を数秒節約できます。

しかし、スマート音声や AI アシスタントが天気に関するさまざまな質問に応答できるからといって、人間の言語を完全に理解しているわけではありません。現在の NLP は、意味が非常に明確な文を理解するのにしか適していません。 AI アシスタントは基本的なコマンドを実行する能力が向上していますが、AI アシスタントと有意​​義な会話をしたり抽象的なトピックについて話し合ったりできると考えていると、がっかりすることになるかもしれません。

人間の言葉で話す

NLP の裏側は自然言語生成 (NLG) であり、これはコンピューターが人間にとって意味のあるテキストを生成できるようにする AI 分野です。この分野は、人工知能、特にディープラーニングの進歩からも恩恵を受けています。 NLG アルゴリズムの出力は、チャットボットのようにテキスト形式で表示することも、スマート音声や AI アシスタントのように音声合成によって音声に変換してユーザー向けに再生することもできます。

[[247420]]

多くの場合、NLG は NLP と密接に関連しており、NLP と同様に、NLG はさまざまなレベルの複雑さを伴う非常に広範な分野です。 NLG の基本レベルには、非常に興味深い用途がいくつかあります。たとえば、NLG はグラフやスプレッドシートをテキストの説明に変換できます。 Siri や Alexa などの AI アシスタントも、クエリに対する応答を生成するために NLG を使用します。

Gmail のオートコンプリート機能は非常に興味深い方法で NLG を使用しています。文章を入力すると、Gmail から文章を完成させるための候補が表示されます。候補は、Tab キーを押すかタップして選択できます。この提案では、電子メールの件名が考慮されるため、NLP も関係します。

一部の出版物では、基本的なニュース記事を書くために AI を使用しています。一部のジャーナリストは、AIが近いうちに人間の作家に取って代わるだろうという話をでっち上げているが、彼らの見解は真実からかけ離れている。これらのニュース執筆ボットの背後にあるテクノロジーは NLG であり、基本的には人間のジャーナリストがレポートを書く方法を分析することで事実とデータをストーリーに変換します。新しいアイデアを思いつくことも、個人的な経験を語る物語を書くことも、意見を紹介したり詳しく説明したりするコラムを書くこともできません。

もう一つの興味深いケーススタディは、Google の Duplex です。 Google の AI アシスタントは、人工知能が人間の言語を理解する能力と限界を組み合わせたものです。 Duplex は、音声テキスト変換、NLP、NLG、音声合成を非常に優れた方法で組み合わせているため、電話で話している人間と同じように対話できると多くの人が信じています。しかし、Google Duplex は限定的な AI であり、レストランの予約やサロンの打ち合わせのスケジュール作成など、同社が実証したタイプのタスクの実行に優れていることを意味します。これらの領域における問題領域は有限かつ予測可能です。レストランでテーブルを予約することについて話し合うとき、言えることは限られています。

しかし、Duplex は会話の文脈を理解しません。人間の言語をコンピューターのコマンドに変換し、コンピューターの出力を人間の言語に変換するだけです。予測できない方向に進む可能性のある抽象的な話題について、有意義な会話を行うことはできません。

AI の言語処理および生成機能を過大評価した一部の企業は、その不足分を補うために結局人間の従業員を雇用することになった。

機械翻訳

2016年、ニューヨークタイムズマガジンは、人工知能(より具体的にはディープラーニング)がどのようにしてGoogleの人気翻訳エンジンの精度を飛躍的に向上させたかを説明する長文の特集記事を掲載しました。確かに、Google 翻訳は大幅に改善されました。

しかし、AI翻訳にも限界があり、このような状況に遭遇することがよくあります。ニューラル ネットワークは、機械的かつ統計的なプロセスを使用して言語間の翻訳を行います。彼らは、ターゲット言語で単語やフレーズが出現するさまざまなパターンの例を示し、翻訳時に最も便利なパターンを選択しようとします。つまり、言葉の意味を翻訳するのではなく、数学的な値に基づいたマッピングです。

[[247421]]

対照的に、翻訳するときは、言語の文化や文脈、言葉やことわざの背後にある歴史を考慮します。彼らは決定を下す前にそのテーマの背景を調査します。これは非常に複雑なプロセスであり、多くの常識と抽象的な理解を必要としますが、人工知能はそれを持ち合わせていません。

インディアナ大学の認知科学と比較文学教授ダグラス・ホフスタッター氏は、アトランティック誌に掲載された記事の中で、AI翻訳の限界を明らかにした。

はっきり言って、AI 翻訳には非常に実用的な用途が数多くあります。フランス語から英語に翻訳するときに作業をスピードアップするために頻繁に使用しています。ほとんどの場合、シンプルで本物の文章を翻訳する方が良いでしょう。たとえば、自分の言語を理解していない人とコミュニケーションを取っていて、翻訳の質よりも文章の意味を理解することに興味がある場合、Google のような AI アプリケーションは非常に便利なツールになります。

しかし、AI がすぐにプロの翻訳者に取って代わることは期待できません。

AIが人間の言語をどのように理解しているかを理解する必要がある

まず、現在人工知能の最前線にあるディープラーニングの限界を認識する必要があります。現在、ディープラーニングは人間の言語を理解することができません。誰かがコードを解読し、人間の心と同じように世界を理解できる人工知能を開発すれば、状況は変わるかもしれない。しかし、それはすぐには起こりません。

ほとんどの例が示すように、AI は人間の能力を拡張し、人間の言語を使用するタスクの速度を上げたり下げたりするのに役立つテクノロジーです。しかし、人間の言語の習得を必要とする主題を完全に自動化することを可能にする常識と抽象的な問題解決能力はまだ欠けています。

したがって、人間のように話し、見え、行動する AI テクノロジーを扱うときは、その AI テクノロジーが人間の言語をどの程度深く理解しているかを考慮してください。機能と限界をよりよく理解できるようになります。外見は時には騙されることがあります。

<<:  ファーウェイの「社会的採用停止」の背景:特殊分野を除き、レベル19以上の専門家のみを採用

>>:  Google は機械学習を利用して画像内のオブジェクトにラベルを付け、インターフェース全体の速度を 3 倍に向上させました。

ブログ    

推薦する

図解機械学習: ニューラルネットワークと TensorFlow によるテキスト分類

開発者はよく、機械学習を始めたいなら、まずアルゴリズムを学ぶべきだと言います。しかし、それは私の経験...

3つの興味深い写真: 負荷分散アルゴリズムの改善が必要

図1: 負荷分散アルゴリズムの改善が必要[[91541]]図2: 開発者対テスター、非常に奇妙な図[...

...

セキュリティ業界における5G+AIの探究と実装

セキュリティ業界における5G+AIの活用により、高解像度ビデオはセキュリティ業界に重要な発展の機会を...

...

RPA 導入が失敗する 7 つの理由

ロボティック・プロセス・オートメーションは現在、業界全体のデジタル化を推進するデジタル変革の中核とな...

企業チームのスキルは AI 導入の障壁となるのでしょうか?

人工知能は驚くべきことを実現できますが、いくつかの障害にも直面しています。 2021年に3,500人...

モデルの解釈可能性に関する詳細な考察: それはどこから来て、どこに向かうのか?

この記事の著者である Cody Marie Wild は、機械学習分野のデータ サイエンティスト (...

百度CTO王海鋒氏:「文心易眼」のユーザー数は1億人を超える

「文心易眼のユーザー規模が1億人を突破した」。12月28日、百度の最高技術責任者で、深層学習技術・応...

専門家の視点:汎用人工知能の可能性

人工知能分野の発展に関するニュースを追う際の課題の 1 つは、「AI」という用語が、無関係な 2 つ...

機械学習システムの弱点: 保護が必要な 5 つの理由

[[345683]]日々の努力の究極の目的は、生活をより楽に、より便利にすることです。これが人類の歴...

Java プログラミング スキル - データ構造とアルゴリズム「ソート アルゴリズムの分類と紹介」

導入ソートとは、データのセットを指定された順序で並べるプロセスです。分類カテゴリ内部ソート: ソート...

マイクロソフトの人工知能音声技術は「複数の感情レベル」の調整をサポートし、「人間の声」の繊細な解釈を可能にする

IT Homeは4月12日、マイクロソフトが最近、最新の音声技術を発表したと報じた。この技術は「感情...

機械学習は、モノのインターネットの発展に欠かせない未来となるだろう

近年、機械学習ほどモノのインターネットの急速な成長を牽引したものはほとんどありません。人間の創造性を...

Google Gemini がゲームを逆転!マルチモーダル機能は GPT-4V と同等 | 香港中国語 128 ページの総合評価レポート

Google がゲームを撤回しました! Gemini が API を公開してから1 週間も経たないう...