容量はGPT-2の1.7倍! Google がニューラル会話モデル Meena を開発

容量はGPT-2の1.7倍! Google がニューラル会話モデル Meena を開発

Google は、これは「真の」会話型 AI への試みであると述べた。

チャットボットは高度に専門化される傾向があり、応答がユーザーの期待から大きくかけ離れていない限り、そのパフォーマンスは称賛に値します。さまざまな会話トピックをより適切に処理するために、オープンドメイン会話研究では、新しいアプローチを模索してきました。このアプローチでは、研究者は、主にチャットに使用されるわけではないものの、ユーザーのあらゆる会話ニーズを満たすことができる、チャット専用ではないロボットの開発を試みています。

Google の研究者は、オープンドメインの対話研究は魅力的な研究テーマであるだけでなく、コンピューターの対話をさらに人間らしくしたり、外国語の練習を改善したり、映画やゲームの親しみやすいインタラクティブなキャラクターを作成したりするなど、多くの興味深いアプリケーションを生み出すことができると考えています。

しかし、現在のオープンドメイン チャットボットには重大な欠陥があります。同じ質問に対して一貫性のない回答をしたり、基本的な常識を欠いた質問に答えたりするなど、役に立たないことが多いのです。さらに、チャットボットは、現在のコンテキストに固有ではない応答を返すことがよくあります。たとえば、「わかりません」はどの質問にも答えることができますが、現在のチャットボットは、多くの可能性のあるユーザー入力をカバーしているため、人間よりも頻繁にこれを行います。

最近、Google の研究者は「人間のようなオープンドメイン チャットボットに向けて」と題した論文の中で、「Meena」と呼ばれるモデルを紹介しました。これは、26 億のパラメータを持つエンドツーエンドでトレーニングされたニューラル会話モデルです。

論文の中で研究者らは、ミーナが既存の最先端のチャットボットよりも賢く、より具体的な会話を行えることを実証したと述べた。彼らは、オープンドメイン チャットボットのための新しい人間評価指標である感度と特異度の平均 (SSA) を提案しました。これは、人間の会話の基本的かつ重要な特性を捉えるものです。注目すべきことに、研究者らは、あらゆるニューラル会話モデルに簡単に適用できる自動測定基準である「困惑度」が SSA と高い相関関係にあることを実証しました。

「ミーナ」とは

Meena は、特定の会話コンテキストに対してよりインテリジェントに応答することを学習する、エンドツーエンドのニューラル会話モデルです。 Meenaモデルは26億のパラメータを持ち、パブリックドメインのソーシャルメディアの会話からフィルタリングされた341GBのテキストでトレーニングされたと報告されています。既存の最先端の生成モデルOpenAI GPT-2と比較すると、Meenaは1.7倍のモデル容量を持ち、8.5倍のデータでトレーニングされています。

モデルをトレーニングする目的は、「困惑」、つまり次のトークン(会話の次の単語)を予測する際の不確実性を最小限に抑えることです。その中核となるのは、進化型ニューラル アーキテクチャ検索を通じて発見され、難解性を改善した Transformer アーキテクチャである Evolved Transformer seq2seq アーキテクチャです。

具体的には、Meena には、以下に示すように、1 つの Evolved Transformer エンコーダー ブロックと 13 個の Evolved Transformer デコーダー ブロックがあります。エンコーダーは、会話のコンテキストを処理して、ミーナが会話で何が言われたかを理解できるようにする役割を担い、デコーダーはこの情報を使用して応答を作成します。研究者たちは、ハイパーパラメータを調整することで、より強力なデコーダーが会話の質を向上させる鍵であることを発見しました。

トレーニングに使用される会話はツリー スレッドとして整理され、スレッド内の各返信は会話のターンと見なされます。研究者らは、会話トレーニングの各例(7 つのコンテキスト遷移を含む)をツリー スレッドを通るパスとして抽出しました。研究者らは、会話モデルをトレーニングするのに十分な長さのコンテキストを確保しつつ、メモリ制約内にモデルを適合させたかったため(コンテキストが長いほどメモリを多く消費する)、7 回という回数が適切なバランスとして選択されたと述べています。

感度と特異度の平均(SSA)

チャットボットの品質に関する既存の人間による評価指標は複雑であることが多く、レビュー担当者間で合意が得られていません。これをきっかけに、Google の研究者は、自然な会話の基本的かつ重要な特性を捉える新しい人間評価指標である感度と特異度の平均 (SSA) を設計しました。

SSA を計算するために、研究者は参加チャットボット (Meena や、Mitsuku、Cleverbot、XiaoIce、DialoGPT などの他の有名なオープンドメイン チャットボット) との自由形式のクラウドソーシング会話を実施しました。

評価間の一貫性を保つために、各会話は同じ挨拶「こんにちは!」で始まります。人間の評価者は会話中に「答えは理にかなっていますか?」と「答えは具体的ですか?」という 2 つの質問に焦点を当てます。各会話ラウンドで、評価者は常識を使ってロボットの応答が完全に合理的かどうかを判断する必要があります。混乱を招く、非論理的である、文脈から外れている、事実上間違っているなどの問題が生じた場合は、「意味をなさない」と評価する必要があります。回答が意味をなす場合は、文脈を考慮して意味をなすかどうかを判断するために評価する必要があります。

たとえば、A さんが「テニスが大好きです」と答え、B さんが「素晴らしい」と答えた場合、このような応答はさまざまな状況で使用できるため、この会話は「特定ではない」とマークする必要があります。一方、B さんが「私も、ロジャー フェデラーが大好きです」と答えた場合は、その応答が以前に話し合われた内容と密接に関連しているため、「特定」とマークできます。

研究者らは、チャットボットごとに約100回の会話で1,600~2,400件の個別の会話を収集し、各モデルの応答に人間の評価者がラベルを付けて、その回答が妥当かつ具体的であったかどうかを示しました。チャットボットの感度は「敏感」とマークされた応答の割合であり、特異度は「具体的」とマークされた応答の割合であり、これら 2 つの数値の平均が SSA スコアです。

以下の結果は、Meena が SSA スコアの点で既存の最先端のチャットボットを大幅に上回り、人間との差を縮めていることを示しています。

自動評価指標: 困惑度

研究者たちは長い間、より正確な人間の評価と相関し、会話モデルの開発を加速できる自動評価指標を求めてきましたが、これまでそのような自動評価指標を見つけることは困難でした。驚いたことに、Google の研究者たちは、自分たちの研究で「困惑度」がこの自動測定基準に適合しているように見えることを発見しました。この測定基準は、あらゆるニューラル seq2seq モデルに簡単に使用でき、SSA 値などの人間の評価と強い相関関係を示しています。

Google の研究者は「パープレキシティ」について次のように説明しています。「パープレキシティは、言語モデルの不確実性を測定するために使用されます。パープレキシティが低いほど、モデルが次のトークン (文字、サブワード、単語など) を生成する際の信頼性が高くなります。」概念的には、困惑度は、モデルが次の応答を生成するときに選択しようとするオプションの数を表します。

開発中、研究者らは、レイヤー数、アテンションヘッド、トレーニングステップの合計、Evolved Transformer または通常の Transformer のどちらが使用されたか、トレーニングにハードラベルまたは「蒸留」が使用されたかなど、異なるハイパーパラメータとアーキテクチャを持つ 8 つの異なるモデルバージョンをベンチマークしました。下の図に示すように、困惑度が低いほどモデルの SSA スコアは向上し、相関係数も強くなります (R 2 = 0.93)。

編集者注: 知識蒸留 (教師と生徒の学習とも呼ばれる) は、小さなモデルをより大きなモデル (またはモデルのアンサンブル) のように動作するようにトレーニングする必要がある圧縮手法です。

インタラクティブな SSA と困惑。それぞれの青い点は Meena のモデルの異なるバージョンであり、回帰線を描くことで、SSA と混乱の間に強い相関関係があることを示しています。破線は、人間、他のロボット、Meena (ベース)、エンドツーエンドのトレーニング済みモデル、フィルタリングと調整されたデコードを備えた最終的な完全な Meena の SSA パフォーマンスに対応しています。

Google によれば、同社が開発した最高のエンドツーエンド Meena モデルである Meena (ベース) は、パープレキシティが 10.2 (小さいほど良い)、変換 SSA スコアが 72% である。フィルタリング メカニズムとデコードされたデコード機能を備えた Meena のフル バージョンでは、SSA スコアがさらに 79% まで向上する。

今後の研究と課題

今後の計画について、Google の研究者は、アルゴリズム、アーキテクチャ、データ、コンピューティングを改善することで、ニューラル対話モデルの混乱を減らし続けると述べました。研究者は現在、この研究において感性と特異性のみに焦点を当てていますが、その後の研究では他の属性(事実性など)も考慮する価値があります。さらに、モデルの安全性とバイアスに対処することは、Google が重点的に取り組んでいる分野です。

<<:  大規模な伝染病に直面した時、ロボットは何ができるでしょうか?

>>:  Baidu: 無料で公開されている LinearFold アルゴリズムにより、RNA 分析を 55 分から 27 秒に短縮できます

ブログ    

推薦する

純粋な乾物 | ディープラーニング研究の概要

[[195952]] 1. ディープラーニングディープラーニングといえば、一度でも触れたことがある人...

...

機械学習モデルのトレーニングの全プロセス!

週末に家で退屈していたので、GitHub を閲覧していたところ、非常に興味深いオープンソース プロジ...

予想外だが妥当: ガートナーの 2020 年データ サイエンスおよび機械学習プラットフォームのマジック クアドラントの解釈

最近、ガートナーはデータ サイエンスおよび機械学習 (DSML) プラットフォームに関するマジック ...

...

機械学習はデータに依存する

[[186928]]ビッグデータ、分析、モノのインターネット、クラウドテクノロジー...近年、これら...

Nvidia は 5 億ドル相当の巨額注文を獲得しました。インドのデータセンターが H100/GH200 を一気に 16,000 台購入

Nvidia は大きな注文を受けるのでしょうか? 1 回のトランザクションには 16,000 個の ...

...

Google は人工知能の分野で「堀」を持っていないのでしょうか?

少し前、匿名の人物が、Google 社内の研究者による研究メモを Discord プラットフォームに...

2018 年に人工知能アプリケーションはどのように実装されるのでしょうか?

[[229403]]現在の人工知能の発展は「実用的な」段階に入っています。 2018年の初め、国家...

プライバシー情報セキュリティに注意を払い、顔認識の数十億ドル規模のブルーオーシャンを開拓しましょう

近年、人工知能の継続的な発展とインテリジェント時代の静かな到来に伴い、顔認識に代表される生体認証技術...

李開復、胡宇、張亜琴の GMIC 2018 対談: AI 戦略と AI 人材育成における中国と米国の違いは何ですか?

[[227402]]人工知能が急成長を遂げている現在、AI人材の不足は中国だけでなく、世界全体が直...

ChatGPT以外の14の大規模言語モデル

翻訳者 | 李睿レビュー | Chonglou今日、多くの企業幹部は人工知能を将来の発展方向と見てお...

業界: 過去数か月で、古い AI チップの価格が下がり、大規模モデルのトレーニングのコストが 60% 低下しました。

1月24日のニュースでは、大規模言語モデル(LLM)の開発にはコストがかかることがよく知られていま...

...