AIが「軍事顧問」に？まずはRedditユーザーを獲得しよう

[[322491]]

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、シアトルの研究者らは「TuringAdvice」と呼ばれる新たな人工知能のグランドチャレンジを立ち上げました。これは、現実世界の言語を使用する人間に有用なアドバイスを提供できる言語モデルの作成に焦点を当てています。

TuringAdvice チャレンジは、動的な RedditAdvice データセットに基づいています。 Reddit Advice は、このチャレンジのために、過去 2 週間に Reddit グループで最も多くの賛成票を獲得したアドバイスをクラウドソーシングで集めたデータセットとして作成されました。この課題をクリアするには、機械による推奨が一般的な人間の推奨と同等かそれ以上の有用性を備えていなければなりませんでした。

TuringAdvice の一環として、研究者らはアドバイスを提供する AI モデルをトレーニングするための静的 RedditAdvice 2019 データセットもリリースしました。これには、Reddit サブコミュニティのユーザーが共有した 188,000 のコンテキストからの 616,000 件のアドバイスが含まれています。

予備分析によると、Google の T5 (昨年秋に導入された 110 億のパラメータを持つモデル) などの高度なモデルは、モデレーターが少なくとも人間の提案と同等に有用であると判断する提案を作成するケースはわずか 9% に過ぎません。研究者らは、Grover Transformer モデルと TF-IDF のバージョンも評価しました。この研究では、Google の BERT のような一般的な双方向 NLP モデルは評価しませんでした。これは、これらのモデルがテキスト生成において左から右へのモデルよりも劣っていると一般に考えられているためです。人間関係、法律問題、日常生活に関するアドバイスについては、人間とコンピュータの比較デモをオンラインで見つけることができます。

「今日の最大のモデルはREDDITADVICEに苦戦しているため、新しいモデルが普及していくのを見るのは楽しみだ」と、TuringAdviceに関する最近発表された論文に書かれている。

「私たちは、現在、深刻な問題があると考えています。それは、人間が現実世界で言語を使用する方法と、私たちの評価方法で測定できるものとの間にギャップがあるということです。現在主流となっているパラダイムは、静的なデータセットを研究し、その出力が事前に定義された正解とどれほど類似しているかに基づいて機械を評価することです。」

「しかし、アドバイスをしたり、誰かに概念を教えたりといった現実世界で言語を使ってコミュニケーションをとる場合、比較できる普遍的な正解はほとんどなく、それは私たちが達成したい漠然とした目標にすぎません。私たちは、ベンチマークと現実世界の言語使用の間のギャップを埋めるためのフレームワークを導入します。」

著者らは、TuringAdvice チャレンジによる AI の進歩により、人間にアドバイスを提供したり、仮想セラピストとして機能したりできるより優れた AI が生まれる可能性があると述べています。

結果が現実世界の言語使用法と一致していることを確認するために、研究チームは動的評価方法を選択し、最近 2 週間にわたって Reddit のさまざまなサブコミュニティから 200 の状況を収集しました。彼らがテストシナリオとして推奨を選んだのは、それが誰もがよく知っているものであり、読解などのコアな NLP タスクと重複しているからです。

TuringAdvice チャレンジはワシントン大学とアレン AI 研究所の共同研究であり、arXiv で先週公開された研究論文に詳細が記載されています。この論文のタイトルは「現実世界の言語使用による機械の評価」です。アレン研究所の以前のチームを率い、この論文の共著者でもあるワシントン大学の准教授アリ・ファルハディ氏は、彼のAIスタートアップ企業であるXnorが最近アップルに買収されたと語った。

すべてのモデルのパフォーマンス評価は、Amazon の Mechanical Turk を通じて雇用された人間によって行われます。この論文は、AIモデルのトレーニング用データの取得方法について不満を述べており、メカニカルタークの作業員を雇うことは、助けが必要な人間に応じて自動機械による提案を出すよりも倫理的であると主張している。また、タスクの実行に対して報酬を得ることで外発的動機付けが生まれることも認めている。人間の提案よりも機械の提案を選ぶ傾向のある労働者は解雇された。

主任研究員のローワン・ゼラーズ氏はインタビューで、研究者にはモデルを作成し、調整する機会が与えられると明らかにした。第2ラウンドのリーダーボードの結果は、今後数か月以内に発表される予定だ。

研究者らは、Redditのサブコミュニティで共有されている人気のアドバイスを選んだのは、人々がRedditで助けを求めるリクエストに応じるときに経験するような、ある種の内発的動機付けを生み出そうとしたからだと述べた。

TuringAdvice Challenge の焦点の 1 つは価格です。 Mechanical Turk で 200 件の推奨事項を評価するには、約 370 ドルかかります。今後のチャレンジに参加する人は、モデルを評価してもらったり、TuringAdvice のリーダーボードに掲載してもらったりするために、Mechanical Turk の料金を支払う必要があります。

TuringAdvice は、より堅牢な自然言語モデルを構築するために過去 1 年間に作成された最新のチャレンジです。昨年秋、ワシントン大学のNLPラボは、ニューヨーク大学、FacebookのAIリサーチ、Samsung Researchと共同で、パフォーマンスを評価するためのより複雑な一連のタスクであるSuperGLUEチャレンジと「リーダーボード」を立ち上げました。

<<: 1億3000万元の無人公共交通システムの調達に関する簡単な分析：車両のインターネットの商用利用の条件が整っている

>>: トリソララン人は救われた！ディープラーニングは三体問題を解決する