人類はついに怠惰なAIを生み出してしまった…

人類はついに怠惰なAIを生み出してしまった…

強化学習 (RL) の概念を説明する記事は多数ありますが、現実世界で RL を実際に設計して実装する方法を説明する記事はほとんどありません。

[[314129]]

今回、Xiaoxin は人工知能のパラダイムシフトに関する教訓を共有し、設計上のトレードオフについて議論し、技術的な詳細を掘り下げていきたいと考えています。

それでは、始めましょう!

まずはお酒?

パーティーで少しほろ酔い状態か酔っていて、一人(または複数)の魅力的な知り合いに好印象を与えるために、自ら飲酒ゲームに参加すると想像してください。

誰かがあなたに目隠しをして、ビールのグラスか瓶を手渡し、「ビールを注いで!」と叫びます。

あなたは何をしますか?

次のような反応が起こる可能性があります: くそ、どうしよう? どうしたら勝てるんだ! 負けたらどうしよう!?

ゲームのルールは次のとおりです。10 秒以内に、ビールをグラスのマークにできるだけ近いところに注ぎます。ビールを注ぎ入れたり、出したりできます。

RL (強化学習) ソリューションは、高度で意味のある同様のタスクに直面しています。詳細をぜひご覧ください。

現実世界のビール問題

環境に優しい自転車シェアリング事業には大きな問題がある。一日を通して、自転車駐車スペース(カップ)あたりのシェア自転車(ビール)の数が多すぎるか、少なすぎるかのどちらかになります。

[[314130]]

ニューヨーク市の自転車駐輪場における自転車の過剰(左)と自転車の不足(右)

これは自転車利用者にとって大きな不便であり、運営には数百万ドルの費用がかかるため、費用対効果が高くありません。少し前、ニューヨーク大学の私のチームは、人間の介入を最小限に抑えて自転車の在庫管理を支援する AI ソリューションを提供するという任務を負っていました。

目標: 毎日の自転車駐車スペースの数を 1 ~ 50 台の範囲に保ちます (カップのマークをイメージしてください)。これはシェアリングエコノミーにおける「リバランス問題」として知られています。

制限事項: 運用上の制限により、チームは 1 日あたり 1 時間あたり 1 台、3 台、または 10 台の自転車 (注ぎ入れたり取り出したりできるビールの量) しか移動できません。もちろん、何もしないことを選択することもできます。チームが移動するバイクの数が増えるほど、費用も高くなります。

怠惰な強化学習ソリューション

チームは、従来のアプローチ(ルールベースや予測など)の多くの制限を克服する RL(強化学習)を使用することを決定しました。

RL (強化学習) といくつかの重要な概念について学びたい場合は、Jonathan Hui が書いた素晴らしい入門書と、Thomas Simonini がソリューションで使用される RL アルゴリズム Q 学習について詳しく説明しています。

人間は極めて怠惰な人工知能を生み出してしまったことが判明した。自転車の在庫が 60 を超えると、通常は何もしないか、最小限のアクション (1 台または 3 台の自転車を移動) を実行することを選択します。直感に反するように思えるかもしれませんが、非常に賢明なことです。

直感的には、特に駐車場が満車の場合は、できるだけ多くの自転車を移動させて 50 台未満に抑えたいと思うかもしれません。ただし、RL (強化学習) は、移動のコスト (移動する自転車の数が多いほどコストが高くなります) と特定の状況での成功の可能性を識別します。残された時間を考えると、目標を達成するのは不可能だ。諦めることが最善の選択だとわかっています。したがって、諦める方が挑戦し続けるよりもコストはかかりません。

だから何?Google の Alpha Go が開発した有名な 37 手目や 78 手目のような型破りな決定を AI が下すと、人間の偏見に挑戦し、知識の呪縛を打ち破り、人類を未知の道へと導くことになります。

人工知能の創造は、発明であると同時に、人間の心の内部の仕組みを探る旅でもあります。 —DeepMindの創設者デミス・ハサビス氏、「エコノミスト」誌の「2020年の世界」より。

ただし、注意してください。人間の価値観に代わるものはないので、人間は絶望したり、自分を見失ったりすることはありません。

哲学はもう十分だ、さあ現実を見よう

RL は自転車駐輪スペースをどのように管理していますか?

下の図は、RL ありとなしでの 1 日あたりの駐輪自転車数を示しています。

  • 青い線はRLなしの自転車駐輪の傾向です。
  • 黄色の線は、初期の RL 状況でバイクから外れる傾向を示しており、非常にコストがかかります。
  • 緑の線はトレーニングされた RL であり、目標を達成するのに十分な数のバイクのみを移動し、コストをより意識しています。

著者分析

RL は何をするかをどのように決定するのでしょうか?

以下は、98,000 エポックのトレーニング後の RL ソリューションの Q テーブルのスナップショットです。駐車場の自転車の数 (垂直データ) に基づいて、RL が何をすべきか (水平データ) を決定する方法について説明します。 RL が赤色で動作することを選択する可能性は低いです。下部の赤い部分を見てください。


著者分析

RL はどれほどスマートになれるでしょうか? 次の図は、RL が駐車スペースを管理する方法を示しています。ディープラーニングを通じて、RL は全体的な成功率を徐々に向上させ、驚異的な 98% まで向上させることができます。


著者分析

この記事をお楽しみいただき、現実世界での RL の可能性を楽しみにお待ちいただければ幸いです。

<<:  5G消毒ロボットが武漢を支援し、人間の感染を効果的に防ぐことができる

>>:  人工知能は伝染病との戦いに活用できるのか?

ブログ    
ブログ    
ブログ    

推薦する

GPT-3は創造性に欠けるにもかかわらず、わずか20分で合格できる大学論文を書いた。

GPT-3で書かれた論文は通過したのでしょうか?教育リソースウェブサイトEduRefがこれに関する...

自然災害の予測に関しては、AIはまだ大丈夫でしょうか?

古代から現代に至るまで、自然災害は人類に限りない損失をもたらしてきました。都市社会がますます発展する...

Weiboはどのように実装されていますか? Weiboの背後にあるアルゴリズム

導入Weiboは多くの人が利用するソーシャルアプリケーションです。毎日Weiboを閲覧する人は、オリ...

とんでもないことだ! UniVision: BEV 検出と Occ 共同統合フレームワーク、デュアルタスク SOTA!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

2018年に人工知能はどのように発展するでしょうか? 13人の専門家の予測を聞いてみよう

ウォール・ストリート・ジャーナル、フォーブス、フォーチュンなどの出版物は、2017 年を「AI の年...

インテリジェントオートメーションにおける人工知能の重要な役割

パンデミックによる職場の変化により、バックオフィス業務や生産活動を改善できるロボティック・プロセス・...

TIC 2018で人工知能が熱く議論され、AIが応用段階に突入

[51CTO.com からのオリジナル記事] クラウド コンピューティング、ビッグ データ、ブロック...

人工知能技術の発展に関する合理的な見方

[[421597]]社会の生産性が急速に発展するにつれ、文学作品に描かれた未来の技術やより良い生活が...

LLaMA2コンテキストを10万に拡張し、MITと香港中文大学はLongLoRAメソッドを開発

一般的に、大規模なモデルを事前トレーニングする場合、テキストの長さは固定されます。より長いテキストを...

...

新素材の画期的な進歩、AIの医療への参入…2021年はどんな新しい技術トレンドを迎えるのでしょうか?

2020年も終わりに近づいていますが、疫病は科学技術の進歩を止めることはなく、量子コンピューティン...

マイクロソフトがCopilot for Financeをリリース、AIでスプレッドシートに革命を起こすことを目指す

Microsoft が新たにリリースした AI アシスタントは、増え続ける財務データの中から適切な情...

3万語に及ぶ記事: サーバー開発と設計のためのアルゴリズム集

[[442986]]孫子はこう言った。「行軍と戦闘の最善の方法は戦略を使うこと、次に良いのは敵の同盟...

2018年ロシアワールドカップではどのような「スマートハードウェア」が使用されましたか?

4年待ちに待ったワールドカップがついにやって来ました。業界に数十億ドルの資金が投入され、世界人口の...

オープンソースのコラボレーションを通じて AI を進化させる方法

[[377773]]人工知能は、業界団体によって大々的に宣伝され、推進されている用語の 1 つになっ...