2020年のAI技術のブレークスルーをすべて見る

2020年のAI技術のブレークスルーをすべて見る

2020年は、厳しい防疫活動のさなか、静かに過ぎていきました。今年も人工知能の進歩は止まりませんでした。

今年、人工知能業界ではどのような新たな展開がありましたか?世界的な流行にどのような影響があったのでしょうか?来年のトレンドはどうなるでしょうか?データ サイエンス コミュニティ Analytics Vidhya がこれを要約しています。

報告書では、2020年は大きな飛躍の年になると考えています。 OpenAI の GPT-3 から AlphaFold まで、これらはすべて刺激的な成果です。同時に、機械学習、自然言語処理 (NLP)、コンピュータービジョンなどの分野でデータサイエンスが急成長しています。

[[373598]]

2020 年の画期的なテクノロジーを見てみましょう。

自然言語処理 (NLP)
最大の言語モデルGPT-3

今年2月、マイクロソフトは170億のパラメータを持つ世界最大のディープラーニングモデル、Turing NLPをリリースした。数か月後、GPT-3がそれをはるかに上回った。

GPT-3は1750億のパラメータを持つ自然言語ディープラーニングモデルです。Common CrawlheやWikipediaからデータセットも収集しています。データセットの総量は、以前公開されたGPT-2の116倍で、これまでで最大のトレーニングモデルとなっています。

[[373599]]

GPT-2 のアップグレード版として、機能上の類似点と相違点は何ですか?

これらはすべて Transformer に基づいていますが、初期化の変更、事前正規化、および可逆トークン化のパフォーマンスは同じです。

しかし、それらのトランスフォーマーのタイプは異なります。GPT-3 は、スパーストランスフォーマーに似たものを使用して、各レイヤーで交互に密なスパースアテンションパターンとローカルバンドスパースアテンションパターンを使用します。

GPT-3 は、BERT の 2 つの欠点も完璧に補います。ドメイン内のラベル付きデータに過度に依存せず、ドメイン データの分布に過剰適合することもありません。

この強力な言語モデルは、質問に答えるだけでなく、翻訳、計算、推論タスクの完了、同義語の置き換えなども行うことができます。また、ニュースを書くこともできますが、そのニュースは十分に根拠があり、真実か虚偽かを判断するのは困難です。

一般ユーザーはこのような強力な GPT-3 をどのように使用すればよいのでしょうか?

OpenAI はAPI を有料で公開しており、誰でも「テキスト入力、テキスト出力」インターフェースを通じて GPT-3 モデルにアクセスできます。

関連論文がNeurIPS2020の優秀論文に選ばれました。

論文の宛先:
出典: arxiv.org
プロジェクトアドレス:
https://github.com/openai/gpt-3
参考リンク:
出典: openai.com

最大のチャットボットBlenderBot

BlenderBot は、Facebook がオープンソース化した94 億のパラメータを持つチャットボットです。

Facebookは、BlenderBotはGoogleのMeenaよりも優れており、共感、知識、個性などの会話スキルを組み合わせたFacebookでの長年の研究の成果であると主張している。

人間の評価者によると、BlenderBot はエンゲージメントの点で他のモデルよりも優れており、より人間らしいと感じられました。

このチャットボットには 94 億のパラメータが含まれており、改良されたデコード技術と斬新なスキル融合を特徴としており、これまでの最大のチャットボット システムの3.6 倍の大きさです

公式ブログ:

https://ai.facebook.com/blog/state-of-the-art-open-source-chatbot/

プロジェクトアドレス:
https://parl.ai/projects/recipes/

コンピュータビジョン
物体検出モデル DETR

DETR は、Transformer を使用したエンドツーエンドのオブジェクト検出モデルです。

従来のコンピューター ビジョン モデルとは異なり、DETR は NLP モデルにおける予測問題としてオブジェクト検出問題を解決します。

Facebookは、DETRは「物体検出とパノプティックセグメンテーションへの重要な新しいアプローチ」であると主張している。これは、二部マッチングと、Transformer エンコーダー/デコーダー アーキテクチャを使用して一意の予測を適用するアンサンブル ベースのグローバル損失で構成されています。

従来の物体検出システムと比較すると、DETR のアーキテクチャは完全に異なります。これは、検出パイプラインの中心的な構成要素として Transformer を統合した最初のオブジェクト検出フレームワークです。

DETR は、アーキテクチャを完全に簡素化しながら、最先端の方法でパフォーマンスのバランスを実現します。

公式ブログ:
https://ai.facebook.com/research/publications/end-to-end-object-detection-with-transformers

ソースコード:
https://github.com/facebookresearch/detr

セマンティックセグメンテーションモデル FasterSEG

FasterSEG は優れたパフォーマンスを備えているだけでなく、最速の速度も備えています。リアルタイムのセマンティックセグメンテーションネットワークモデルです。

ご存知のとおり、セマンティックセグメンテーションはピクセルレベルで画像に正確に注釈を付けることができます。

しかし、時が経つにつれて、画像の解像度はどんどん高くなっています。

ここで、FasterSeg はニューラル アーキテクチャ検索 (NAS)アプローチを採用しており、より斬新で幅広い検索空間に適用して、さまざまな解像度の画像問題を解決できます。

また、分離され、きめ細かな遅延正規化アプローチも提案されており、精度を向上させながら速度も上げ、それによって「アーキテクチャの崩壊」の問題を軽減します。

実験では、FasterSeg は精度を維持しながら Cityscapes よりも 30% 以上高速に実行されることが示されています。

FasterSegに関する論文がICLR 2020で発表されました。

論文の宛先:
https://arxiv.org/abs/1912.10917
プロジェクトアドレス:
https://github.com/VITA-Group/FasterSeg

エフィシェントデット-D7

EfficientNet-D7 は主に CV 分野のエッジ デバイスで使用され、効率性と利便性を高めます。

これは AutoML に基づいて Google によって開発され、COCO オブジェクト検出タスクでSOTA レベルを達成しました。

同様の製品に比べて必要なモデルパラメータが 4 ~ 9 倍少なく、他の検出器に比べて GPU で5 ~ 11 倍高速に実行されます。

著者は、Google Brain のエンジニアである Mingxing Tan 氏と主任科学者の Quoc V. Le 氏です。

関連論文がCVPR 2020に採択されました。

論文の宛先:
https://arxiv.org/abs/1911.09070

プロジェクトアドレス:
https://github.com/google/automl/tree/master/efficientdet

ディテクトロン2

この強力な PyTorch オブジェクト検出ライブラリは Facebook から提供されています。

Detectron の第 1 世代と比較すると、トレーニングが高速化され、機能がより充実し、サポートされるモデルが増え、かつては GitHub のホット リストでトップになりました。

実際、Detectron2 は第 1 世代の Detectron を完全に書き直したものです。第 1 世代は Caffe2 で実装されていましたが、モデル設計と実験をより速く反復するために、Detectron2 は PyTorch でゼロから作成されました。

さらに、Detectron2 はモジュール化されており、ユーザーは独自のカスタマイズされたモジュールを実装し、それをオブジェクト検出システムの任意の部分に追加できます。

これは、わずか数百行のコードで多くの新しい研究を記述でき、新しい実装をコア Detectron2 ライブラリから完全に分離できることを意味します。

Detectron2 は、第 1 世代の利用可能なすべてのモデル (Faster R-CNN、Mask R-CNN、RetinaNet、DensePose) に基づいて、Cascade R-NN、Panoptic FPN、TensorMask などの新しいモデルを追加します。

オープンソースアドレス:
https://github.com/facebookresearch/detectron2

DeepMindのAlphaFoldがタンパク質の折り畳み問題を解決

グーグル傘下の人工知能技術企業ディープマインドが提案したディープラーニングアルゴリズム「AlphaFold」は、生物学者を50年間悩ませてきたタンパク質分子の折り畳み問題を解決した。

AlphaFold は、タンパク質構造のどの部分がより重要であるかを正確に判断することもできます。

ネイチャー誌とサイエンス誌は急いでこの科学的成果を報じ、テクノロジー界の巨人たちも祝辞を送った。

Alphafold は生物学で大きな進歩を遂げ、CV と ML の分野で画期的な出来事となりました。これは「生物学界における ImageNet の瞬間」と呼ばれています。

このアルゴリズムでは、科学者はタンパク質の折り畳まれた形状を「空間グラフ」として捉え、残基を使用してそれらの間のノードを表します。これにより、タンパク質の特定の構造を探索するためにエンドツーエンドでトレーニングされた注意ニューラル ネットワーク システムが作成されました。

Alphafold はアルゴリズムをトレーニングするために、170,000 個のタンパク質構造のデータベースを使用し、約 128 個の TPUv3 コア (100 ~ 200 個の GPU に相当) を使用して数週間にわたって実行し、非常に効率的なアルゴリズムを実現しました。

この研究の影響は広範囲に及ぶ。コロンビア大学の生物学者モハメッド・アルクライシ氏はネイチャー誌の記事でこう述べている。

これはタンパク質構造予測の分野に大きな影響を与えるものであり、第一級の科学的ブレークスルーであり、私が生涯追い求めてきた科学的成果です。

オープンソースコード:
https://github.com/deepmind/deepmind-research/tree/master/alphafold_casp13
論文の宛先:
出典:http://www.biorxiv.org/content/10.1101/846279v1.full.pdf

強化学習
Agent57は人間の基準よりも高いスコアを獲得

Agent57 は DeepMind によって開発され、Atari テスト セットの 2,600 のゲームで人間の平均を上回るパフォーマンスを発揮しました。

[[373600]]

また、57 種類の Atari ビデオ ゲームの評価メカニズムも作成しました。これらの評価メカニズムでは、RL エージェントが多くのことを習得する必要があるため、これを実装できる RL アルゴリズムはほとんどありません。

Agent57 は、Arcade Learning Environment (ALE) 環境で、RL、モデル学習、モデルベースのトレーニング、模倣学習、転移学習、内部化などのさまざまな方法を使用します。

Atari 2600 ゲーム環境インターフェイスを提供し、人間のプレイヤーがより豊富な人間とコンピュータのチャレンジを受け入れることを可能にします。

ゲームに関して言えば、Agent57 は間違いなく最強の RL エージェントです。

彼らの研究論文は「Journal of Artificial Intelligence Research」に掲載されました。

論文の宛先:
https://arxiv.org/abs/1207.4708f

機械学習オペレーションの台頭
MLOps (機械学習オペレーション) は、データ サイエンスの分野における比較的新しい概念です。 DevOps(開発と運用の組み合わせ)に似ており、簡単に言えば機械学習のための DevOps です。

DevOps が IT 開発者に役立つ場合、開発者が実装と保守のためにプロジェクトを IT 運用部門に引き渡すという問題を解決します。

そして、MLOps はデータ サイエンティストと ML エンジニアにサービスを提供して、彼らが共同で作業し、作業効率を向上できるようにします。

ML と AI が運用サイクル中に遭遇するさまざまな問題を解決するための完全な動作戦略セットを備えています。

最も急速に成長している GitHub プロジェクトのトップ 20 のうち 5 つは機械学習運用ツールです。

これは、AI業界全体が「モデルをどう開発するか」から「モデルをどう運用・保守するか」へと移行しつつあることを示しています。

参考リンク:
https://nealanalytics.com/expertise/mlops/ 翻訳:
オープンソースアドレス:
参考:

コロナウイルスとの戦いにおけるAI
世界保健機関は、新型コロナウイルスと闘うための9つの主要な研究方向を挙げた。

ホワイトハウスは Kaggle に参加を呼びかけ、これら 9 つの重要な質問に対する答えを見つける NLP チャレンジを開始しました。

Kaggleでは、 20万件の学術論文を含むCOVID-19データセットを、世界中のNLP研究やAI研究に無償で提供しています。世界中のAI研究者が科学技術の手段を使ってCOVID-19問題の解決を推進してくれることが期待されています。

このデータセットは、ホワイトハウス科学技術政策局が調整し計画したもので、アレンAI研究所、ザッカーバーグ財団、ジョージタウン大学セキュリティ・新興技術センター、マイクロソフトリサーチ、IBMなど多くのテクノロジー大手の協力を得ている。

Kaggle は予測コンペも開始しました。世界のさまざまな地域における COVID-19 の感染者数と死亡者数を予測します。そして、予測されたデータと実際のデータを比較して、データ予測モデルを形成します。

予測モデルが十分に優れていれば、新型コロナウイルス肺炎による医療資源の不足を緩和できる可能性がある。

新型コロナウイルスの9つの研究方向:

https://www.who.int/blueprint/priority-diseases/key-action/Global_Research_Forum_FINAL_VERSION_for_web_14_feb_2020.pdf?ua=1
COVID-19データセット:
https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge/

2021年の機械学習の展望
NLP からコンピューター ビジョン、強化学習から機械学習の運用と保守まで。誰もが AI 分野の進歩を目の当たりにしており、AI が世界的な流行病に力を与えることができることを期待しています。

テクノロジーは今も進歩していますが、2021年にはどのような変化が起こるのでしょうか?

Analytics Vidhya は、2021 年の主要なトレンドを次のように予測しています。

1.データサイエンス分野の就職機会は2021年も増加し続けるでしょう。データの爆発的な増加と消費習慣の変化により、データサイエンスはますます重要な役割を果たすようになります。同時に、従来の製造業や鉱業でもデータを分析する必要があります。

2. Facebook の PyTorch の使用量は Google の TensorFlow を上回るでしょう。機械学習フレームワーク戦争には、PyTorch と TensorFlow という 2 つの主な競合相手がいます。分析によると、研究者は徐々に TensorFlow を放棄し、PyTorch を広範に使用していることがわかります。

3. Pythonは2021年にさらに人気が高まります。 Python が現在最も人気のある言語であることに疑いの余地はありません。同社はその地位を強化するため、10月にパフォーマンスを向上させるPython 3.9をリリースした。現在、Python 3.10 が開発中であり、2021 年初頭にリリースされる予定です。

4.流行前のデータに基づくモデルの有効性は低下します。パンデミックは世界的な消費習慣の変化を引き起こし、パンデミック前の時代のデータモデルの有効性は徐々に低下しています。ポストパンデミックの時代には、こうした新たな消費パターンの特徴を理解できる人が成功するだろう。

5.データ市場は引き続き拡大するでしょう。 COVID-19 パンデミックにより、世界中の消費者行動と市場のルールが変化し、より大きな価値を生み出す多様で新しいデータセットが生成されています。

<<:  無駄な文化に抵抗しましょう!チューリング賞受賞者のジューディア・パール氏と21人の学者が共同で公開書簡を発表

>>:  ハリバートンのチーフデータサイエンティスト兼テクニカルフェローがエネルギー業界における AI アプリケーションの現状について語る

ブログ    

推薦する

米国の学区は校内暴力を防ぐためにAIを活用し、脅迫的な言葉を検知して管理者に通知しているが、事前診断率はわずか25%に過ぎない。

アメリカでまた銃撃事件が発生。 5月24日、テキサス州ユバルデのロブ小学校で銃撃事件が発生し、少なく...

顧客サービスの革命: 現代のビジネスにおける広報ロボットの役割

人工知能 (AI) の登場により、企業の運営方法は劇的に変化し、PR ボットが顧客サービスの革命にお...

世界初の人工知能地震監視システムが始動:1秒以内に正確な推定

最近、中国科学技術大学の研究チームは中国地震局と協力し、世界初の人工知能地震監視システム「スマート地...

「深く」「鮮明に」見る - 画像の超高精細化におけるディープラーニングの応用

[[426283]]毎日肖像画を模写する練習を続けた結果、この芸術家はいくつかの重要な特徴だけを描い...

2021 年に注目すべき 27 の建設技術トレンド (パート 2)

テクノロジーは建設業界にかつてないほど大きな影響を与えています。クラウドベースのコラボレーションやデ...

視覚慣性走行距離計のIMU事前統合モデルについてお話しましょう

エンジニアリングの実践では、単に視覚オドメトリ (VO) を使用するのではなく、視覚と IMU を組...

...

TransformerはAI分野を支配するのでしょうか?結論を出すのは時期尚早だ

自然言語処理タスクから始まり、画像分類と生成の分野で活躍する無敵のトランスフォーマーは、次の伝説とな...

米国のテクノロジー業界が冬を乗り切る中、プログラマーたちは仕事を維持するために率先して給与を削減している。 35歳の会社員:給料をもう少し下げてもいい

テクノロジー業界は歴史的に平均給与が最も高い業界の一つであり、リストのトップにランクされることも少な...

XiaoIce がクローンを正式にリリース: すでに年間 100 万元を稼いだ人もいます!

AIの助けを借りれば、月に10万元、年に100万元稼ぐことができます。想像できますか?信じないでく...

JD テクノロジー オープン デー第 4 号 - 電子商取引推奨検索システムのアーキテクチャとアルゴリズムの実践

第 4 回「JD テクノロジー オープン デー」イベントは、9 月 27 日に北京市宜荘区の超林広場...

爆発!ローカル展開、複数のAIモデル間の簡単な切り替え

私は週末に AI で遊んでいて、個人的な知識ベースをローカルに展開しています。基本的には OpenA...

CMU の専門家が「マルチモーダル機械学習」の 6 つの主要な課題を包括的にまとめています。36 ページの長い記事 + 120 ページの PPT、すべて実用的な情報です。

さまざまな言語、視覚、ビデオ、オーディオなどの大規模モデルのパフォーマンスが向上し続けるにつれて、マ...

人工知能は10の新たな雇用を生み出す

25秒で何ができるでしょうか?人間の記者たちがまだショックを受けている間に、ロボットはデータマイニン...