Github ホットリスト: 2021 年の最もクールな AI 論文 33 件をレビュー!多くの中国人作家が選ばれた

[[435977]]

現在、AI技術は急速に進歩しており、毎年多くの優れた論文が発表されています。

2021 年に見逃せない論文を知りたいですか?

ちょうど今、GitHub で、ある人がこんなプロジェクトを公開しました。現時点では、今年必読の論文 33 本をまとめた、まさに「良心の宝庫」とも言える内容です。

https://github.com/louisfb01/best_AI_papers_2021

このプロジェクトの名前は「2021 年の驚くべき人工知能論文のレビュー」で、著者は Louis-François Bouchard (GitHub 名は louisfb01) です。開始後 1 日で 314 個のスターを獲得しました (そして、増え続けています)。

Louis-François Bouchard はカナダのモントリオール出身です。現在、École de Technologie Supérieure で人工知能 - コンピュータービジョンの修士号を取得しながら、designstripe で主任 AI 研究科学者としてパートタイムで働いています。

ルイは YouTube に「What's AI」という独自のチャンネルも持っていることは特筆に値します。

[[435978]]

What's AI ホームページ: https://www.louisbouchard.ai/

ルイが YouTube に「What's AI」チャンネルを作成した理由は、人工知能を簡単な言葉で共有および説明し、新しい研究とアプリケーションをすべての人と共有するためです。

YouTube What's AI チャンネル: https://www.youtube.com/c/WhatsAI/featured

ルイは、人工知能の「ブラックボックス」の謎をすべての人に明らかにし、それを使用することのリスクを人々に認識してもらいたいと考えています。

ルイは学ぶことが大好きで、学んだことを共有する、とても共有好きな人です。彼は数多くの記事を書き、自分のチャンネルで動画を更新しており、GitHub でいくつかの興味深いプロジェクトにも取り組んでいます。

[[435979]]

実は、「驚きに満ちた2021年AI論文レビュー」は、ルイが「AI論文レビュー」シリーズを更新して2年目になります。

ルイ氏は2020年に、「驚きに満ちた2020年AI論文レビュー」プロジェクトも立ち上げました。このプロジェクトには、公開日順に並べられた最新のAIブレークスルーの厳選リストが含まれており、わかりやすいビデオ説明、より詳細な記事へのリンク、ソースコードが含まれています。

https://github.com/louisfb01/Best_AI_paper_2020

次は「驚きに満ちた2021年AI論文レビュー」を見て、どんな驚きの最新AI研究成果があるのか見ていきましょう！

2021年の驚きに満ちたAI論文レビュー

世界はまだゆっくりと回復しつつありますが、特に人工知能の分野では研究が減速する気配はありません。

さらに、2021 年には、偏見、ガバナンス、透明性などに重点を置いた倫理的側面など、多くの重要な側面も強調されました。

人工知能と人間の脳、そしてその AI とのつながりについての理解は絶えず進化しており、近い将来、私たちの生活の質が向上するという希望が生まれるかもしれません。

優れた論文からの抜粋

1. DALL-E: ゼロショットテキスト画像生成、OpenAI より

論文アドレス: https://arxiv.org/pdf/2102.12092.pdf

青い帽子、赤い手袋、黄色いズボンをはめたペンギンの絵文字。

論文紹介:

GPT-3 は、言語を使用して大規模なニューラルネットワークを誘導し、さまざまなテキスト生成タスクを実行できることを示しています。

Image GPT は、同じタイプのニューラルネットワークを使用して高忠実度画像を生成することもできることを示しています。この画期的な進歩は、視覚的な概念を文字言語で操作することが今や実現可能になったことを示しています。

OpenAI は、テキストキャプションから画像を生成できるネットワークのトレーニングに成功しました。 GPT-3 や Image GPT と非常によく似ており、驚くべき結果を生み出します。

GPT-3 と同様に、DALL-E も Transformer 言語モデルです。テキストと画像の両方を最大 1280 個のトークンを含む単一のデータストリームとして受信し、最大尤度推定を使用してトレーニングされ、すべてのトークンが 1 つずつ生成されます。

このトレーニングプロセスにより、DALL-E は画像を最初から生成できるだけでなく、テキストプロンプトの内容とほぼ一致する既存の画像の任意の長方形領域を再生成することもできます。

DALL·E を使ってペンギンの枕を生成

2. Swin Transformer: シフトウィンドウを使用した階層型ビジョントランスフォーマー

論文アドレス: https://arxiv.org/pdf/2103.14030.pdf

論文紹介:

この記事では、コンピュータービジョンに適用できる新しいトランスフォーマー、Swin Transformer を紹介します。

Transformer がコンピュータービジョンの問題を解決する際の課題は、主に 2 つの領域から生じます。画像のスケールが大きく変化することと、画像の解像度が高いことです。一部の視覚タスクとセマンティックセグメンテーションでは、自己注意の計算の複雑さが画像サイズの 2 乗になるため、Transformer ではピクセルレベルでの高密度予測を処理することが困難です。

これらの問題を克服するために、Swin Transformer は階層的な Transformer 特徴マップを構築し、シフトウィンドウ計算を採用します。シフトウィンドウスキームは、自己注意の計算を重複しないローカルウィンドウ (赤でマーク) に制限し、同時にウィンドウ間の接続を許可することで、より高い効率をもたらします。

Swin Transformer は、小さなサイズのパッチ (灰色で囲まれている) から始めて、隣接するパッチを徐々に深い Transformer レイヤーにマージすることで、階層的な表現を構築します。この階層型アーキテクチャは、さまざまなスケールで柔軟にモデル化でき、画像サイズに対して線形の計算複雑性を持ちます。線形計算の複雑さは、セグメント化された画像の重複しないウィンドウ (赤で囲まれた部分) 内で自己注意をローカルに計算することによって実現されます。各ウィンドウのパッチの数は固定されているため、複雑さは画像サイズに比例します。

Swin Transformerは、画像分類、物体検出、セマンティックセグメンテーションなどの認識タスクで優れたパフォーマンスを達成しました。3つのタスクにおいて、Swin Transformerの時間遅延はViT、DeiT、ResNeXtモデルと同等ですが、パフォーマンスは大幅に向上しました。COCO test-devでは58.7ボックスAPと51.1マスクAPとなり、これまでの最先端の結果である2.7ボックスAPと2.6マスクAPを上回りました。 ADE20K セマンティックセグメンテーションタスクでは、Swin Transformer は検証セットで 53.5 mIoU を達成しました。これは、以前の最先端技術 (SETR) よりも 3.2 mIoU 優れています。 ImageNet-1K 画像分類でも 87.3% という最高精度を達成し、Transformer モデルが新しい視覚的バックボーンとして持つ可能性を十分に実証しました。

論文の筆頭著者であるLiu Ze氏はUSTCの学生であり、Microsoft Research Asiaのインターンである。彼は2019年に中国科学技術大学で学士号を取得し、最高の成績で郭沫若奨学金を受賞しました。

個人ホームページによると、ICCV2021に論文2件と口頭発表1件が採択されたとのこと。

[[435982]]

個人ホームページ: https://zeliu98.github.io/

3. StyleCLIP: StyleGAN画像のテキスト駆動型操作

論文アドレス: https://arxiv.org/pdf/2103.17249.pdf

論文紹介:

これはイスラエルの研究者による研究で、StyleCLIP と呼ばれています。これは AI ベースの生成的敵対的ネットワークを使用して写真に超現実的な修正を加えるもので、ユーザーは特定の写真ではなく、欲しいものの説明を入力するだけで済みます。

このモデルは、かなり面白い結果を生み出すこともできます。たとえば、FacebookのCEO、マーク・ザッカーバーグの顔は、ハゲにしたり、眼鏡をかけたり、あごひげを生やしたりと、自由に変更できる。

この「火星人」の顔には、少しばかり人間らしさが残っているようでした。

StyleCLIP モデルは主に StyleGAN モデルと CLIP モデルで構成されています。

StyleGAN はさまざまな領域で非常にリアルな画像を生成できます。最近では、StyleGAN の潜在空間を使用して生成された画像と実際の画像を処理する方法を理解することに多くの研究が行われています。

しかし、意味的に意味のある可能性のある操作を発見するには、多くの場合、複数の自由度を綿密に検査する必要があり、そのためには集中的な手作業が必要となり、あるいは、希望するスタイルごとに注釈付きの画像コレクションを作成する必要があります。

アノテーションをベースにしているため、マルチモーダルモデル CLIP (Contrastive Language-Image Pre-training) の機能を活用して、手動操作を必要としないテキストベースの StyleGAN 画像処理を開発できますか?

例えば、「かわいい猫」と入力すると、目を細めた猫の目が拡大され、かわいい子猫の特徴がすべて得られます。また、トラをライオンに変えることもできます。

4. GitHub Copilot と Codex: コードでトレーニングされた大規模言語モデルの評価

論文アドレス: https://arxiv.org/pdf/2107.03374.pdf

論文紹介:

2020年、OpenAIは、人間のニューロンの数に近いパラメータスケールである1750億のパラメータを備えたGPT-3をリリースしました。

GPT-3は、2019年以前にインターネット上で公開されているほぼすべてのテキストを使用してトレーニングされたため、自然言語をある程度理解しており、詩を作ったり、チャットしたり、テキストを生成したりすることができます。

この夏、OpenAI は Codex をリリースしました。

Codex は GPT-3 でトレーニングされており、GitHub から抽出された数テラバイトの公開コードと英語の例が入力として使用されます。

Codex にコマンドを与えると、英語がコードに変換されます。

その後、キーボードから手を離すと、Codex が自動的にロケットをプログラムし、ロケットが自力で動きます。

Copilot は OpenAI の強力な Codex アルゴリズムに基づいて構築されており、膨大な量のコードを蓄積し、これまでにない方法でコードを生成することを可能にしました。

Copilot は、確認したコードを模倣するだけでなく、関数名、メソッド名、クラス名、コメントのコンテキストを分析してコードを生成および合成し、開発者にエディター内のコード行全体または関数の提案を提供します。

これにより、エンジニアが API ドキュメントに苦労して目を通す時間を短縮できるほか、テストコードの作成にも役立ちます。

5. レーダーの深層生成モデルを用いた巧みな降水予測

論文アドレス: https://www.nature.com/articles/s41586-021-03854-z

論文紹介:

今日の天気予報は、強力な数値天気予報 (NWP) システムによって行われています。数値天気予報システムは物理方程式を解くことで、数日先の地球規模の予報を作成できます。しかし、2 時間以内に高解像度の予報を出すのは困難です。

Nowcasting は、この重要な期間のパフォーマンスギャップを埋めます。気象センシングの進歩により、高解像度レーダーが測定された地表降水量データを高頻度（1 km の解像度で 5 分ごと）で提供できるようになりました。

過去 20 分間の観測レーダーデータを使用して、今後 90 分間の確率予測を提供します。

STEPS や PySTEPS などの既存の短期予測方法は、不確実性を考慮するために NWP アプローチに従いますが、レーダー情報を使用した移流方程式に従って降水量をモデル化します。

ディープラーニングベースの手法では移流方程式に依存する必要はありませんが、既存の手法は降水フィールド全体の確率予測ではなく特定の場所での予測に重点を置いているため、複数の空間セットと時間セットで同時に一貫した予測結果を提供することは不可能であり、実用性が制限されます。

この目的のために、DeepMind は、深層生成モデル (DGMR) を使用した確率予測のための観測主導型アプローチを開発しました。 DGMR は、データの確率分布を学習し、学習した分布から簡単にサンプルを生成できる統計モデルです。生成モデルは基本的に確率的であるため、与えられた過去のレーダーの条件付き分布から多くのサンプルをシミュレートして、予測のコレクションを生成することができます。さらに、DGMR は観測データから学習し、複数の空間的および時間的スケールで不確実性を表現することができます。

結果は、DeepMind の深層生成モデルが、より優れた予測品質、予測の一貫性、予測値を提供できることを示しています。このモデルは、5〜90分のリードタイムで、1,536 km × 1,280 km のエリアにわたって現実的で時間的および空間的に一貫した予報を生成します。

DGMR は、強度を過大評価することなく、長期間にわたる空間範囲と対流をより正確に予測できます。

50 人以上の気象専門家による体系的な評価により、DeepMind の生成モデルは、他の 2 つの競合方法と比較して 89% の絶対的優位性を持ち、精度と実用性の両方で第 1 位にランクされました。

その他の興味深い論文は、Louis の GitHub ホームページでご覧いただけます。このプロジェクトはまだ更新中ですので、保存して最新のアップデートを入手してください。

<<: ネットワークデータセキュリティ管理に関する新たな規制が導入される

>>: 高度な API、異種グラフ: Google が TensorFlow でグラフニューラルネットワークを作成するための TF-GNN をリリース

Github ホットリスト: 2021 年の最もクールな AI 論文 33 件をレビュー!多くの中国人作家が選ばれた

2021年の驚きに満ちたAI論文レビュー

優れた論文からの抜粋

AIと機械学習がデータセンターにどのように役立つか

ディスカッション | 人工知能は同時通訳に取って代わることができるか?

Java ガベージコレクションアルゴリズムの紹介

画像内のオブジェクト検出のための ML データを探索および視覚化する方法

機械学習分野における社内競争について：博士号を取得しないと就職する資格はないのでしょうか？

人工知能の便利な日常的な活用例8つ

8x7B オープンソース MoE が Llama 2 に勝ち、GPT-4 に迫る!欧州版OpenAIがAI界に衝撃を与え、22人の企業が半年で20億ドルの評価額を獲得

推薦する

EU諸国の4分の1がAIによるサイバーセキュリティ管理を望んでいる

ニューラルネットワークアルゴリズムを使用した C# での手書き数字認識

人工知能、ブロックチェーン技術などが医療分野を改善している

BluePrismが中国市場に参入し、RPA業界に新たな道を開く

金融業界は AI を活用してデータを強化する準備ができているでしょうか?

2024年以降に注目すべき10のジェネレーティブAIトレンド

GPT-4V の医師免許試験の点数は、ほとんどの医学生よりも高いです。AI がクリニックに参加するまでにはどれくらい時間がかかりますか?

機械翻訳の3つのコア技術原則 | AI知識の普及

Megvii 顔認識ビジネス講演シリーズ - 顔認識について知っておくべきこと

DeepMind がワンクリックで「Mole」言語モデルを起動します。 2,800億のパラメータがSOTAに到達可能

産業オートメーションにおけるコンピュータビジョンの応用と利点

米国、政府による顔認識技術の使用禁止を再法制化へ

AIプロジェクトの落とし穴を避けるためのガイド