この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 錬金術のプロセスでは、トレーニングに必要なリソースを削減するために、ML 担当者は、圧縮前と同じ結果を確保しながら、大規模で複雑なモデルを小さなモデルに「蒸留」することがあります。 これは知識蒸留、つまりモデルの圧縮/トレーニング方法です。 しかし、技術の発展に伴い、蒸留の対象は徐々にデータセットへと拡大してきました。 Google は最近、データセット抽出の新しい方法を 2 つ提案しました。これは Twitter で大きな話題となり、600 回以上閲覧されました。 このように、50,000枚の注釈付き画像のCIFAR-10データセットをそのサイズの1/5000に「蒸留」し、 10個の合成データポイントのみでトレーニングすることで、モデルの精度は依然として51%近くになります。 △上: 元のデータセット 下: 蒸留後 「蒸留データセット」が 500 枚の画像 (元のデータセットの 1% のサイズ) で構成されている場合、その精度は 80% に達します。 2 つのデータセット蒸留方法は、それぞれ ICLR 2021 と NeurIPS 2021 の 2 つの論文から得たものです。 2段階ループによる最適化では、データセットをどのように「抽出」できるのでしょうか? 実際、これは 2 段階の最適化プロセスに相当します。
内側のループを通じてカーネル リッジ回帰 (KRR) 関数を取得し、外側のループで元の画像注釈とカーネル リッジ回帰関数で予測された注釈の間の平均二乗誤差 (MSE) を計算します。 現時点では、Google が提案する 2 つの方法には、処理ルートが異なります。 1.ラベルの説明(LS)このアプローチは、KRR 損失関数を最小化するサポート ラベルのセットを直接解釈し、各サポート イメージに対して一意の高密度注釈ベクトルを生成します。 △ 青: オリジナルのワンホットアノテーション オレンジ: LSによって生成された密なアノテーション 2.カーネル誘導ポイント(KIP)このアプローチは、勾配ベースの方法を通じて KRR 損失関数を最小化することにより、画像と生成される可能性のあるデータを最適化します。 MNIST を例にとると、下の図の上、中、下の画像はそれぞれ、元の MNIST データセット、固定注釈付きの KIP 蒸留画像、最適化された注釈付きの KIP 蒸留画像です。 データセットを精製する際に、注釈を最適化することで最良の効果が得られることがわかります。 既存の DC (データセット凝縮) 方式と DSP (微分可能な Siamese Augmentation によるデータセット凝縮) 方式を比較すると、次のことがわかります。 カテゴリごとに 1 つの画像のみ、つまり最終的に 10 枚の画像のみを含む蒸留データセットを使用する場合、KIP メソッドのテスト セットの精度は、DC メソッドや DSP メソッドよりも一般的に高くなります。 CIFAR-10 分類タスクでも、LS は従来の方法よりも優れており、KIP ではパフォーマンスが 2 倍になることさえあります。 これに対してGoogleは次のように答えた。
2人の中国人作家プロジェクト全体は、Lechao Xiao、Zhourong Chen、Roman Novak によって完成されました。 そのうち、シャオ・レチャオ氏は LS 法に関する論文の著者の一人です。浙江大学応用数学科を卒業し、イリノイ大学アーバナ・シャンペーン校 (UIUC) で博士号を取得しました。現在は Google Brain チームの科学者です。 彼の主な研究対象は数学、機械学習、ディープラーニングです。 もう一人の中国人科学者、Zhourong Chen 氏も KIP 法に関する論文の著者の一人です。彼は中山大学で学士号を取得し、香港科技大学でコンピュータサイエンスとエンジニアリングの博士号を取得しました。現在は Google Research のソフトウェア エンジニアです。 紙: オープンソースアドレス: |
<<: MITの新しい研究により、物体間の潜在的な関係性を理解し、AIが人間のように世界を「見る」ことが可能になった。
>>: 美団下華夏:「無人配達」は技術的に難しいことではない
序文人間が世界を認識する際の約 80% は視覚によって行われます。そのため、コンピューターが人間の視...
1959年、ノーベル物理学賞受賞者のリチャード・ファインマンは、カリフォルニア工科大学での「体の底...
人工知能(AI)技術の発展により、いつか「超人」的なAIが出現する日は来るのでしょうか?もしそうなれ...
ChatGPTは一夜にしてまた進化し、OpenAIは一気に大量のアップデートをリリースしました!コ...
近年、人工知能(AI)はビジネスや業界でますます注目を集めています。企業が AI を使用する方法も、...
近年、自動運転分野で優位に立ち、自動車産業の発展の主導権を握るために、多くの国が自動運転の路上テスト...
外科用ロボット、人工知能心理学者、そして一連の「人工知能+」プロジェクト技術の統合が医療分野に急速に...
最近、CAIS、CMU、スタンフォード、コーネル、メリーランド、ペンシルベニアなどの大学の学者たちが...
[[285204]]現在、モバイルインターネット、ビッグデータ、スーパーコンピューティングなどの新し...
スマート セキュリティ業界は急速に進化しており、AI と 4K がスマート カメラで普及するにつれて...
[[228274]]交換室の電話が鳴り、看護師が手際よく緊急電話に出た。その後すぐに病院は救急車を派...
機械学習と AI タスクの実行方法や環境内でのデータの収集方法に応じて、組織はどの AI ストレージ...
「注目の式」に8年間存在していたバグが外国人によって発見された?一瞬にして、この話題はインターネット...