機械学習で避けるべき3つの落とし穴

[[274438]]

機械学習の分野は数十年にわたって「タンク問題」に悩まされてきました。

この話は 1960 年代に起こったもので (この研究に関する最も古い文書はソフトウェアエンジニアの Jeff Kaufman 氏によるものです)、その出来事の詳細は時の霧の中に失われてしまいましたが、その話は次のようなものです。

研究者たちは軍から提供された写真から戦車を識別するアルゴリズムを作成した。モデルはテスト画像ではタンクを正常に検出しましたが、実際の写真を使用すると失敗しました。

理由は何ですか？噂の正確な詳細は様々だが、重要な理由の一つは、アルゴリズムがテストされた画像には朝日や雲の下から現れる戦車などの他の情報も含まれており、それが機械の判断に影響を与えたということだ。したがって、アルゴリズムを決定するのはタンクの存在ではなく、他の要素も重要です。

同様の状況が今日も反省を促している。多くの機械学習論文は十分な実験を完了しておらず、レビュー基準は一貫しておらず、業界内の熾烈な競争により、一部の研究者は望む答えを得ると手抜きをしたりチェックを省略したりしてしまいます。そのため、数え切れないほど多くの分野の科学者が機械学習を使って問題を解決しようと急いでいる一方で、Google の Patrick Riley 氏は研究におけるより明確な基準を求めています。

機械学習が科学界全体の発展を牽引していることは否定できません。特に、機械学習が発見し予測するパターンは、分子製造の新しい方法の探索や実験における微小信号の発見から、医療診断の改善や素粒子の解明まで、さまざまな分野の研究者を支援しています。

ただし、機械学習ツールは、誤検知、行き止まり、さまざまなエラーなど、「愚か」になることもあります。また、多くのアルゴリズムは非常に複雑で、すべてのパラメータをチェックしたり、入力がどのように機能するかを正確に理解したりすることは不可能であるため、アルゴリズムが広く使用されるようになると、誤った結論や科学的結果が生じるリスクが高まります。

これらの問題は一夜にして発生したわけではないため、あらゆる分析で発生するすべての問題やジレンマを予測することは不可能ですが、少なくとも、自分の分野で機械学習を使用する研究者は、いくつかの一般的な落とし穴と、それを検出または回避する方法に精通している必要があります。

この点を説明するために、Google Accelerate Science チームが直面し、克服した機械学習における最大の問題を 3 つ紹介します。

機械学習の3つの落とし穴

01不適切な分割

データをモデリングする場合、機械学習の専門家は通常、データをトレーニングセットとテストセットに分割し、トレーニングセットを使用してモデルをトレーニングし、テストセットを使用してモデルのパフォーマンスを評価します。研究者はデータをランダムに分割することがよくありますが、現実の世界では真にランダムなデータはまれです。これらには、データ収集方法の変化や情報収集のさまざまなオプションなど、時間の経過に伴う傾向が含まれる場合があります。

このような歴史的パターンは、例えば、機械学習アルゴリズムが薬剤候補を仮想的にスクリーニングしている分子データセットの中に隠されています。ここでの課題は、分子が体内にどれだけ効果的に吸収されるか、または炎症を軽減するかを予測することです。スクリーニングは、望ましい効果を持つ分子または持たない分子に関するデータから始まりますが、データが収集されたコンテキストは、機械学習モデルの使用方法とは異なる場合があります。

モデルは、公開されている分子データセットのセットを使用してトレーニングされ、その後、独自の分子データセットの別のセットでテストされる場合があります。そして、有望な候補がテストされ、却下されるにつれて、化学者の焦点は、ある分子群から他の分子群へと移ることが多いのです。その結果、研究者はモデルが実際にどの程度うまく機能するかを過大評価することがよくあります。これにより、期待が膨らみ、適切でない分子を選択することで時間とお金が無駄になる可能性があります。多くの模型製作者がこの罠に陥ります。

言い換えれば、解決しようとしている問題が、データの分割方法に影響を与えるはずです。分子に 2 つの原子を追加した場合の効果を予測するには、テストセット内の各分子がトレーニングセット内の原子と少なくとも 2 つ異なる必要があります。さまざまな化学分子についてより正確な予測を得たい場合、テストセット内のすべての分子がトレーニングセット内のどの分子とも異なる必要があります。データを分割する「正しい」方法は明らかではないかもしれませんが、慎重に検討し、いくつかのアプローチを試してみると、予期しない結果が得られる可能性があります。

02隠し変数

理想的な実験では、研究者は興味のある変数のみを変更し、他のすべての変数を一定に保ちますが、そのような制御は現実にはほぼ不可能です。機器の精度は時間とともに変化し、試薬のバッチは異なり、ある実験条件が他の条件よりも先に現れ、天候さえも結果に影響を及ぼす可能性があります。機械学習モデルでは、これらの制御されていない変数は役立つどころか有害になります。

たとえば、Google のチームは、カリフォルニア州フットヒルランチにある核融合の新興企業 TAE Technologies で、高エネルギープラズマの生成を最適化するための実験を行っています。ここで彼らはプラズママシンの最適な設定を理解するためにモデルを構築しました。電極をオンにするタイミングから磁石に設定する電圧まで、何百もの制御パラメータがあり、温度や光スペクトルなどのさまざまな測定値が記録されます。

彼らは、数か月にわたって何千回ものプラズママシンの実行からデータを抽出しました。機器の調整、部品の摩耗、実験に応じて設定は変化しました。特定の設定でプラズマエネルギーが高くなるかどうかを適切に予測するモデルができたときは皆が喜びましたが、その予測はすぐに崩れ去りました。

また、すべてのマシン設定ではなく、実験時間のみを入力としてモデルをトレーニングした場合にも、同様の予測を達成しました。なぜ？モデルは物理現象ではなく時間的傾向に注目するからです。つまり、機械がうまく動作する期間とうまく動作しない期間があり、実験が完了するまでの時間によってプラズマが高エネルギーであるかどうかがわかります。さらに、制御パラメータの設定により、実験がいつ実行されるかを大まかに予測することができ、これらのパラメータの変化には時間的な傾向があります。言い換えれば、このモデルは時間の法則を除いて、他の物理法則を考慮していません。

実験レイアウトから隠れた変数が発生することもあります。私たちは、ニューヨーク市のニューヨーク幹細胞財団研究所を含む多くの機関と協力し、顕微鏡画像の解釈に取り組んでいます。画像には、細胞や液体が入ったウェルが格子状に並んだペトリ皿で行われた生物学的実験が含まれています。目標は、化学処理後の細胞の外観の変化など、特定の特性を持つ毛穴を見つけることです。しかし、生物学的変異とは、各ペトリ皿自体の見た目が常にわずかに異なり、個々の皿も異なる可能性があることを意味します。外側のウェルからより多くの液体が蒸発したり、皿が傾いたりすると、通常、端は中央とは異なって見えます。

機械学習アルゴリズムはこれらの変化を簡単に検出できます。たとえば、モデルはペトリ皿の端にあるウェルを特定しただけかもしれません。モデルを確認する簡単な方法は、ペトリ皿の位置、どのペトリ皿か、または画像がどのバッチから得られたかなど、他の側面を予測するようにモデルに依頼することです。アルゴリズムがこれを実行できる場合、結果には懐疑的になる方がよいでしょう。

最も重要な点は、複数のモデルを使用して予期しない隠れた変数を検出することです。 1 つのモデルを使用して、イオンが高エネルギーか低エネルギーか、細胞が健康かどうかなど、関心のある問題に焦点を当て、他のモデルを使用して干渉要因を排除することができます。後者の結果が強い場合は、データを正規化し、さらに実験を行うか、結論を調整します。

03目標の誤解

機械学習アルゴリズムでは、研究者は、1% のエラーが 2 つある方がよいのか、それとも 2% のエラーが 1 つある方が妥当なのかなど、さまざまなエラーの重大度を測定する「損失関数」を定義する必要があります。実践者は機能の小さな部分を適用する傾向があり、それによって本当に必要なものが得られなくなります。

別の例を挙げると、微分方程式を解くのに機械学習を活用しています。これらの数式は、流体力学、電磁気学、材料科学、天体物理学、金融モデリングなどの分野で一般的であり、通常はモデルのトレーニングを開始するには数値的に解く必要があり、これにより限られた条件下でより高い精度が得られます。

たとえば、水の波が 1 次元でどのように伝播するかを説明する方程式から始めましょう。アルゴリズムのタスクは、現在のタイムステップから次のステップを繰り返し予測することです。この点で、わずかに異なる 2 つのアプローチを準備し、トレーニングモデルをトレーニングすることができます。損失関数によれば、これら 2 つのモデルは同等に優れていますが、実際には、一方は多くの無駄な作業を実行し、もう一方は予想される結果に近い結果を生成しました。

その理由は、学習を制御する損失関数が、研究者が本当に望んでいる複数ステップのソリューションの有効性ではなく、次のステップのエラーのみを考慮しているためです。

糖尿病網膜症の機械スクリーニングに関しても、私たちは異なる目標を持っています。これは糖尿病の合併症であり、世界における予防可能な失明の主な原因です。眼底の画像から病状を早期に検出できれば、効果的に治療することができます。データを収集し、眼科医に画像を診断してもらった後、機械学習ツールに医師の発言を予測するよう依頼したところ、2 つのことが起こりました。

[[274439]]

インドのマドゥライにあるアラヴィンド病院では、スタッフと Google の研究者が糖尿病による失明を自動的に診断するために眼科検査を行っています。画像クレジット: Atul Loke / The New York Times / Red / eyevine

あるケースでは、眼科医の間で診断に意見の相違が頻繁に生じたため、研究者たちは単一の予測に基づいたモデルを構築することはできないと認識した。投票を実施して少数派が多数派に従わなければならないと言うことはできません。なぜなら、医療においては少数派の意見が正しい場合があるからです。 2 番目の状況は、単一の病気の診断が実際の目的ではないということです。なぜなら、多くの場合、「この患者は医師の診察を受ける必要があるか？」と尋ねる必要があり、このようにして目標は単一の病気の診断から複数の病気の診断へと拡大されるからです。

機械学習の専門家は、データラベルが明確な「明白な」目標にとらわれがちですが、間違った問題を解決するためにアルゴリズムを設定している可能性があります。したがって、私たちは全体的な方向性と全体的な目標を念頭に置いておく必要があります。そうしないと、間違った問題の代償を払うだけになります。

04それでは何ができるでしょうか?

まず、機械学習の専門家は、自分自身と同僚に高い基準を課す必要があります。新しい実験装置が到着すると、誰もが研究室のパートナーがその装置の機能、調整方法、問題の検出方法を理解し、その機能の限界を理解してくれることを常に望みます。機械学習でも同様です。機械学習は魔法ではありません。ツールのユーザーはそれを習得する方法を理解する必要があります。

第二に、機械学習をいつ使用する必要があるかについて、さまざまな分野で明確な基準を策定する必要があります。適切な管理、健全性チェック、エラー対策は分野によって異なるため、研究者、査読者、実務者が従うべきガイドラインとなるよう、これらを明確に説明する必要があります。

第三に、機械学習の科学者が受ける教育には、より幅広い内容が含まれる必要があります。このようなオープンソースリソースがいくつか存在するとしても、やるべきことはまだたくさんあります。魚を与えるよりも、魚の釣り方を教える方がよい。アルゴリズムとツールだけを学ぶ人が多いかもしれないが、アルゴリズムを適用し、適切な質問を投げかける方法を学ぶことも重要である。

機械学習に取り組んでいる私たちは皆、コンピューティング能力、データ、アルゴリズムが絡み合い、機械学習の助けを借りて新しいエキサイティングな可能性を生み出すという魔法のような段階にいます。この機会を活用するのは科学コミュニティ全体の責任です。

<<: Google が AI ジェスチャー認識アルゴリズムをオープンソース化: 1 フレームの画像で 21 個の 3D ポイントを認識

>>: 【ビッグネームが勢揃い、第1話】新小売時代のスマートミドルプラットフォーム

機械学習で避けるべき3つの落とし穴

機械学習の3つの落とし穴

01不適切な分割

02隠し変数

03目標の誤解

04それでは何ができるでしょうか?

Facebook が ICCV 2021 で 2 つの 3D モデルを公開。自己監督が究極の答えか?

自動車学校がロボットコーチカーを導入：全行程を通じて優しい音声ガイド、コーチに怒鳴られる必要はもうない

スマートワーク: AI がリモートワークをどう変えるのか

73歳のヒントン氏は、次世代のニューラルネットワーク「教師なし対照学習」を考案した。

人工知能とデータサイエンスに基づく実用的な分析システムの構築におけるシティバンクの実践経験

RPAが企業にもたらすメリットトップ10

GPUが急成長を遂げるGenAIの時代において、AMDはNvidiaのCUDAソフトウェアの堀を超えつつある

Google は、フルスタックプログラミング言語をサポートし、すぐに使用でき、ワンクリックでデプロイできるブラウザ AI 開発環境 IDX をリリースしました。

5000億の大台を突破？多くの国で人工知能が急速に進歩している

国産ディープラーニングフレームワーク「MegEngine」が3月末にオープンソース化

推薦する

中国の 700 万人のプログラマーが足りない場合はどうすればいいでしょうか?北京大学のソフトウェア自動化の専門家、謝涛氏に聞いた。

SVM の原理に関する詳細なグラフィックチュートリアル!カーネル関数を自動的に選択する1行のコードと実用的なツールがあります

GPT-4 よりも優れており、クローズドソースモデルよりも優れています。コードラマの謎のバージョンが公開

携帯電話なら何でもコピー＆ペーストできる。このデザイナーはパートタイムでコードを書き、ARを新たなレベルに引き上げた。

AIは新型コロナウイルスという「ブラックスワン」をいかにして「飼いならす」ことができるのか？

見逃せない 7 つのディープニューラルネットワーク可視化ツール

ChatGPT の実際のパラメータはわずか 200 億であり、これは Microsoft によって初めて公開されました。ネットユーザー：OpenAIがオープンソースに不安を感じるのも無理はない

2020年AIセキュリティの「技術」と「トレンド」を理解する丨年末レビュー

高度な機械学習ノート 1 | TensorFlow のインストールと開始方法

最大の効率: AIがソースコードを読み取って教えてくれる

10行のコードで物体検出を実行する方法

機械学習チームにはより優れた特徴エンジニアリング技術が必要