人工知能の人気が高まってきており、人工知能分野でビジネスを始めたい人も増えてきています。しかし、人工知能分野でビジネスを始める際には注意すべき点がたくさんあります。最近、かつてcomma.aiでジョージ・ホッツ氏とともに無人運転車の開発に携わったエダー・サンタナ氏が、人工知能をさらに深く探求したい起業家に向けて特に4つの貴重な提案を記した記事を書きました。それでは見てみましょう。
機械学習は非常に人気があるため、AI そのものと間違われることが多く、これはさらに人気の高いディープラーニングの場合に特に当てはまります。良いニュースは、スタートアップ チームが資金を受け取ったか、チームの予算が承認され、ディープラーニング分野への旅を始めようとしていることです。 これまで、Keras や Imagenet などの人工知能テクノロジーの楽しさを実感してきました。これは素晴らしいことです。しかし、実際にビジネスで人工知能を実践し始めるには、考慮すべきことがいくつかあります。 次に、昨年初めに comma.ai で George Hotz と自動運転に取り組んでいたときに実際に起こったいくつかの例を挙げて、私のアドバイスを説明します。 1. データとエンジニアを分断しない ディープラーニングはデータファーストの科学です。あなたのチームやスタートアップの目的は、このデータを意味のあるものにすることです。考えてみてください。言葉に意味を持たせない限り、AI ビットコイン チャットボットを開発することはできません。画像や動画などを理解しない限り、次の Snapchat Stories スタイルの自動マルチメディア コラージュを構築することはできません。 データ処理を仕事の中核にする必要があります。この点については必ず良い仕事をしてください。たとえば、データセットを準備して読み込むのに「15 分しかかからない」と考えている場合、より優れたモデル アーキテクチャを発見したり、Tensorflow コードにバグを見つけたりしたときに、その 15 分間待たなければなりません。 ルールは簡単です。データセットをバージョン管理し、一度前処理して何度でも使用できます。 Celery や Luigi などのツールは、役に立つでしょう。 大規模なチームで作業していて、チーム内のすべてのタスクをクラスターに送信する必要がある場合は、モデルのトレーニング用に従業員にデータを一括で提供するデータ ソリューションを検討する必要があります。モデルに脆弱性があることが既にわかっている場合は、変更を加える前にデータセット全体が読み込まれるまでチーム メンバーに待機させないでください。 簡単に言うと、comma.ai はおそらく世界で 2 番目か 3 番目に大きい運転データセットを保有しています。 comma.ai の初期の頃は、運転モデルをトレーニングするには、700 GB を超えるメモリを搭載した大型マシンに何時間ものビデオをロードする必要がありました。ジョージはトレーニングのためにさらにデータが必要になるたびに、すぐに 100 GB のメモリを追加しました。私が参加した主な理由は、このモデルのより優れたバージョンを開発するためでしたが、データがロードされるまで 15 分も待つつもりはありませんでした。代わりに、シンプルな ZMQ サーバー オープン ソース プロジェクトからいくつかのコンテンツを入手しました。これからは、心配するデータがなくなり、トレーニングの規模を拡大し、より安価なマシンを使用できるようになります。現在、モデルのトレーニングに対する唯一の制限は、GPU とその開発者です。 2. 視覚化できるものから始める ディープラーニングの場合、幸運なことに、Tensorboard、最近リリースされた Visdom、その他のツールを利用して結果を視覚化することができます。一般的にデータ サイエンスは、視覚化によってあらゆる段階で遭遇する問題に適切に対処できるようになるため、視覚化主導型開発に最も適していると私は考えています。 JavaScript の愛好家でない限り、便利な視覚化を実現するために必ずしも d3.js を学ぶ必要はありません。 ちょっとした話ですが、退職面談中に、エンジニアとして生産性を高める方法についてジョージにアドバイスを求めました (信じてください、彼は私が今まで会った中で最も生産性の高い人です。私は彼から学ぶ機会をすべて利用します)。彼のアドバイスは、まず自分がやっていることを視覚化できるものを作るというものでした。ジョージ自身もかつてこれをやりました。さらに、George のすべての IPython ノートブックにはスライド ウィジェットがあり、プロトタイプ作成中にパラメーターが結果にどのように影響するかをすばやく表示できます。 3. 検証/ハードケースデータセットを早めに定義する 「データの準備」の不安から解放していただくために、楽しい視覚化を二の次にしました。しかし、タイプライターに突っ走る猿のように、ニューラル ネットワークにランダムにレイヤーを追加してしまうことを避けたいのであれば、進捗状況を測定する方法を学ぶ必要があります。 優れた成果物とより相関する指標は何か、追跡すべきデータは何かを自問してください。 これは単に「残りのデータの 10% をランダムに検証する」という範囲を超えている可能性があります。検証済みデータベース*** は、製品と同じ統計特性を持ちます。同じ製品を使用して、困難なケース、エッジケース、さらには失敗したケースを追跡し、将来の検証セットを作成することもできます。したがって、検証セットは進化していく可能性があり、トレーニング セットと同様にバージョン管理する必要があります。 簡単に言うと、自動運転の場合、運転中に車両を手動で制御しなければならない瞬間が、難しいケースであり、検証セットであることがわかりました。しかし、最も正確な検証テストは、経験豊富な制御エンジニアを路上に派遣し、自動運転システムの品質を正確に判断することです。この業界にいるなら、エンジニアを引き抜くためにテスラに行くべきです(冗談です)。 4. 早期の拡大が初期段階のスタートアップの失敗の主な原因である このアドバイスを聞いて、「私に教えようとしないで。私はあなたよりもスタートアップの話をたくさん聞いているから」と言うかもしれません。確かにそうですが、ここで新しいのは、GPU とハードウェアのトレーニングを従業員と同じ要素として考慮する必要があるということです。必要以上に雇用/購入すると、余分なリソースを整理するのに多大な労力を費やすことになります。クラスターの管理は難しい場合があり、ディープラーニング向けの大規模 HPC はそれ自体が研究テーマです。 ここでの私のアドバイスは、新しい GPU の購入を検討する前に、すべての GPU が十分に活用されていることを確認する必要があるということです。 Google と同じくらいの生産性と収益性を実現できれば、Google と同じくらい贅沢にお金を使うことは確かに可能です。 チームと会社が十分に大きい場合は、インフラストラクチャの作業を行う人材の採用を真剣に検討してください。ハードウェア スタッフの 10 倍の研究者を雇用し、彼らに待たせると、最良のシナリオは彼らが独自のインフラストラクチャを構築することであり、最悪のシナリオは彼らが単に辞めてしまうことです。これは絶対にあなたが見たい状況ではありません。 ちょっとした話ですが、ある時、GPU をすべて実行しないままオフィスを離れたとき、Niel (Comma のモバイル アプリ担当副社長) が私に非常にがっかりした表情を向け、そのせいで私は「アイドル状態の GPU 恐怖症」に陥ってしまいました。これは今日では非常に一般的な問題になっています。 そうです!人工知能の分野で働くことは、やりがいがあり、楽しいです。アセットと視覚化をどのように処理するかをよく検討すれば、問題は解決します。 |
<<: リカレントニューラルネットワークの父:未来のロボットはアリを見るように人間を見るだろう
世界中の食べ物は、まさに世界の花火のボウルに過ぎません。人工知能は、新しい技術科学として、日常生活に...
GAN を使用して作品を制作することは新しいことではないようです。 2019年、NVIDIAはGT...
[[340767]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
以前は、Microsoft の Azure OpenAI は企業のみが利用でき、一般ユーザーはうまく...
今年初めの流行は、特にCOVID-19の非常に感染力が強い性質により、適切な免疫ワクチンがない中で原...
サービスは人間が行う仕事だということを否定する人はいないでしょう。しかし、テクノロジーはサービスを強...
本記事では、国立国防科技大学の劉宇教授チームと浙江大学-SenseTime合同研究室の周暁偉教授チー...
DeepRec(PAI-TF)は、アリババグループの統合オープンソース推奨エンジン(https://...
[51CTO.comより引用] 2013年頃、携帯電話やパソコンに短編動画が大量に登場し、低コスト、...
IT Homeは1月23日、Googleが最近、大規模言語モデル向けに特別に設計されたASPIREト...
機械学習モデルは全部でいくつありますか?分かりません。誰も数えたことがありません。すべての変種を含め...