AI製品化の鍵はアルゴリズムではなくインフラとデータ

[[187402]]

人工知能は現在、魔法のような大流行を経験しています。データは、数字の羅列としてニューラルネットワーク (またはブラックボックス) に入り、マジシャンが空の帽子からウサギを出すように、根本的に変化した状態で出てきます。

これはラボでも可能ですし、クリーンでデバッグ済みのデータを備えた個人の開発マシンでも可能です。しかし、機械学習アルゴリズムをマルチユーザーサービスなど、つまり便利なものに拡張するために多くの努力が払われてきました。

人工知能への注目は急上昇しており、多くの誇大宣伝が行われていますが、現実には人工知能技術はまだ初期段階にあり、商業化は困難です。プロトタイプから製品に移行するには、多くの新しい課題を克服する必要があります。トレーニングデータはどこから来るのか? システムをトレーニングするときに、データをどのように保存、整理、改良、準備するのか? システムをテストできるのは誰か? セキュリティはどうか: 機密情報をどのように管理および保護するのか? 結果を出すにはハードウェアの速度はどれくらい必要か? パフォーマンスのボトルネックと同時実行の障壁はどこにあるのか?

マジックのトリックは止まりません。突然、AI コード、いわゆるクラウンが、バグだらけの巨大な機械の中の小さな歯車にすぎないことに気づきます。

企業に人工知能ソリューションを提供するスタートアップ企業、Skymindの共同創業者兼CTOのアダム・ギブソン氏は、次のように述べている。「人工知能の製品化は大きな課題であり、インフラは解決が最も難しい問題の一つです。」

Skymind の CEO 兼共同創設者である Chris Nicholson 氏は次のように説明しています。「AI の導入は、水がパイプに流れ込むのと同じように、複数のステップを踏む複雑なプロセスです。」

生データは液体のようなもので、製品パイプラインに流れ込む前にデジタル化して集約する必要があります。次に、データストリームは、Hadoop を使用して保存される前に、Apache Kafka や Apache Storm などのツールで処理する必要があります。画像、テキスト、音声などのデータを抽出し、変換し、ベクトル計算用にフォーマットして、トレーニングのためにニューラルネットワークに読み込む必要があります。

トレーニングが完了したら、モデルの推論コードをさらに多くのデータでテストし、パフォーマンスと精度を確認します。言い換えれば、新しくトレーニングされた AI に質問して、その出力が期待どおりであるかどうかを確認します。

この時点で、少しの調整、改良、追加のトレーニングにより、ソフトウェアを正しい方向に進めることができます。システムが十分な精度と速度を備え、せっかちなユーザーも満足できるレベルに達すると、システムはより大きなフレームワークに組み込まれ、ユーザーが直接または API 経由で安全にシステムにアクセスできます。典型的な例としては、Netflix や Amazon が機械学習を通じてユーザー情報に基づいて最適な推奨事項を生成することが挙げられます。

これで終わりではなく、最後のステップは拡大です。これまで説明したシステムはマイクロサービスにパッケージ化されており、AI を複数のサーバーに数千回、場合によっては数十万回デプロイして、要求の厳しい問題を解決できます。クレジットカードの不正使用をチェックするシステムが、Purchases という姓を持つ何百人もの人物に対応しなければならないと想像してください。

「研究者たちはこのことを知らないし、気にも留めていない。彼らは消費者へのサービスではなく、より優れたアルゴリズムにのみ関心がある」とギブソン氏は語った。

ニコルソン氏はギブソン氏に同意し、研究者はインフラやスケーリングには興味がないと述べた。ここに良い例えがあります。何千人もの消費者が同じカスタマーサービスエージェントに電話をかけていると想像してください。それが研究者の仕事のやり方です。カスタマーサービス担当者は 1 人だけです。しかし、GE が何千件もの電話を受けたとしたらどうなるでしょうか。顧客サービス担当者を 1 人だけで対応するのは不可能でしょう。サービスニーズを満たすには、顧客サービススタッフをできるだけ多く複製する必要があります。

ええと、私はクラウドだけを使っています

スタートアップ企業などの小規模な企業では、AI システムの推論フェーズに重点を置き、他のフェーズを「無視」する場合があります。「企業は、インフラやスケーリングに関わるデータ量の問題を解決するつもりはないので、理想的にはクラウドに移行するだろう」とギブソン氏はThe Registerに語った。「しかし、企業が大きくなるにつれて、こうした問題も考慮する必要がある」

Skymind は 2014 年に設立され、Hadoop および Spark と統合できる Java で書かれたディープラーニングフレームワークである Deeplearning4j を開発しました。

Google Cloud、Microsoft Azure、Amazon Web Services などのクラウドプラットフォームは、AI をサービスとして大衆に提供するために競争しています。これらは、事前にトレーニングされたモデルをユーザーに提供するだけでなく、さまざまなツール (画像認識や自然言語処理など) を組み合わせて、よりカスタマイズされたモデルを生成する方法もユーザーに提供します。

クラウドで AI モデルを使用すると、制限が多くなり、コストも高くなります。ニューラルネットワークの反復学習には、複数の GPU での集中的なトレーニングも必要です。ニコルソン氏によると、これをクラウドで行うには1万5000ドルから3万ドルの費用がかかるという。

「資金がないスタートアップは、インターネットからダウンロードした事前トレーニング済みのモデルを使用し、それをカスタマイズして（これが典型的なアプローチです）、クラウドにアップロードします。」

これの利点は、小規模なチームがアイデアを現実のものにするために、機械学習を理解しているコンピューター科学者を探し回る必要がないことです。ただし、欠点もあります。それは、事前にパッケージ化されたモデルに限定されることです。実際、これは企業が AI に真剣に取り組んでいるかどうかを証明する方法でもあります。 AI をめぐる熱狂は衰える気配がなく、こうした側面を宣伝することで、注目を集めたり、さらなる投資を引き付けたりできる可能性が高まります。

「企業が AI を構築したい場合、人材、ツール、データ、インフラという 4 つの問題を解決する必要があります」とニコルソン氏は言います。「機械学習のバックグラウンドを持つ人材、コンピューターサイエンティスト、ハッカーが必要です。どのようなアルゴリズムを使用しているかを説明できなければなりません。クラウドを使用する場合、それほど多くのデータを持たない可能性があり、インフラの問題を考える必要はありません。」

「アルゴリズムや技術スタックについて語らないのなら、それは危険信号です。彼らは何でもできるので、真剣に受け止めるのは難しいです。彼らはロジスティック回帰で if-then を使用して、それを AI と呼んでいます。」

人工知能はマスマーケットに追随しない

製薬業界から政府まで、データに AI を適用することに対する商業的な関心は尽きません。しかし、これはすべての人に当てはまるわけではないとニコルソン氏とギブソン氏は言う。ディープラーニングでは、高性能なモデルを開発するために大量のトレーニングデータが必要です。

「現実には、ほとんどのスタートアップ企業は十分なデータを持っていません。企業は現実的でなければなりません。人々は空想の段階を過ぎて、解決できる実際の問題を探さなければなりません。」

元記事: https://www.theregister.co.uk/2017/03/31/ai_infrastructure/

[この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: 初心者必読: 5 つの反復レベルから機械学習を理解する

>>: CES の最大の不満: 人工知能はどこにでも普及するようになるのか?

ビッグデータとアルゴリズムについて言えば、これらを知っておくことはあなたにとって大きな利益となるでしょう

AI製品化の鍵はアルゴリズムではなくインフラとデータ

ビッグデータとアルゴリズムについて言えば、これらを知っておくことはあなたにとって大きな利益となるでしょう

金融業界は AI を活用してデータを強化する準備ができているでしょうか?

顔認識はあなたの家の玄関からどれくらい離れていますか?

知能ロボットは世界経済を書き換えるだろうが、全てが良いわけではない

AI STUDIO - AI機能を実現するためのハードルゼロ

自動運転の未来 - 4Dミリ波レーダー

ChatGPTは人間よりも優れているか？ - チューリングテストの観点からの議論

CityDreamer: ワンクリックで境界のない 3D 都市を生成

推薦する

マスク氏：人間の脳とAIコンピューターは10年以内に接続可能

初心者からプロまでが使用する機械学習ソフトウェアトップ 10

2020年に人工知能はどのように発展するでしょうか?機械学習のトップ専門家が予測するトレンド

将来、人工知能は冷酷な大量虐殺者になるのでしょうか?

人工知能時代のデータストレージの未来

ディープラーニングの発展により、人工知能は「ムーアのジレンマ」をどう打破するのか？

テクノロジー大手はAI人材の獲得に競い合い、新卒でも巨額の給与を得られる

ChatGPT Enterprise Edition は基本的に廃止されました。

ソファがリモコンに変身、PCBが落書きに隠れる、MITの技術オタクのスマートホームはこんな感じ

AI、ブロックチェーン、ビッグデータなど最先端の技術動向を明らかにする新刊書籍「風向」が発売

アルゴリズムエンジニアの日常生活において、トレーニングされたモデルが失敗した場合はどうすればよいでしょうか?