Milvus は、オープンソースの人工知能エコシステムにデータ サービス機能を提供するオープンソース プロジェクトです。人々はそれからどのように利益を得られるかを理解する必要があります。 オープンソースの人工知能プロジェクトについて話すとき、人々は通常、Google TensorFlow や PyTorch などのモデル フレームワーク プロジェクトを思い浮かべます。モデル フレームワークは人工知能モデルをトレーニングするための重要なコンポーネントであるため、これらのプロジェクトは通常、最も注目を集めます。しかし、AI は単一の技術ではなく、複数のサブフィールドと多くの異なるコンポーネントを含む複雑な技術分野です。
人工知能への移行の転換点 一般的に言えば、テクノロジーのアップグレードの転換点は、その収益がコストをはるかに上回ったときです。 AI 変革に適用する場合、モデル (アルゴリズム)、モデル推論、データ サービスなどのいくつかの基本的な要素が関係します。 モデルについて話すとき、人々は AI テクノロジーを活用することに対する期待を理解する必要があります。すべてのカスタマー サポート スペシャリストを AI 駆動の会話型ボットに置き換えるなど、AI テクノロジーを使用して人間を打ち負かし、人間に取って代わろうとする場合、AI モデルの需要は非常に高くなり、短期間で達成することはできません。 企業がカスタマー サポート スペシャリストを日常的に行っている単調で退屈な業務から解放したい場合、つまり AI テクノロジーを活用して人間の生産性と能力を高める計画を立てる場合、今日のモデルは多くの場合それを実現できます。 それは励みになりますね。しかし、モデルに関する激しい議論は、複数のモデルが利用可能である一方で、単一の最適なモデルは存在しないという点です。 AI 科学者を雇用している企業には、こうした最先端 (SOTA) モデルがあります。パブリックモデルのみを使用すると、競争上の優位性を失うことになりますか? より効率的なモデルの方がビジネス価値が高くなると考えるため、人々はこれに戸惑いますが、この考えは間違っている可能性があります。ほとんどの場合、モデルの有効性とビジネス価値の関係は線形でも単調増加でもありません。この関数のグラフを以下に示します。 これは区分関数です。最初の段階では、モデルがアプリケーション シナリオに実装されるまでビジネス価値はありません。第 2 段階では、理論上はモデルが優れているほどパフォーマンス (応答時間、有効性など) も優れているはずですが、実際のシナリオではそれほど明白ではない可能性があります。以下で見てみましょう。 医師が患者に肺感染症があるかどうかを確認する前に、肺のCTスキャンを行う必要があり、約300枚のCT画像が生成されます。経験豊富な医師であれば、これらの CT 画像を検査するのに 5 分から 15 分かかるでしょう。通常、治療する患者の数が少ない場合は、これは問題になりません。しかし、現在も続いているコロナウイルスの流行のような極端なケースでは、患者の急増が医師の手に負えなくなるだろう。 良いニュースは、データ サイエンティストがコンピューター ビジョン テクノロジーを通じて医師を支援するために取り組んでいることです。彼らが訓練したモデルは、数百または数千枚の CT 画像を処理し、数秒で診断の推奨を提供することができます。したがって、医師がモデルによって生成された結果を確認するのにかかる時間はわずか 1 分です。その結果、機械学習が導入される前は、CTスキャンで生成された結果を医師が確認するのに平均10分かかっていましたが、現在では約1分で済みます。生産性が約90%向上しました。 結果を生成するのにたった 3 秒しかかからない、より高速なモデルがあったらどうなるでしょうか。精度を 80% から 90% に高めることができる、より効率的なモデルがあったらどうなるでしょうか。医師が確認する結果は少なくなるでしょうか。答えは「いいえ」です。モデルの結果が 10 件中 1 件間違っていると、どれが間違っているのかを知る方法がなく、医師はすべての結果を確認しなければならないからです。したがって、それ以上の診断時間は節約されません。 さらに、モデル推論サービスのコストを削減するために、モデルの有効性を犠牲にする必要がある場合もあります。たとえば、ビジネス インテリジェンス プラットフォーム プロバイダーは 5,500 万件の商標画像を保有しており、ユーザーがこれらの商標の所有者を検索できるサービスを提供したいと考えています。ユーザーは、キーワードを入力する代わりに、商標画像を入力クエリとしてアップロードして検索を実行します。 その背後にある技術は、VGG モデルなどのコンピューター ビジョンです。企業がバックエンド サーバーでモデル推論を実行する場合、データ センターのハードウェア リソースを割り当てて予約する必要があります。もう 1 つの選択肢は、より小さなモデルを展開して、企業がモデル推論をエッジ コンピューティング デバイス (ほとんどの場合、スマートフォン) に配置できるようにすることです。これにより、GPU などの高価なモデル推論ハードウェアのコストが確実に削減されます。これは、SOTA モデルがすべてのシナリオで競争力を持つことが不可能であることを示すもう 1 つの例です。 私たちはすでに人工知能への変革の転換点にいます。そうなると、この転換点をいかに乗り越え、AI テクノロジーを導入してビジネス能力を強化するかという問題が出てきます。 モデルが利用可能であることが前提条件です。しかし、モデルだけがあれば AI プログラムを開発するのは簡単ではありません。従来のアプリケーションと同様に、データ サービスは常に重要な部分です。ご覧のとおり、これは今日の人工知能の導入に不可欠な要素となっています。そのため、人工知能の導入を加速させるためにオープンソース プロジェクト Milvus が開始されました。 AI導入におけるデータの課題 一部の企業が人工知能技術を通じて処理しようとするデータのほとんどは非構造化されているため、Milvus プロジェクトは非構造化データ サービスの強固な基盤を提供することが期待されています。 通常、データは構造化データ、半構造化データ、非構造化データの 3 つのタイプに分類されます。構造化データには、数値、日付、文字列などが含まれます。半構造化データには通常、さまざまなコンピュータ システム ログなど、特定の形式のテキスト情報が含まれます。非構造化データには、画像、ビデオ、音声、自然言語、およびコンピューターで直接処理できないその他のデータが含まれます。 非構造化データはデジタルデータ全体の少なくとも 80% を占めると推定されています。たとえば、人々は家族、友人、同僚と毎日数キロバイトのテキストメッセージを送受信することがあります。しかし、12メガピクセルのカメラを搭載したiPhone 11のようなモバイルデバイスで写真を撮るだけでも、数メガバイトの容量が必要になることがあります。 720pビデオを撮影するとどうなりますか? 構造化データを効率的に処理するために、リレーショナル データベースやビッグ データなどのテクノロジを開発している企業もあります。半構造化データは、Lucene、Solr、Elastic searchなどのテキストベースの検索エンジンで処理できますが、これまで大量の非構造化データを効果的に分析する方法はありませんでした。近年のディープラーニング技術の台頭により、非構造化データ処理技術は急速に発展してきました。 非構造化データサービス 埋め込みはディープラーニングの用語で、モデルを通じて非構造化データを特徴ベクトルに変換することを指します。固有ベクトルは数値の配列なので、コンピューターで簡単に処理できます。したがって、非構造化データの分析はベクトル コンピューティングに変換できます。 最も一般的な議論の 1 つは、特徴ベクトルは非構造化データ処理の中間結果であるように見えるというものです。一般的なベクトル類似性検索エンジンを構築する必要がありますか? モデルに含める必要がありますか? 専門家は、特徴ベクトルは単なる中間結果以上のものだと考えています。これは、ディープラーニング シナリオにおける非構造化データの知識表現です。これは特徴学習とも呼ばれます。 もう 1 つの議論は、特徴ベクトルには数値も含まれているため、既存のデータ処理プラットフォーム (データベースなど) またはコンピューティング フレームワーク (Spark など) でベクトル計算を実行できないのではないかというものです。 正確に言うと、ベクトルは数値のリストで構成されます。これにより、ベクトル計算と数値演算の間に 2 つの重要な違いが生じます。
これらの大きな違いにより、従来のデータベースとビッグデータ技術はベクトル解析の要件を満たすことがほとんどできません。サポートするアルゴリズムと重点を置くシナリオは異なります。 |
<<: ドジャースが勝利! AIが野球ワールドシリーズの意思決定プロセスを支配
自動運転技術は人類社会の未来を変える科学技術であり、私たちの生活にどんどん浸透し、すでに多くの自動運...
[[359197]]次に、js データ構造のツリーを調べてみましょう。ここでのツリーは、幹と枝を持つ...
2016年3月の「人間対機械」は、機械に対する認識を一新した。世界一の囲碁名人イ・セドルが、人工知能...
機械学習におけるデザインパターン定義上、デザイン パターンは一般的な問題に対する再利用可能なソリュー...
DeepMindとカリフォルニア州サンフランシスコの人工知能研究所は、マルチプレイヤーリアルタイム戦...
少し前に、Fourth Paradigm の上級研究員である Quanming Yao 博士が、Ne...
AIはどのように機能し、スマートシティ開発の次のステップとして、都市や公共スペースにAIを導入でき...
近年、民間ドローンの急速な普及は、空中撮影、レジャーや娯楽、農作物の保護、電力検査など、人々の生産と...
先日行われた世界的に権威のある多言語理解評価XTREME(Cross-Lingual Transfe...
インダストリー4.0戦略における自動化とロボットのシームレスな統合に対する関心が高まっています。しか...
7月10日、2021年世界人工知能会議(WAIC)が上海で閉幕した。 2011年以来、ビッグデータ...
[[229034]] Face Id は、高性能な顔認証ソフトウェアです。公式の主張は、「100 ...