ネットワークディスク上の大きなモデルを使うのはとても気持ちがいいです!隠された写真は3秒で発見され、親戚や友人全員が衝撃を受けた

AIの助けを借りて、自分が会社の重役になれる日が来るとは思ってもいませんでした！

同僚のクローゼットの奥に隠してあった写真をたった3秒で発掘し、光の速さで絵文字パッケージにしました。

ネットワークディスクの検索ボックスに「笑い男」と入力するだけで、関連する画像をすぐに取得できます。

写真

次に、「攻撃」したいオブジェクトを選択して「編集」をクリックすると、テキストを追加してワンクリックで絵文字に変換できます。

全体のプロセスは非常にスムーズでした。写真は完成しましたが、同僚はまだそれを探しています(doge) 。

さらに、この検索では「絵文字パッケージとは何か」を直接理解でき、ワンクリックで以前に作成された画像を見つけることができます。

つまり、古い写真や情報が詰まったオンラインディスクを正確に検索すれば、私以外の誰が写真バトルの王者になれるでしょうか?

写真だけでなく、同僚のビデオを直接検索したり、絵文字内のテキストを認識したりすることもでき、検索の柔軟性が高くなります。

では、この機能はどこで有効にできるのでしょうか。また、従来のアルバム検索とどう違うのでしょうか。

クラシック絵文字を「artifact」で検索

まず、 Baidu Netdiskでこのスマート検索機能を有効にします。

ネットワークディスクの検索ボックスを開き、「高度な画像検索」と入力します。機能の入り口が表示されます。入力後、「今すぐ体験」をクリックし、データのアップグレードが完了するまで待ちます。システムから通知が送信され、プレイを開始できます〜

写真

高度な画像検索機能を有効にすると、特定のツールを入力しなくても、クラウドディスクのホームページの検索ボックスでワンクリックで画像を検索できるようになります。

どうやって検索するの？「心に浮かんだことは何でも検索してください。」

単語 1 つを検索する場合を例に挙げてみましょう。たとえば、「比耶」や「赢眉弄眼」などのあいまいな表現は、スマート検索によって数秒で理解できます。

写真

「犬の修理」のようなインターネットの流行語も、このツールで解決できます。

彼らは独自の「偏見」さえも生み出しており、例えば「PPT」（doge）という言葉はしばしば「記者会見」と関連付けられています。

写真

単一の複雑な単語や形容詞だけでなく、画像を検索するときに文章全体の説明を直接言うこともでき、複数の修飾語を追加することもできます。

同時に、入力の詳細が増えるにつれて、検索結果もリアルタイムで調整されます。

たとえば、「寝ている」とだけ入力すると、システムが最初に見つけた写真は横になっている猫の絵文字であることがわかります。

写真

しかし、キーワードが「眠っている人」に改善された後、この猫の写真はシステムによってすぐにフィルタリングされました。

写真

このスマート検索は、画像の本質を正確に把握するだけでなく、画像内のテキストも認識でき、検索結果も非常に包括的です。

たとえば、「can't hold it anymore」と検索すると、同じ画像とテキストの絵文字だけでなく、他の類似画像も表示されます。

検索範囲に関しては、この機能は写真だけでなく動画も検索できます。

つまり、クラウドディスクの新しいスマート検索機能により、写真、ビデオ、その他のファイルの検索が面倒な「プロンプトワードプロジェクト」ではなくなりました。

自分の写真を検索したい場合は、クラウドディスクと「チャット」するだけで、人間と同じくらい正確に探している写真を取得できます。

では、この機能は具体的にどのように機能するのでしょうか?私たちはその背後にある技術的な原理を詳しく調べたところ、それほど単純ではないことがわかりました。

舞台裏では大型模型が使用されました。

スマート検索は、本質的には、画像 + ビデオのインテリジェント検索機能が組み込まれた「プライベートにカスタマイズされた」オンラインディスク検索エンジンのようなものです。

しかし、この機能を実現するために、Baidu Netdisk チームは大規模なモデルを使用しました。その主な目的は、従来の画像検索の 4 つの主要な問題を解決することです。

検索できない、正確に検索できない、早く検索できない、検索方法が単一である。

解決すべき最初の、そして最大の難題の一つは、「検索できない」という問題です。

タグで検索する従来のフォトアルバムでは、組み込みの検索エンジンは画像とテキストの「意味」を実際には関連付けません。つまり、「テキストが画像と一致しない」のです。

写真

△一般携帯電話でのタグ検索

この問題を解決するために、研究チームは百度文心のマルチモーダル大規模モデルVIMER-ViLPを選択し、大量の画像とテキストデータでトレーニングして、ベクトルベースのセマンティック検索を実現しました。

このタイプの方法の核心原理は、テキストと画像の特徴ベクトルを同じ意味ベクトル空間にマッピングすることです。ベクトル間の距離が近いほど、類似性が高くなります。同時に、意味の損失を回避し、「検索できない」可能性を減らすこともできます。

写真

CLIP と比較すると、VIMER-ViLP はトレーニングに中国語データをより多く使用するため、中国語の特殊名詞の検索がより正確になります。たとえば、博物館で撮影された文化財「中国初の龍」：

しかし、大きな模型は写真の理解を深めることはできても、写真を撮影した場所、時間、人物の名前などの情報となると無力です。

次に、「不正確な検索」の問題を解決するために、写真自体の情報を組み合わせる必要があります。

従来のタグベースの検索では、写真が撮影された日付（年、月、日）や経度、緯度などの正確なデータが必要ですが、ユーザーが入力する検索用語は曖昧な場合がよくあります。

この目的のために、チームは意味理解に基づく複合クエリを実装しました。つまり、AI を使用して入力テキストと写真撮影データを一致させ、翻訳に相当する処理を行いました。たとえば、「一昨年」と入力すると、意味理解により 2021 年に撮影されたすべての写真が自動的に提供されます。

「西単」など、さらに具体的な地名でも問題ありません。検索範囲を「写真」に絞り込んで、検索したくない情報を除外することもできます。

精度の問題が解決されると、次に発生する問題は、このタイプのインテリジェント検索は「検索が遅い」ことと、コストが高いことです。

結局のところ、既存の画像のインデックスを作成するだけでも、携帯電話の計算能力を圧倒する可能性があります。また、新しい画像を追加した後やクエリ中に大規模なモデルを使用した後にインデックスを再構築するコストもかかります。

そのため、インデックス作成の面では、チームはエンドとクラウドを統合するセマンティック検索システムを設計しました。まず、クラウドコンピューティングのパワーを使用してベクトル計算を実行し、次に端末デバイスを使用してローカルインデックスを展開して検索します。これにより、検索の速度を確保しながら、端末の計算量を削減できます。

端末の電力消費をさらに削減するために、チームはインデックス形式を圧縮および最適化し、検索結果が画像内の最も「重要な」データとなるようにしました。

計算能力の面では、チームはCPUやGPUなどの異種リソースを統一的に管理し、「アイドル」リソースを最大限に活用してクラウドディスク上のデータを計算するためのスケジューリングシステムも開発しました。

この方法では、クラウドドライブに100,000 枚の写真が保存されている場合でも、検索時間は数ミリ秒で、必要な画像を1 秒未満で見つけることができます。

これら 3 つの問題を解決した後、最後のステップは、検索方法をさらに多様化することです。

例えば、クラウドディスクチームは、画像検索、OCR、ビデオ検索などの AI テクノロジも導入しました。

写真を直接アップロードして画像で検索したり、写真の内容を比較してネットワークディスク内またはネットワーク全体で類似した写真を見つけることができます。

Baidu 百科事典に接続することもできます。

OCR 認識では、AI を使用して、奇妙な句読点が付いた画像であっても、画像内の情報や知識を識別できます。

写真

動画検索技術に関しては、AIアルゴリズムを使用して、動画を最もよく表すカバー画像を素早く選別し、動画検索を高速化します。

Baidu Netdiskの画像検索機能は数千万人のユーザーをカバーしており、画像検索サービスの累計利用回数は年間2億5000万回を超えているとのことです。膨大な量のデータであっても、Baidu Netdisk は常にユーザーデータのセキュリティとプライバシー保護を最優先します。

ストレージセキュリティを例にとると、Baidu Netdisk は Baidu Cloud Computing (Yangquan) Center に依存しており、データの信頼性は最大 99.99999999999% (12 9s)に達し、ユーザーデータの安定性と信頼性が大幅に向上しています。同時に、すべてのユーザーのデータセキュリティを完全に保護するために、3 つの ISO セキュリティ認証の年次監査に合格し続けています。

まとめると、Baidu Netdisk は、大規模モデルを含む最先端のテクノロジーを通じてコア機能の「進化」を実現し、数多くの類似アプリの中でも際立った存在となっています。

しかし、なぜビッグモデルが最初に変化を引き起こす分野が、Baidu Netdisk のようなアプリなのでしょうか?

ビッグモデルはすべてのアプリケーションを書き換える

実は、Baidu Netdisk だけではありません。市場の多くのアプリケーションがビッグモデルなどの新しいテクノロジーを吸収し始めています。

しかし、製品技術の観点から見ても、業界の観点から見ても、あるいは百度自体の観点から見ても、オンラインストレージは大きなモデルの開発をリードするための「足がかり」となるはずだ。

製品自体の観点から見ると、膨大なデータを管理するオンラインストレージデータベースとしてのクラウドディスクは、Excel などのデータ処理ソフトウェアと同様に、よりインテリジェントなインタラクション方法の必要性に直面することになります。

Excel では、一文でグラフを自動描画することが必須となっているように、データベースを利用するユーザーにとっても、「画像を検索する」という文は必然的に必須となるでしょう。

大規模モデルの出現により、テキストと画像の間に直接的な橋が架けられ、ネットワークディスクは単なる「ハードドライブ」ではなく、まさにユーザーの「第 2 の脳」になりました。

業界の発展傾向から判断すると、検索自体が大きなモデルが実装される最初の領域になるでしょう。

Google AIスナップショットやBaidu「AIパートナー」など、国内外のオンライン検索エンジンは、大規模なモデル機能を急速に導入しています。

しかし、外部知識の検索に加えて、ネットワークディスクなどの内部データベース検索やモバイルデバイス上のローカル検索など、インテリジェントなデータ検索に対する需要も高まっています。インテリジェント検索テクノロジーを最初に製品に導入できる人が、ユーザーエクスペリエンスを向上させ、より多くの人々に製品を利用してもらうことができる最初の人となるでしょう。

最後に、百度の観点から言えば、ビッグモデルが最初に流行したとき、CEOのロビン・リーは有名な言葉を残しました。

すべてのアプリケーションは、大規模なモデルを使用してやり直す必要があります。

Netdisk APP は、Baidu の最初の、そして最も競争力のある大規模モデル製品の 1 つであり、その革新的な機能はインテリジェント検索レベルに限定されません。

言い換えれば、インテリジェントな画像およびビデオ検索は、Baidu Netdisk の変革の始まりに過ぎません。現在、ビッグモデルのサポートにより、オンラインディスクのAIとデータ処理能力は十分に刺激され、完全にユーザーにとってインテリジェントなアシスタントになりました。

ビッグモデルをコアブレインとして活用し、知識、AIモデル、APIを呼び出すことで、個人の知識管理を迅速に実現します。また、マルチモーダルの作成とマルチデバイスの相互接続もすぐに実現します。

個人の知識管理: 検索、ネットワークディスクデータの総合的なインテリジェント管理を含みます。英語の財務レポートを素早く要約したり、文書の情報に基づいて質問に答えたり、ユーザーとやり取りしたりすることなど。
マルチモーダル作成: クラウドディスク内のグラフィック、テキスト、ビデオコンテンツはすべて AI を使用して再作成できます。写真から動画への自動変換、動画の字幕からテキストへの自動変換など。
マルチデバイスの相互接続: IoT に基づいて、ネットワークディスクのコンテンツを複数のスマートデバイス上で迅速に相互接続できるため、ファイル転送が非常に便利になります。

このスマートアシスタントは、クラウドディスクが最近内部テストを開始した「雲易多」に他なりません。これを使用すると、画像の検索、要約、翻訳などの機能がすべて1つの文で実現できます。

スマート検索から百度ネットディスクの「クラウド」まで、ビッグモデルに「書き換えられた」百度ネットディスクは、業界の変化の最前線をリードしてきました。

<<: 科学：ChatGPTは労働者と非労働者の間の格差を縮小する

>>: タンパク質言語モデルを数千億のパラメータに拡張し、Baitu BioscienceとTsinghua xTrimoPGLMモデルの詳細な解釈