オントロジーから始める:オペレータ関係マップの構築と応用

オントロジーから始める:オペレータ関係マップの構築と応用

[[258543]]

人類学者ロビン・ダンバーは、人間が親密な人間関係を維持できる最大人数は 150 人だと考えています。

オンラインソーシャルプラットフォームの出現後、多くの人々は仮想世界がダンバーの理論を打ち破ると信じていましたが、現実は、より多くの人々と交流したいのであれば、必然的に他の人々に費やすエネルギーを減らす必要があるということです。

しかし、人間関係は時間とともに変化し、人と人との関係の定義を特定できれば、詐欺グループの特定、詐欺師の電話関係ネットワークを通じてグループ関係の可能性を特定し、悪者を一網打尽に捕まえるなど、多くの業界分野にさらなる探求の方向性をもたらすでしょう。

この授業では、中国聯通のビッグデータ技術専門家である Yan Long 氏が「オントロジー」から始め、中国聯通のビッグデータ関係マップの構築と応用について紹介します。

1. オントロジー

ワールド ワイド ウェブの父、ティム バーナーズ リー教授は、1998 年にセマンティック ウェブを人類の目に触れさせました。目標は、ネットワークに単語、概念、およびそれらの間の論理的関係を理解する能力を与え、人間とコンピューターの相互作用をより効率的にすることです。セマンティック ウェブの中核となるオントロジーは、エンティティの存在と本質を研究する一般理論です。 1993 年、トーマス グルーバー教授は、共有概念モデルの明示的な形式仕様という、最も広く受け入れられているオントロジーの定義を提案しました。ここで言及されている概念は実際には 4 つあります。「概念化」とは、客観的な世界におけるいくつかの現象の関連概念を通じて得られるモデルを指します。「明示的」とは、使用される概念とその制約が明確に定義されていることを意味します。「形式的」とは、オントロジーがコンピューターで読み取り可能であることを意味します。「共有」とは、オントロジーが一般に認識されている知識を具体化し、関連分野で認識されている概念セットを反映していることを意味します。

存在論はもともと形而上学の一分野でした。形而上学的理解の例を以下に示します(例:図1)

(図1)

中国語の「猫」と「猫咪」、英語の「cat」、そして写真に写っている「猫の絵」はすべて、実際の物体「猫」を表すために使用できます。したがって、哲学的なレベルでは、「猫」のような物理的なオブジェクトは、アリストテレスが「実体」と呼び、パルメニデスが「存在」と呼び、オントロジーでは「オントロジー」と呼ばれるものです。上の画像の説明はすべて、「エンティティ」のシンボル「猫」を参照しています。

ここから、「オントロジー」という概念は哲学的なレベルでは形而上学的なものであり、理解することはできても言葉で表現することはできないことがわかります。したがって、エンティティにとって、すべての記述はこの「オントロジー」の外部シンボルです。私たちが感じ、聞き、見るものはすべて、シンボルからオントロジーへの一種のマッピングになります。

オントロジーの哲学的意味を説明した後、意味レベルでオントロジーをより深く理解できたでしょうか? 実際、オントロジーの主な目的は、このようなマッピングを確立することです。たとえば、シンボル セット {"cat", "kitty", "meow", "cat"} は、"cat" の "オントロジー" にマッピングされます。オントロジーのセットを確立すると、オントロジー間に論理的な関係が存在します (例: IF A⊆B かつ B⊆C、THEN A⊆C)。オントロジーの論理層は、対応する論理的推論を実装するための公理と推論ルールを提供します。これは、「属性-オントロジー」関係、「サブクラス-オントロジー」関係、または「オントロジー-オントロジー」の対立または近似関係である可能性があります。オントロジーの最終的な目標は、知識表現を実現し、知識ベースを構築し、知識推論を実現すること、つまり、オントロジーの基本要素であるエンティティ間の関係を、現実世界を記述するための知識モデルとして使用することです。

2. ナレッジグラフ

この知識モデルの用途は何でしょうか? Google は、従来のキーワードベースの検索をセマンティックベースの検索にアップグレードするために、2012 年にナレッジ グラフを提案しました。ナレッジ グラフを使用すると、複雑な関連情報をより適切に照会し、意味レベルからユーザーの意図を理解し、検索品質を向上させることができます。ここで、オントロジーの概念を借用して、ナレッジ グラフについての私の個人的な理解を示します。ナレッジ グラフは、現実世界に存在するさまざまなエンティティとそれらの間の関係を記述するために使用され、エンティティ自体にはさまざまなインスタンスと属性があります。先ほどの「猫の例」(下の図 2)と同様に、「meow meow meow meow」とクエリすると、返されるのは TikTok で人気の「Learn to Meow」ではなく、エンティティ「cat」になります。同時に、他の知識を補足することで、「猫」には「ナス」のインスタンスがあり、「ナス」の所有者は私であることがわかります。私と小虎はどちらも中国聯通ビッグデータで働いており、親しい関係にあります。ナレッジベース内のエンティティ、リレーションシップ、属性、インスタンスなどの数が非常に多い場合は、巨大なネットワーク関係トポロジ図を描くことができます。このような知識ベースがあれば、検索エンジンはユーザーのクエリの背後にある意味情報を把握し、より正確な情報を返すことができます。言い換えれば、ナレッジグラフは、より多くの意味を導入し、物事を検索し、人間のように考え、関連付け、関係付けます。これは、Google ナレッジ グラフの本来の意図、「世界は文字列で構成されているのではなく、物で構成されている」を裏付けるものでもあります。

(図2)

さらに、さまざまな言語の「cat」という単語を「cat」のオントロジーにマッピングし、名詞主語、動詞主語などで構成された論理関係や動詞目的語句に基づいて、逆マッピングを行うことで簡単な機械翻訳を実現できます。

3. グラフデータベース

2018 年 9 月に、弊社の公式アカウントで「エキスパート クラスルーム | NoSQL か SQL か」というタイトルの記事が掲載され、グラフ データベースについて触れられました。記事では、NoSQL か SQL か、なぜ NoSQL か、などのトピックが取り上げられました。シーンベースの選択についても同様の導入がありますが、ここでは詳しく説明しません。前のセクションの図から、通話記録はエンティティとリレーションシップの形式で保存できることが明確にわかります。これは、オペレーター データの本来の利点です。私たちのシナリオでは、NLP テクノロジに基づくエンティティ抽出と関係抽出に多くの時間を費やす必要はありません。私たちの焦点は、動的に更新される多数のコール ノードと関係がグラフに確実にロードされるようにする方法、どの人がどのようなコール動作特性を持っているか、これらのグラフからマイニングされた機能が既存のシナリオ モデルにどのように貢献するかなど、コール関係ネットワークにあります。例えば、リスク管理の分野では、グラフ発見関連の手法を適用して、サンプル番号やIDが詐欺コミュニティに属しているかどうか、安定した通話ソーシャルサークルを持っているかどうか、ブラックマーケット番号との関連度はどれくらいか、相関係数はどれくらいか、複数の電話グループの関連があるかどうかなどを調べています。これらは、リスク管理および不正防止モデルの新しい機能になります。

テストデータセットは、ネットワーク全体のすべてのユーザーの 3 か月間の通話記録を使用します。ノード属性には、Unicom 番号であるかどうか、携帯電話番号に対応する職場の経度と緯度などが含まれ、エッジ属性には、3 か月間の番号間の通話回数、通話回数、日数、期間などが含まれます。データセットのサイズは約 750G で、これをグラフ データベースにロードした結果を図 3 に示します。

(図3)

ロード後、各マシンの VertexCount と EdgeCount によると、グラフ データベースには約 17 億のノード (数値) と 340 億のエッジ (呼び出し関係) がロードされていることがわかります。 NumOfSkippedVertices は重複排除プロセスを表します。つまり、各ノードは 1 回だけロードされます。したがって、パーティションの合計サイズは約 590G のみとなり、実際にデータが圧縮されます。

単純な数値関係クエリ (図 4 を参照) は、数百億のエッジを持つグラフ データベースでミリ秒レベルの応答を実現できます。注目すべき点が 2 つあります。1. クエリは JSON 形式で返されます。2. クエリ言語は SQL に似ています。

(図4)

クエリ言語をファイルの形式で保存し、インストール/実行クエリを通じてクエリを実行できます。同時に、バックグラウンドでクエリをインストールすると、REST エンドポイントも生成され、パラメータ化されたクエリを http 経由で呼び出すことができるようになります。図 5 に示すように、クエリ言語を使用してグラフを走査し、2 つの数値間の最短距離を見つけます。これにより、よく知られている「6次の隔たり理論(スモールワールド理論)」が実現されます。つまり、世界中のどの2人も、最大6つの関係を通じてお互いを見つけることができるということです。

(図5)

番号間の通話頻度を関係重みとして定義すると、各人の通話回数が通話アクティビティになります。あなたとの通話記録はないが、あなたの親しい友人には頻繁に電話をかけてくる人がいると想像してください。あなたはこの人を知っている可能性がありますか? このクエリは、グラフからあなたが知っている可能性のある人を抽出します。クエリ入力は、クエリする番号と最も可能性の高い k 個の携帯電話番号であり、戻り値はクエリ番号と入力番号の間の距離です (図 6 を参照)。

(図6)

***、実際のシナリオケースを挙げると、いくつかの従業員番号、IMEI、またはその他のIDを通じて企業内の従業員グループを見つけ、グループを分析して企業の実際のビジネスアドレス、活動レベルなどを反映することは可能ですか?ここでは、[2ステップ近隣サブグラフ]の概念(携帯電話番号をノードとして例とする)を示します。つまり、連絡先の番号と連絡先の連絡先を入力します(図7に示すように、ここでは視覚的なインタラクティブインターフェイスを使用して通話関係を表示します)。

(図7)

モデル構築プロセスでは、通話の期間、継続時間、頻度を分析し、同僚間の関係の可能性を評価し、既存の職場・居住地モデルとグリッド技術に基づいて会社の実際の事業所住所をマイニングしました。私の携帯電話番号を例にとると(図8参照)、同社の従業員が主に集まる職場(数字は、対応するグリッド内に職場がある人の数を表す)は、中国聯通ビッグデータ社の2つのオフィスエリア(職場・居住地データは2018年12月から取得)と中国聯通グループです。

(図8)

このモデルは、群衆の行動に関する洞察に基づいて、産業および商業部門が企業の実際の場所と活動を動的かつ客観的に評価および判断し、関連する監督と規制のためのデータサポートを提供するのに役立ちます。

注目すべきは、中国聯通のビッグデータ関係グラフに基づくと、数十億のノードと数百億のエッジを持つ大規模なネットワーク構造において、6 ステップの隣接サブグラフを照会するのに 1 秒もかからないことです (図 9 を参照)。視覚的なインタラクティブ インターフェイスを図 10 に示します (中央の白い点は私の携帯電話番号です)。

(図9)

[[258545]]

(図10)

ネットワーク内の関係性をより詳細に把握するために、表示しきい値が下げられます (図 11 を参照)。確認したところ、中央のリング構造上の各点は互いに同僚であることがわかりました。多くの場合、ソーシャル ネットワークのリング構造内のポイント間には、同僚関係、親密な関係、ギャング関係、資本の流れなどの暗黙的なつながりが存在します。さまざまなサンプルとさまざまなシナリオのアプリケーションに基づいて、従来のデータベース タイプと比較して、グラフ データベースはサンプル間の相関関係を最大限に調査できます。

[[258546]]
(図11)

さらに、コミュニティ検出、Pagerank、LPA などの多数の古典的なグラフマイニングアルゴリズムも、従来の機械学習モデルの入力機能にさらに多くのグラフ機能を追加する準備ができています。

つまり、オントロジー、ナレッジ グラフ、グラフ データベースはすべて、ノードと関係を使用して現実世界のさまざまなシナリオを直感的にモデル化し、「グラフ」という基本的で普遍的な「言語」を使用して、この多彩な世界のさまざまな関係を「高い忠実度」で表現します。非常に直感的で、自然で、直接的で、効率的です。 Unicom Data は「ノード」と「関係性」において独自の優位性を持っており、グラフ検出の道を着実に歩んでいます。

<<:  AI、BI、データ: 2020 年までに勝利するのは誰か?

>>:  映画業界におけるAI:将来はアカデミー賞の背後にAIが立つ

推薦する

...

OpenAIがChatGPTの「カスタム指示」機能を全ユーザーに公開

米国現地時間8月11日木曜日、人工知能研究企業OpenAIは、ChatGPTの「カスタム指示」機能を...

...

KDnuggets 調査 | データ サイエンティストが最もよく使用するアルゴリズム トップ 10

翻訳 | 江凡百理子杰樹校正 | ロリン最新の KDnuggets 調査では、データ サイエンティス...

生成型 AI がソフトウェア開発を変える 10 の方法

翻訳者 |陳俊レビュー | Chonglou 1990 年代にソフトウェア プログラミングについて話...

今後20年間で、人工知能は中国で9000万の雇用を生み出すだろう

今後20年間で、人工知能やロボット、ドローン、自動運転車などの関連技術により、中国での雇用は約12%...

ビッグモデルの時代、周志華教授の「ラーニングウェア」の考え方を分析:小さなモデルでも大きなことができる

ビッグモデルの時代に入りつつあることは間違いありません。オープンソースやクローズドソースのさまざまな...

中国にはどのような人工知能の人材が必要でしょうか?

[[233697]] 「『AI』が何の略か、誰もが知っているとは思いません。アルゴリズムはあっても...

2021年に注目すべき5つのロボットトレンド

[[388526]]画像ソース: https://pixabay.com/images/id-520...

AIは旅行業界の困難を軽減できるか?

[[323317]]現時点では、多くの企業が、数か月前に考えていたよりも見通しが不透明であると感じ...

研究者:AIモデルの「推論」はより多くの電力を消費し、業界の電力消費は2027年に「オランダに匹敵する」ようになる

今週10月13日、Cellの姉妹誌Jouleは「人工知能の増大するエネルギーフットプリント」と題する...

陳根:人工知能は人間と機械の間の感情的な溝を埋めている

長い間、感情があるかどうかは、人間と機械を区別する重要な基準の一つでした。つまり、機械が感情を持って...

...

...

AIガバナンスがトップに躍り出るには

人工知能(AI)技術は現在、広く利用されています。 AI ガバナンスが重要なのは、AI はより大きな...