ナレッジグラフの紹介

1.1 ナレッジグラフの開発履歴
ナレッジグラフは 1950 年代に始まり、大きく 3 つの開発段階に分けられます。

• 第一段階（1955-1977）はナレッジグラフの起源段階であり、この段階で引用ネットワーク分析が現代科学の発展を研究するための一般的な方法になり始めました。

• 第 2 段階 (1977-2012) は、知識グラフの発展段階です。セマンティックウェブは急速に発展し、「知識オントロジー」の研究はコンピューターサイエンスの重要な分野になりました。知識グラフは、知識の組織化と表現においてセマンティックウェブとオントロジーの概念を吸収し、コンピューター間およびコンピューターと人間の間での知識の交換、流通、処理を容易にしました。

• 第3段階（2012年から現在）はナレッジグラフの繁栄段階です。2012年にGoogleがGoogle Knowledge Graphを提案し、ナレッジグラフが正式に命名されました。Googleはナレッジグラフ技術を通じて検索エンジンのパフォーマンスを向上させました。人工知能の活発な発展により、知識グラフに関わる知識の抽出、表現、融合、推論、質問応答などの重要な課題が解決され、ある程度の進歩が遂げられました。知識グラフは知識サービス分野の新たなホットスポットとなり、国内外の学者や業界から幅広い注目を集めています。

ナレッジグラフの具体的な開発プロセスを下図に示します。

ケーススタディ資料

近年、セマンティックウェブの台頭により、オントロジー技術が広く注目を集めています。多くの大手多国籍企業がオントロジー技術の研究を始めています。 Google は 2012 年にナレッジグラフプロジェクトを提案しました。これは、オントロジー技術を使用して検索精度を向上させ、よりインテリジェントな知識閲覧を実現することを目的としています。百度や捜狗などの国内インターネット企業もこの分野でプロジェクトを立ち上げている。 Microsoft は、Web ページから情報をクロールして大規模なオントロジーを構築することを目的とした Probase プロジェクトを提案しました。 IBM は、セマンティック Web テクノロジーを使用して、異種の医療データの統合とより正確なクエリ回答を処理します。オントロジー技術は、IBM の有名な質問応答システム Watson で重要な役割を果たしています。 Oracle は、強力なセマンティックデータ推論およびインデックス作成システムを実装します。オントロジー技術は、欧州および米国の政府によってもサポートされています。英国政府は、多くの政府ウェブサイトの情報をオントロジーの形式で配布する http://Data.gov.uk プロジェクトを開始しました。米国政府も同様のプログラムを実施している。学術界、特にコンピュータサイエンスの分野ではオントロジーの研究に多くの成果があり、多くの実用的な技術が開発されています。過去 5 年間、欧州連合はオントロジー関連の研究に多額の科学研究資金 (累計で数億ユーロを超える) を投資してきました。

1.2 ナレッジグラフの重要性
哲学者プラトンは知識を「正当化された真の信念」と定義しました。つまり、知識は合理性（正当化）、真実性（真実）、信念（信じられた）という 3 つの中核要素を満たす必要があるということです。簡単に言えば、知識とは、人間が客観的な世界におけるさまざまな現象を観察し、学び、考えることを通じて獲得し、まとめたすべての事実（Facts）、概念（Concepts）、規則または原則（Rules & Principles）の集合体です。人類は、自然言語、絵画、音楽、数学言語、物理モデル、化学式など、知識を記述、表現、伝達するためのさまざまな手段を発明してきました。これは、客観的世界の法則を知識に基づいて記述することが人類社会の発展にとって重要であることを示しています。知識を獲得し、表現し、処理する能力は、人間の心を他の種の心と区別する重要な特徴です。ナレッジグラフは、人間の知識に基づいて機械が認知能力を獲得することを促進する重要な方法となり、将来のインテリジェント社会にとって徐々に重要な生産手段になるでしょう。

ナレッジグラフは人工知能の重要な基礎です。

n ナレッジグラフはインテリジェントな開発を促進します。

ナレッジグラフは、強力な人工知能の開発を推進する中核的な原動力の 1 つです。

ナレッジグラフは、2012 年 5 月 17 日に Google によって提案されました。当初の目的は、検索エンジンの機能を強化し、ユーザーの検索品質と検索エクスペリエンスを向上させることでした。現在の人工知能技術は、実際には知覚知能（主に画像、ビデオ、音声、テキストなどの認識）と認知知能（知識推論、因果分析などを含む）に簡単に分けることができます。ナレッジグラフ技術は、認知知能の分野における主要な技術であり、人工知能技術の不可欠な部分です。その強力なセマンティック処理と相互接続された組織化機能は、インテリジェントな情報アプリケーションの基盤を提供します。

ナレッジグラフは、現実世界に存在するエンティティとそれらの間の関係を記述することを目的としています。人工知能技術の発展と応用により、ナレッジグラフは主要技術の1つとして、インテリジェント検索、インテリジェントな質疑応答、パーソナライズされた推奨、コンテンツ配信などの分野で広く利用されるようになりました。

ナレッジグラフは、その利用範囲から、一般ナレッジグラフとドメインナレッジグラフに分けられます。一般ナレッジグラフは広範さを重視し、ほとんどのデータはインターネットから取得されますが、ドメインナレッジグラフは垂直分野に適用され、基本的なデータサービスとなっています。

1.3 ナレッジグラフの定義
ナレッジグラフは、客観的な世界における概念、エンティティ、およびそれらの関係を構造化された形式で記述し、インターネット情報を人間の認知世界に近い形式で表現し、膨大な量のインターネット情報をより適切に整理、管理、および理解する方法を提供します。ナレッジグラフは、インターネットのセマンティック検索に活力をもたらし、インテリジェントな質疑応答でもその威力を発揮しています。ナレッジグラフは、インターネットの知識主導型インテリジェントアプリケーションのインフラストラクチャとなっています。ナレッジグラフは、ビッグデータやディープラーニングとともに、インターネットと人工知能の発展の中心的な原動力の 1 つとなっています。

国立標準技術研究所のナレッジグラフは、新しい知識表現方法ではなく、業界における知識表現の大規模な知識アプリケーションです。インターネット上の識別可能な客観的なオブジェクトを関連付けて、客観的な世界のエンティティとエンティティの関係の知識ベースを形成します。本質的には、ノードがエンティティまたは概念を表し、エッジがエンティティ/概念間のさまざまな意味関係を表すセマンティックネットワークです。ナレッジグラフのアーキテクチャには、ナレッジグラフ自体の論理構造と、ナレッジグラフの構築に使用される技術 (システム) アーキテクチャが含まれます。ナレッジグラフの論理構造は、モデル層とデータ層に分けられます。モデル層はデータ層の上にあり、ナレッジグラフの中核です。モデル層には、洗練された知識が格納されます。ナレッジグラフのモデル層を管理するには、通常、オントロジーライブラリが使用されます。オントロジーライブラリの公理、ルール、制約のサポートは、エンティティ、関係、エンティティタイプと属性間の接続を標準化するために使用されます。データ層は主に一連の事実で構成され、知識は事実単位で保存されます。ナレッジグラフのデータ層では、知識は事実の形式でグラフデータベースに保存されます。「エンティティ-リレーションシップ-エンティティ」または「エンティティ-属性-値」のトリプルをファクトの基本表現として使用すると、グラフデータベースに保存されているすべてのデータが巨大なエンティティリレーションシップネットワークを構成し、「ナレッジグラフ」を形成します。

ナレッジグラフは、現実世界に存在するさまざまなエンティティや概念、およびそれらの関係を記述することを目的としています。これは、ノードがエンティティまたは概念を表し、エッジが属性または関係で構成される巨大なセマンティックネットワークグラフを構成します。現在、ナレッジグラフは、さまざまな大規模な知識ベースを参照するために使用されています。

上図に示すように、ナレッジグラフには 3 種類のノードが含まれており、その基本形式は (エンティティ 1-リレーションシップ-エンティティ 2) と (エンティティ-属性-属性値) です。

エンティティ: 区別可能で独立して存在するものを指します。たとえば、国: 中国、イギリスなど、都市: 北京、ロンドンなど。

セマンティッククラス: 国、都市、民族など、特定の特性を持つエンティティのコレクション。

属性値: エンティティが指す属性の値。たとえば、中国（エンティティ）の面積（属性）は 960 万平方キロメートル（属性値）です。

リレーションシップ: ナレッジグラフでは、リレーションシップは kk グラフノード (エンティティ、セマンティッククラス、属性値) をブール値にマッピングする関数です。

上記のセマンティックグラフの概念に基づいて、次の図に示すように、例として国のナレッジグラフを構築できます。

<<: 「ニューラル＋シンボリック」：知識グラフの観点から見た認知推論の発展

>>: 知識をグラフに変換するには、いくつのステップが必要ですか?インターネット上で最も包括的な清華ナレッジグラフレポートの89ページ