セマンティクスと機械学習が融合するとき

人工知能は歴史的に、やや相反する2つの陣営の間を揺れ動いてきました。一方では、ノーム・チョムスキー、マービン・ミンスキー、シーモア・パパート、その他多くの人々によって代表される、認知知能は本質的にアルゴリズム的であり、言語、ひいては知能の根底には一連の基本ルールがあるという考えがあります。一方では、ドナルド・ヘブ、フランク・ローゼンブラット、ウェズリー・クラーク、ヘンリー・ケリー、アーサー・ブライソン・ジュニアなど、ほとんど無名の人々もいて、彼らは勾配降下法、遺伝的アルゴリズム、バックプロパゲーション、およびニューラルネットワークの他の部分を開発した。

2 つの陣営の競争は熾烈でした。ある時点で、ミンスキーとパパートがローゼンブラットのパーセプトロン (初期のニューラルモデルの 1 つ) をかなり厳しく分析した後、議論はアルゴリズムアプローチの方向にほぼ落ち着いたように見えました。振り返ってみると、両者が直面した大きな障害（そして AI 研究を 10 年にわたる冬の時代へと陥れた障害）は、どちらのモデルも実際に成果を上げるのに必要な計算能力（計算能力の 21 桁の増加）を過小評価していたことだった。コンピューターとネットワークがどちらの技術も実用的になるまでには、さらに 50 年かかることになる。

結局、どちらの側も、ある面では正しく、他の面では間違っていたことが判明しました。ニューラルネットワーク (および機械学習) は、画像認識、自動分類、自然言語処理、システムモデリングなど、1964 年に重要と考えられていた多くの問題に対して非常に効果的になりました。特に分類機能は、Twitter の投稿から映画まで膨大な量のコンテンツがその恩恵を受けていることを考えると、大きな前進です。

同時に、ミンスキーとパパートのパーセプトロンに関する議論は、機械学習に関する現在の議論にも反映されています。発見可能性と検証可能性は、どちらも解決が非常に難しい 2 つの問題であることが証明されています。特定のソリューションが正しい理由を判断できない場合は、適切にモデル化されていない重要な隠れた変数があり、それらの変数の限界が不明であることを意味します。不連続性や特異性がある場合、モデルを独自のトレーニングデータ以外のものに適用すると問題が発生します。

さらに、論理的 (そして時には社会的) な構造を開発する際に人間が介入するという問題を、大量のデータを検索してふるいにかけるという、多くの場合時間と労力を要する作業に置き換えます。おそらく、後者の作業は実際には前者の作業の単なる変種であり、おそらく効率は低いでしょう。

一方、アルゴリズムの面では状況が必ずしも良くなっているわけではありません。実際、アルゴリズム的アプローチには分析的側面とセマンティック的側面という 2 つの側面があります。現在ではデータサイエンスと見なされている分析手法では、統計分析 (または確率論的手法) を使用して分布と確率を決定します。おそらく、ランダム法の利点は、十分に大きなデータセットがあれば、特定のイベントが発生する確率を一定の誤差範囲内で判断できることです。しかし、確率的手法は従来の統計分析から離れ、グラフ分析を利用して個々の変数 (特徴) を分析できるベイジアンネットワークの使用へと移行しています。

一方、セマンティクスは、アサーションを接続するネットワークグラフと、アサーション自体に関する追加のアサーションを作成する機能 (モデリングを通じて) を活用します。このプロセスは具体化と呼ばれます。セマンティクスは、従来のモデリング手法とよく適合します。これは、従来の (リレーショナル) モデリングがセマンティックモデルの閉じたサブセットである一方で、XML や JSON に代表されるドキュメントオブジェクトモデリング言語 (DOM) に固有の機能を提供しているためです。

重要なのは、ベイジアンネットワークは、決定木と同様に、具体的な意味を持つグラフとして表現できることです。実際、SPARQL クエリは、あらゆる重要な点で決定木と同型です。これは、決定木の各ノードが、特定のパターンまたは制約が存在する 2 つのデータセットの交差に基づいているためです (ヒント: コンプライアンステストシステムを構築したいですか? SPARQL を使用してください!)。

ソフトウェア開発の歴史には純粋主義者と実用主義者が溢れています。純粋主義者は、C++ 対 Java、命令型対宣言型、SQL 対 NoSQL、Perl 対 ... など、独自の特定のツールと言語に対する立場を主張します。実用主義者は典型的には、最良のものだけを選び、議論の雑音を無視して、妥協点を見つけようとします。純粋主義者の多くは最終的には実用主義者になりますが、ほとんどのプログラマーは何年も経ってからプロジェクトマネージャーになる傾向があるため、この学習の実際の影響は最小限です。

現時点では、ニューラルネットワーク、ベイジアン、セマンティクスの 3 つの最新世代は非常に新しいため、選択したツールがあらゆる潜在的な状況に最適なツールであると考える傾向が強くあります。しかし、これらは究極的にはグラフ、またはグラフを処理するためのツールであり、この根本的な共通性はより広範な統一につながると信じています。例えば：

機械学習パイプラインは分類器です。中間分類子のラベルが特定のオントロジーに対応している場合、特定のエンティティが分類されると、そのエンティティのセマンティック表現を関連するパターン、形状、クラス、またはルールに割り当てることができます。
機械学習システムはインデックス作成に関するものではありませんが、私の子供たちが言うように、隣接性（非常にグラフのようなフレーズ）のインデックス作成に関するものです。基本的に、不明なタイプのインスタンスと関連するクラス間のマッピングを作成します。ここで複数のクラスが重要なのは、クラスは単なるラベル付けされたパターンであり、継承はそのような 2 つのパターン間の共通の特性を示しているためです。このマッピングは、クエリを満たすすべての項目を取得するのではなく、クエリが項目の 1 つに適用する (命名) パターンを基本的に取得するため、逆クエリと呼ばれることもあります。
SPARQL で分類子を作成することは可能です (そして正直に言うとかなり簡単です)。これは、SPARQL が本質的にトリプルパターンの存在を探すためです。つまり、プロパティの存在だけでなく、多くの場合、2 次および 3 次関係も探すのです。 SHACL は RDF スキーマ言語であり、特定の SHACL 構造 (およびその他の部分) に基づいて SPARQL を生成するツールと考えることができますが、それらのスキーマは非常に微妙な場合があります。
同様に、グラフ分析は最終的にはリレーショナルデータ分析と同じくらい、あるいはそれ以上に重要になると思います。主な理由は、グラフを使用すると、あらゆる種類の確率過程に複数の抽象化レイヤーと発見可能性を追加することが非常に簡単になり、それによって機械学習ツールが現在直面している多くの同じ問題を解決できるためです。
このプロセスは逆も可能です。 SPARQL をインバウンドストリームと共に使用して、機械言語サービスのトレーニングデータを構築するためのグラフを作成できます。このトレーニングデータは既存のオントロジーのコンテキストで既にラベル付けおよび識別されているため、このプロセスの利点は、結果として得られる分類子に、データの由来と注釈、確立された識別子、イベントのタイムスタンプなど、解釈に必要なすべての部分がすでに備わっていることです。
もう 1 つの重要な点は、SPARQL が処理するグラフを変更できることです。 SPARQL 呼び出し自体に外部コンテンツを直接処理できるサービス呼び出しを組み込むと、推論 (既存のアサーションで検出されたパターンに基づいて新しいアサーションを作成する) が特に重要になります。 SPARQL の次の主要なフェーズの 1 つは、中間コアオブジェクト (ソフトウェアベンダーは注意してください) または RDF のソースとして、JSON を取得、処理、および生成する機能です。
つまり、SPARQL の将来のバージョンでは、表形式のデータを RDF として保存する必要がなくなり、代わりに JSON として保存し、その JSON (および関連する分析関数) を活用して、はるかに少ない処理リソースで、はるかに複雑な推論を作成できるようになります。同様の操作について XProc XML パイプライン処理言語を見ると、XSLT/XQuery パイプラインと RDF/SPARQL/SHACL パイプラインの違いはほとんど表面的なものであることがわかります。

この最後のポイントは非常に重要です。最新世代の Agile/DevOPS/ML 運用モデルが示すように、パイプラインと変換が未来だからです。連鎖的な変換を処理できる場合 (特に、特定のパイプラインが事前に設定されるのではなく、コンテキストによって決定される場合)、そのようなパイプラインはますます有機的な認知プロセスのように見え始めます。

原題: セマンティクスと機械学習の融合点、著者: Kurt A Cagle

<<: デジタルツインがグローバルサプライチェーンの悪夢からの脱出にどのように役立つか

>>: インテリジェントロボットはCOVID-19パンデミックとの戦いでどのように大きな役割を果たすことができるのでしょうか?