GPU + 生成AIが時空間データ分析の改善に貢献

翻訳者|朱仙中

レビュー | Chonglou

導入

携帯電話、気候センサー、金融市場取引、車両や輸送コンテナのセンサーなど、さまざまなソースから取得される時空間データは、最大かつ最も急速に成長しているデータカテゴリです。 IDC は、接続されたIoT デバイスによって生成されるデータの総量は2025 年までに73.1 ZB に達し、2019 年の 18.3 ZB から年平均成長率 26% になると予測しています。

MIT Technology Review の最近のレポートによると、IoT データ (多くの場合、位置情報がタグ付けされている) は、他の構造化データや半構造化データよりも急速に増加しています (下のグラフを参照)。しかし、IoT データは、その複雑な統合と有意義な活用に伴う課題のため、今日ほとんどの組織ではほとんど活用されていません。

今日、 2 つの画期的な技術進歩が融合し、地理空間および時系列データ分析の分野に前例のない効率性とアクセス性をもたらしています。 1 つ目は、これまで達成できなかったレベルのパフォーマンスと精度を時系列および空間ワークロードにもたらす GPU アクセラレーションデータベースです。 2つ目は生成AIです。これは、 GISの専門知識と高度なプログラミング能力の両方を備えた優秀な人材の必要性をなくすのに役立つ可能性のあるテクノロジーです。

これらの開発はいずれも画期的なものであり、それらが交差することで複雑な空間分析や時系列分析がますます利用しやすくなり、これまで以上に幅広いデータ専門家がこれらの手法を利用できるようになります。この記事では、これらの進歩が時空間データベースの状況をどのように変え、データ主導の洞察とイノベーションの新しい時代を導くのかを探ります。

GPU が時空間分析を加速する方法

GPU はもともとコンピューターグラフィックスとレンダリングを高速化するために設計されましたが、最近では、今日の最も強力な生成AIモデルを動かすニューラルネットワークなど、超並列コンピューティングを必要とする他の分野でもイノベーションを推進しています。同様に、時空間分析の複雑さと範囲は、計算規模によって制限されることがよくあります。しかし、 GPU アクセラレーションを活用できる最新のデータベースは、新たなパフォーマンスのボトルネックを突破し、新たな技術的洞察を生み出しています。ここでは、 GPUアクセラレーションによる時空間解析の 2 つの特定領域に焦点を当てます。

異なるタイムスタンプを持つ時系列ストリームの不正確な結合

異なる時系列データストリームを分析する場合、タイムスタンプが完全に一致することはほとんどありません。デバイスが正確なクロックや GPS (全地球測位システム)に依存している場合でも、センサーは異なる間隔で読み取り値を生成したり、異なる遅延でメトリックを提供したりすることがあります。または、株式取引や株価の場合、タイムスタンプが正確に一致しない場合があります。

特定の時点での機械データの状態に関する共通の動作状況を把握するには、これらのさまざまなデータセットを結合する必要があります (たとえば、ルート上の任意の時点での車両の実際のセンサー値を把握したり、金融取引を最新の相場と照合したりするなど)。固定の顧客 ID を使用して結合できる顧客データとは異なり、ここでは、時間に基づいて異なるデータストリームを関連付けるために、不正確な結合を実行する必要があります。

時系列を相関させるために複雑なデータエンジニアリングパイプラインを構築する代わりに、GPU の処理能力を活用して重い処理を実行できます。たとえば、分散型の GPU 高速化データベースであるKineticaを使用すると、GPU 高速化 ASOF 結合を利用できます。これにより、指定した間隔を使用して 1 つの時系列データセットを別の時系列データセットに結合し、間隔内の最小値または最大値を返すかどうかを決定できます。

たとえば、以下のシナリオでは、取引と見積もりが異なる時間間隔で到着します。

Apple の取引とそれに対応する相場を分析したい場合は、Kinetica の ASOF 結合を使用して、各 Apple 取引の特定の間隔内で発生した対応する相場をすぐに見つけることができます。対応するSQLスクリプトは次のとおりです。

 SELECT * FROM trades t LEFT JOIN quotes q ON t.symbol = q.symbol AND ASOF(t.time, q.timestamp, INTERVAL '0' SECOND, INTERVAL '5' SECOND, MIN) WHERE t.symbol = 'AAPL'

ここでは、 1 行の SQLスクリプトのみが使用され、 GPU のパワーと組み合わせることで、時空間データ用の複雑なデータエンジニアリングパイプラインの実装コストと処理遅延が削減されます。このクエリは、取引後 5 秒以内に各取引のその取引に最も近い見積りを検索します。時系列または空間データセットに対するこのような不正確な結合は、時空間データの氾濫を制御するのに役立つ重要なツールです。

数十億のポイントをインタラクティブに地理的に視覚化

通常、時空間 IoT データを探索または分析するための最初のステップは視覚化です。特に地理空間データの場合、参照マップに対してデータをレンダリングすることが、データの視覚的な検査を実行し、カバレッジの問題、データ品質の問題、またはその他の異常をチェックする最も簡単な方法になります。たとえば、GPS 信号の品質を検証するための追加のアルゴリズムやプロセスを開発するよりも、地図を視覚的にスキャンして車両の GPS 軌跡を確認する方が、道路網をたどるよりもはるかに高速です。または、ギニア湾の空の島々の周囲に誤ったデータが見られる場合、緯度 0 度と経度 0 度を送信している無効な GPS データソースをすばやく識別して分離できます。

ただし、従来の手法を使用して大規模な地理空間データセットを分析するには、多くの場合、妥協が必要になります。従来のクライアント側レンダリング技術では、レンダリングに問題が生じ、優れたインタラクティブな探索エクスペリエンスが実現できなくなる前に、数万のポイントまたは地理空間フィーチャを処理できる場合がよくあります。限られた時間枠や非常に限定された地理的領域など、データのサブセットを調査すると、データ量をより管理しやすい規模にまで削減できる可能性があります。ただし、データのサンプリングを開始すると、視覚的な分析によって簡単に発見できた特定のデータ品質の問題、傾向、または異常を示すデータを破棄するリスクがあります。

船舶交通に関する約 3 億のデータポイントを視覚的に検査することで、アフリカ上空の異常なデータや本初子午線のバンドなど、データ品質の問題を迅速に特定できます。

幸いなことに、GPU は視覚化を加速するのに優れています。たとえば、 Kinetica などのサーバー側 GPU レンダリング機能を備えた最新のデータベースプラットフォームでは、数百万、あるいは数十億もの地理空間ポイントやフィーチャをリアルタイムで探索および視覚化できます。この大幅な高速化により、ダウンサンプリング、集約、データ忠実度の損失なしに、すべての地理空間データを即座に視覚化できるようになります。インスタントレンダリングにより、パンやズーム時に非常にスムーズな視覚化エクスペリエンスが提供され、これらのデータフィールドの探索と発見が大幅に容易になります。ヒートマップやビニングなどの追加の集計をオプションで有効にして、データの完全なコーパスに対してさらに分析を実行することもできます。

上の画像は、ズームイン手法を使用して、東シナ海地域の船舶交通パターンと船舶速度を分析しています。

LLM による空間時間分析の民主化

時空間の問題は、データ内の空間と時間の関係に関係しており、現実世界の経験を反映しているため、素人の直感に響くことがよくあります。人々は、注文から配達完了までの製品のプロセスを知りたいと思うかもしれません。しかし、これらの一見単純なクエリを関数型コードに変換することは、経験豊富なプログラマーにとっても困難な課題です。

たとえば、交通状況、道路の通行止め、配達時間を考慮しながら、移動時間を最小限に抑える配送トラックの最適なルートを決定するには、複雑なアルゴリズムとリアルタイムのデータ統合が必要です。同様に、さまざまな影響要因を考慮しながら、時間と地理を通じて病気の蔓延を追跡するには、経験豊富なデータサイエンティストでさえ困惑する複雑なモデリングと分析が必要です。

これらの例は、時空間の問題は概念的にはアクセス可能であるものの、そのエンコードを困難な作業にする複雑さが隠れていることが多いことを強調しています。最適な数学演算とそれに対応する SQL 関数の構文を理解することは、最も経験豊富な SQL エキスパートにとっても難しい場合があります。

幸いなことに、最新世代の大規模言語モデル (LLM) は、SQL を含む正確で効率的なコードを生成するのに優れています。 Kinetica のSQL-GPT ネイティブ LLMなど、時空間分析のニュアンスに基づいてトレーニングされたこれらのモデルの微調整バージョンにより、まったく新しいクラスのユーザーに対してこれらの分析ドメインを説明できるようになりました。

たとえば、典型的なニューヨーク市のタクシーデータセットを分析し、空間と時間に関連する質問をしたいとします。まず、分析するテーブルに関する基本的なコンテキストを LLM に提供します。 Kinetica Cloud では、UI または基本的な SQL コマンドを使用して、特定のテーブルへの参照を含む分析コンテキストを定義できます。これらのテーブルの列名と定義は LLM と共有されますが、これらのテーブル内のデータは共有されません。オプションで、追加のコメント、ルール、またはサンプルクエリ結果をコンテキストに含めることで、SQL の精度をさらに向上させることができます。

初期コンテキストを設定したら、Kinetica Cloud で SQL-GPT を使用して、「 JFK空港への旅行の出発地の上位5 つの地域はどれですか? 」と質問できます。微調整された LLM はすぐに次の SQLを生成します。

--JFK空港への出発コミュニティのトップ 5 はどこですか?

 SELECT nta."NTAName" AS origin_neighborhood, COUNT(*) AS trip_count FROM "taxi_data_historical" AS taxi JOIN "nyct2020" AS nta ON ST_CONTAINS(nta."geom", ST_MAKEPOINT(taxi."pickup_longitude", taxi."pickup_latitude")) WHERE ST_CONTAINS(( SELECT "geom" FROM "nyct2020" WHERE "NTAName" = 'John F. Kennedy International Airport' ), ST_MAKEPOINT(taxi."dropoff_longitude", taxi."dropoff_latitude")) GROUP BY origin_neighborhood ORDER BY trip_count DESC LIMIT 5;

わずか数秒で、微調整された LLMにより次のことが達成できました。

正しいターゲットテーブルと列を参照して SELECT ステートメントを設定し、JOIN を設定し、COUNT(*)、GROUP BY、ORDER BY、および LIMIT を使用します。 SQL にあまり精通していない人にとっては、基本的なクエリ構築でも大幅なスピードアップが可能です。
緯度と経度からポイントを作成するにはST_MAKEPOINT () 、指定されたポイントを含む地理的領域を見つけるには ST_CONTAINS()などの適切な空間関数を使用します。 LLM は、適切な関数と構文の選択を支援することで、この分野に不慣れな人が空間分析を始めるのに役立ちます。
現実世界の参照情報を場所と時間に統合します。私は「JFK空港」と尋ねましたが、 LLM はこの参照を「ジョン F. ケネディ国際空港」という計画単位に翻訳することができました。これもまた時間の節約になります。LLM さん、本当にありがとうございます!

ここで、最初の質問に答えるためにクエリを実行します。

同様に、Kinetica SQL-GPT に「 JFK 空港でピックアップされた人の総数を 1 日の時間帯別に調べる」ように指示すると、次の SQL が生成されます。

 -- Find the total number of people who were picked up at JFK airport by hour of the day SELECT HOUR(pickup_datetime) AS hour_of_day, SUM(passenger_count) AS total_passengers FROM taxi_data_historical WHERE STXY_CONTAINS((SELECT geom FROM nyct2020 WHERE NTAName = 'John F. Kennedy International Airport'), pickup_longitude, pickup_latitude) GROUP BY hour_of_day ORDER BY hour_of_day;

このクエリには、タクシー 1 台あたりの乗客数を合計し、そのデータを時間帯ごとに分類するという追加の複雑さが含まれます。ただし、 LLM はこの複雑さを処理し、正しい SQL を直ちに生成します。

より高度なユーザーの場合、LLM ではより高度な時空間処理も可能になります。たとえば、次の例では、ワシントン DC のトラックの艦隊を分析し、どのトラックが現在ジオフェンスのセット (この場合は、ワシントン DC の有名なランドマークの周囲の緩衝地帯) の近くにあるかを把握したいと考えています。

「ホワイトハウスのランドマークから 1000 メートル以内に現在何台のトラックがあるか」など、特定のジオフェンスの周辺に関する基本的な質問から始め、Kinetica SQL-GPT を使用して次の SQL を生成できます。

 -- How many unique trucks are currently within 1000 meters of the white house landmark? SELECT COUNT(DISTINCT r.TRACKID) FROM recent_locations r JOIN dc_landmarks d ON STXY_DWITHIN(rx, ry, d.wkt, 1000, 1) WHERE d.fence_label = 'white house'

ただし、ジオフェンスの近くにあるトラックを常に最新の状態で表示したい場合は、LLM を使用してマテリアライズドビューを作成できます。

Kinetica SQL-GPT と LLM は、「過去 5 分間にワシントン DC のランドマークから 200 メートル以内に来たトラックはどれですか? すべての列を保持し、landmark_trucks というマテリアライズドビューを作成します (10 秒ごとに更新されて結果が格納されます)」というプロンプトから始めて、マテリアライズドビューを作成および更新するための SQL を生成できます。

 -- Which trucks came within 200 meters of a landmark in Washington DC in the last 5 mins? Keep all the columns and create a materialized view called landmark_trucks that refreshes every 10 seconds to store the results. CREATE OR REPLACE MATERIALIZED VIEW landmark_trucks REFRESH EVERY 10 SECONDS AS SELECT * FROM truck_locations t JOIN dc_landmarks d ON STXY_DWITHIN(tx, ty, d.wkt, 200, 1) WHERE t."TIMESTAMP" >= NOW() - INTERVAL '5' MINUTE;

増大する時空間データを活用するには、企業はデータプラットフォームを最新化して分析の規模に対応し、ビジネスに必要な洞察と最適化を提供する必要があります。幸いなことに、GPU と生成 AI の最近の進歩により、時空間分析の世界に変革がもたらされようとしています。

要約する

GPU アクセラレーションデータベースにより、大規模な時空間データの処理と探索が大幅に簡素化されます。自然言語から SQL まで細かく調整された大規模言語モデルの最近の進歩により、時空間分析を組織全体にさらに拡張できるようになり、 GIS アナリストや SQL エキスパートの従来の領域を超えて拡張できるようになります。 GPU と生成 AI の急速な革新により、このタイプのアプリケーションは間違いなく魅力的な分野になるでしょう。

Philip Darringer は、Kinetica (http://www.kinetica.com/)の製品管理担当副社長であり、時系列および時空間ワークロード向けの同社のリアルタイム分析データベースの開発を指揮しています。彼は、データ分析、機械学習、位置情報インテリジェンスに重点を置いたエンタープライズ製品管理の分野で 15 年以上の経験を持っています。