DeepMind の新しいモデルは CAD スケッチを自動的に生成します。ネットユーザー: 建築設計が飛躍しそうです

[[399928]]

製造業ではCADが広く使われています。 CAD は、その正確性、柔軟性、高速性により、ペンと紙による描画に取って代わり、自動車、航空宇宙などの分野に限定されなくなりました。コーヒーカップのような小さなものまで、生活の中のほぼすべての物体が CAD 描画によってモデル化されています。

CAD モデルの最も難しい部分の 1 つは、あらゆる 3D 構築の中核となる、高度に構造化された 2D スケッチです。時代は変わりましたが、CAD エンジニアには依然として何年ものトレーニングと経験、そしてペンと紙を使っていた先人たちと同じ細部への注意が必要です。次に、CAD テクノロジーは機械学習技術を組み込んで予測可能な設計タスクを自動化し、エンジニアがより大規模なタスクに集中し、より少ない労力でより優れた設計を作成できるようにします。

DeepMind は最近の研究で、このようなスケッチを自動的に生成できる機械学習モデルを提案しました。これは、一般的な言語モデリング技術と既成のデータシリアル化プロトコルを組み合わせたものです。さまざまな分野の複雑さに適応できるほど柔軟で、無条件合成と画像からスケッチへの変換の両方で優れたパフォーマンスを発揮します。

論文リンク:
出典: http://arxiv.org/pdf/2105.02769.pdf

具体的には、研究者らは以下の作業を実施しました。

私たちは、PB (プロトコルバッファー) を使用して構造化オブジェクトを記述する方法を設計し、自然な CAD スケッチの領域でその柔軟性を実証しました。

言語モデルにおける冗長データの排除に関する最近の研究からインスピレーションを得て、シリアル化された PB オブジェクトの分布をキャプチャするためのいくつかの手法が提案されています。

470 万点を超える慎重に前処理されたパラメトリック CAD スケッチがデータセットとして使用され、このデータセットは提案された生成モデルの検証に使用されます。実際の実験の規模は、トレーニングデータの量とモデル機能の両方の点で、これよりもはるかに大きくなります。

CAD スケッチでは、次のような効果が示されています。

クローズアップショット:

ネットユーザーはDeepMindの研究を非常に高く評価している。ユーザー @Theodore Galanos は次のように語っています。「素晴らしいソリューションです。マルチモーダルモデルの候補として SketchGraphs を使用しましたが、シーケンスの形式と長さが扱いにくすぎました。このアプローチを建築設計に使用するのが待ちきれません。」

スケッチとCAD

2D スケッチは機械 CAD の中核であり、3 次元形状を構築する骨組みとなります。スケッチは、接線、垂直、対称などの特定の拘束によって接続されたさまざまな線、円弧、スプライン、円で構成されます。これらの制約は、設計意図を伝え、エンティティのさまざまな変換時に形状がどのように変化するかを定義することを目的としています。次の図は、制約によってさまざまな線、円弧、その他の幾何学的形状が組み合わされて特定の形状が作成される様子を示しています。破線は、制約がない場合の別の有効なソリューションを示しています。すべてのジオメトリエンティティはスケッチ平面上に配置され、一緒に閉じた領域を形成します。この領域は、後続の操作 (ロフトや押し出しなど) で使用して、複雑な 3D ジオメトリを生成できます。

制約: スケッチでは避けられない問題

制約により、スケッチは見た目よりも複雑になります。スケッチ内のすべてのエンティティに間接的に影響を与える可能性のある関係を示します。たとえば、上の画像では、下の角度を固定したまま、2 つの円弧が交わる点を上方向にドラッグすると、ハートのサイズが大きくなります。この変換は単純に思えるかもしれませんが、実際にはすべての制約の複合効果の結果です。

これらの制約により、各エンティティのサイズと位置が変化しても、形状はデザイナーが伝えたいもののままになります。エンティティ間の複雑な相互作用により、スケッチを無効にする一連の制約を誤って指定してしまう可能性が高くなります。たとえば、平行と垂直の両方の制約を満たす 2 本の線を描くことは不可能です。複雑なスケッチでは、制約の依存関係のチェーンにより、設計者がどの制約を追加するかを判断するのが非常に困難になる可能性があります。さらに、特定のエンティティセットに対して、同様のスケッチを生成する同等の制約システムが多数存在します。

高品質のスケッチでは通常、設計意図を保持する一連の制約が使用されます。つまり、エンティティパラメータ (寸法など) が変更されても、スケッチのセマンティクスは保持されます。つまり、物理的なサイズがどのように変化しても、上の写真のハートの形は常にハートの形になります。設計意図を捉え、一貫した制約システムを選択する複雑さにより、スケッチは非常に困難な問題になります。

スケッチと自然言語モデリングの類似点

スケッチ構築の複雑さは、自然言語モデリングと多少似ています。スケッチで次の制約またはエンティティを選択することは、文中の次の単語を生成するようなものであり、2 つの選択は文法的に機能し (スケッチ内で一貫した制約システムを形成)、設計の意図を維持する必要があります。

自然言語を生成するための成功したツールはすでに数多く存在し、その中で最も優れたパフォーマンスを発揮するのは、間違いなく、大量の現実世界のデータでトレーニングされた機械学習モデルです。たとえば、2017 年の Transformer アーキテクチャは、一貫した文章を形成する強力な能力を実証しました。これらの自然言語モデルのルールを使用してスケッチを描くことはできますか?

データ

Onshape は、寸法主導設計用のパラメトリックソリッドモデリングソフトウェアです。しかし、スケッチを保存および処理するために、研究者は Onshape API によって提供される元の JSON 形式ではなく PB を使用しました。 PB を使用する利点は 2 つあります。不要な情報が削除されるため、結果のデータが占めるスペースが少なくなり、PB 言語を使用すると、さまざまな構造の複雑なオブジェクトの正確な仕様を簡単に定義できるようになります。

必要なオブジェクトタイプがすべて揃ったら、データを機械学習モデルで処理できる形式に変換する必要があります。研究者たちは、言語モデルを使用してスケッチを生成できるように、スケッチをトークンのシーケンスとして表現することを選択しました。テキスト形式には、データの構造と内容が含まれます。この方法を使用する利点は、既存のテキストデータモデリング方法を適用できることです。しかし、最新の言語モデリング技術であっても、これにはコストがかかります。有効な文法を生成するために、モデルは容量の追加部分を占有することになります。

解決策は、バイト形式 PB で定義されている一般的なパーサーの使用を避け、スケッチ形式の構造を使用して設計インタープリターをカスタマイズすることです。つまり、スケッチ作成プロセスの各決定ステップの有効な選択肢を表す一連のトークンを入力します。この形式のトークンシーケンスで動作するようにインタープリターを設計すると、有効な PB メッセージが生成されます。

この形式では、研究者はメッセージを 3 つの文字 (,,) のシーケンスとして表現します。ここで、はトークンのインデックスです。このようなトリプレットのシーケンスが与えられれば、各トークンが対応する正確なフィールドを推測することが可能です。実際、最初のトークン (、、) はスケッチメッセージを作成するための最初の選択肢であるため、常に objects.kind に関連付けられます。 2 番目のフィールドは 1 の値に依存します。 1 = 0 の場合、最初のオブジェクトはエンティティであり、2 番目のトークンは entity.kind に対応することを意味します。シーケンスの残りの部分も同様に関連しています。フィールド識別子とオブジェクト内のその位置がトークンのコンテキストを構成します。トリプレット値の意味を解釈し、全体的なデータ構造を理解しやすくなるため、研究者はこの情報を機械学習モデルへの追加入力として使用しました。

上の図に示すように、スケッチには線エンティティと点エンティティが含まれています。左の列の各トリプレットでは、実際に使用される値が太字で表示されます。右側の列には、トリプレットがオブジェクトのどのフィールドに関連付けられているかが表示されます。

モデルからのサンプリング

モデル構築の主な目的は、データセット D 内の 2D スケッチデータの分布を推定することです。前述の通り、スケッチをトークンシーケンスのように処理します。この作業では、生のテキスト形式に関連するシーケンスの長さの課題のため、バイトとトリプレットの表現のみが考慮されます。

バイトモデルからのサンプリングは簡単で、プロセスは一般的な Transformer ベースの言語モデリングの場合と同じですが、Triplet モデルではより多くのカスタム処理が必要です。

上図は Triplet の処理を示しています。まず、特別な BOS トークンが埋め込まれ、Transformer に提供されます。次に、Transformer は、トークンの可能なグループごとに 1 つずつ、3 つのセットを出力します。どの特定のトークンを発行する必要があるかを判断するために、データ仕様から自動的に生成されたインタープリター (ステートマシン) が適用され、適切なトークングループが選択され、複合オブジェクト内のフィールドを持つトリプレットのアクティブコンポーネントに関連付けられます。適切なフィールドに入力すると、インタープリターは次の状態に移行し、出力トークンを生成して、モデルにフィードバックします。ステートマシンが最も外側の繰り返しフィールド (つまり、object.kind) の「end」トリプレットを受信すると、プロセスは停止します。

実験

研究者らは、Onshape プラットフォーム上の公開リポジトリから取得したデータを使用して、自らの手法を検証しました。自己回帰生成モデルの標準的な評価方法に従い、対数尤度を主要な定量的指標として使用します。さらに、研究者らは定性的な分析と評価のために、さまざまなランダムおよび選択されたモデルサンプルを提供しました。

トレーニングの詳細

研究者らは、128 チャネルのバッチを使用してモデルをトレーニングし、10^6 回の重み更新を行いました。各チャネルは、トリプレット設定で 1024 トークンのシーケンス、バイト設定で 1990 トークンのシーケンスを保持できます。占有率を向上させ、計算の無駄を減らすために、次のレーンへ移動する前に、できるだけ多くの例を詰め込んでレーンを動的に埋めます。各バッチは 32 個の TPU コアによって並列に処理されます。

さらに、研究者らは、すべての実験において、学習率10^−4、勾配ノルム1.0、ドロップアウト率0.1のAdamオプティマイザーも使用しました。

実験結果

上の図に示すように、さまざまなモデルの可能性がテストされました。 3 列目はスケッチテストサンプル内のオブジェクトあたりの平均バイト数であり、4 列目は 3 列目にオブジェクト数を掛けた値です。

次の図は、トリプレットモデルからサンプリングされたエンティティと制約を示しています。最初の列のノードはさまざまなエンティティを表し、ノードは上から下への生成順序に従います。 2 番目の列は、シーケンスインデックスでソートされたさまざまな制約を表します。 3 番目の列は、最も頻度の高いものから最も頻度の低いものの順に並べられた制約タイプです。

次の図は、条件モデルのエンティティと制約を示しています。左下隅には入力ビットマップがあり、次の例は分布外入力でモデルがどのように動作するかを示しています。

次の図は、無条件モデルからサンプリングされたさまざまなスケッチデータの分布統計を示しています。Nucleus サンプリングの top-p パラメーターは括弧内に示されています。

これらは単なる初期の概念実証実験です。 DeepMind は、スケッチのさまざまな特性に応じて、エンティティに与えられた制約を推測して自動的に図面を完成させるなど、開発されたインターフェースの柔軟性を活用するアプリケーションがさらに開発されることを期待していると述べています。

<<: NLP入門シリーズ:自然言語処理

>>: アプリケーションの利点はたくさんあります！チャットボットは経済の活性化に貢献する