DeepMind の新しいモデルは CAD スケッチを自動的に生成します。ネットユーザー: 建築設計が飛躍しそうです

DeepMind の新しいモデルは CAD スケッチを自動的に生成します。ネットユーザー: 建築設計が飛躍しそうです

[[399928]]

製造業ではCADが広く使われています。 CAD は、その正確性、柔軟性、高速性により、ペンと紙による描画に取って代わり、自動車、航空宇宙などの分野に限定されなくなりました。コーヒー カップのような小さなものまで、生活の中のほぼすべての物体が CAD 描画によってモデル化されています。

CAD モデルの最も難しい部分の 1 つは、あらゆる 3D 構築の中核となる、高度に構造化された 2D スケッチです。時代は変わりましたが、CAD エンジニアには依然として何年ものトレーニングと経験、そしてペンと紙を使っていた先人たちと同じ細部への注意が必要です。次に、CAD テクノロジーは機械学習技術を組み込んで予測可能な設計タスクを自動化し、エンジニアがより大規模なタスクに集中し、より少ない労力でより優れた設計を作成できるようにします。

DeepMind は最近の研究で、このようなスケッチを自動的に生成できる機械学習モデルを提案しました。これは、一般的な言語モデリング技術と既成のデータシリアル化プロトコルを組み合わせたものです。さまざまな分野の複雑さに適応できるほど柔軟で、無条件合成と画像からスケッチへの変換の両方で優れたパフォーマンスを発揮します。

論文リンク:
出典: http://arxiv.org/pdf/2105.02769.pdf

具体的には、研究者らは以下の作業を実施しました。

私たちは、PB (プロトコル バッファー) を使用して構造化オブジェクトを記述する方法を設計し、自然な CAD スケッチの領域でその柔軟性を実証しました。

言語モデルにおける冗長データの排除に関する最近の研究からインスピレーションを得て、シリアル化された PB オブジェクトの分布をキャプチャするためのいくつかの手法が提案されています。

470 万点を超える慎重に前処理されたパラメトリック CAD スケッチがデータセットとして使用され、このデータセットは提案された生成モデルの検証に使用されます。実際の実験の規模は、トレーニング データの量とモデル機能の両方の点で、これよりもはるかに大きくなります。

CAD スケッチでは、次のような効果が示されています。

クローズアップショット:

ネットユーザーはDeepMindの研究を非常に高く評価している。ユーザー @Theodore Galanos は次のように語っています。「素晴らしいソリューションです。マルチモーダル モデルの候補として SketchGraphs を使用しましたが、シーケンスの形式と長さが扱いにくすぎました。このアプローチを建築設計に使用するのが待ちきれません。」

スケッチとCAD

2D スケッチは機械 CAD の中核であり、3 次元形状を構築する骨組みとなります。スケッチは、接線、垂直、対称などの特定の拘束によって接続されたさまざまな線、円弧、スプライン、円で構成されます。これらの制約は、設計意図を伝え、エンティティのさまざまな変換時に形状がどのように変化するかを定義することを目的としています。次の図は、制約によってさまざまな線、円弧、その他の幾何学的形状が組み合わされて特定の形状が作成される様子を示しています。破線は、制約がない場合の別の有効なソリューションを示しています。すべてのジオメトリ エンティティはスケッチ平面上に配置され、一緒に閉じた領域を形成します。この領域は、後続の操作 (ロフトや押し出しなど) で使用して、複雑な 3D ジオメトリを生成できます。

制約: スケッチでは避けられない問題

制約により、スケッチは見た目よりも複雑になります。スケッチ内のすべてのエンティティに間接的に影響を与える可能性のある関係を示します。たとえば、上の画像では、下の角度を固定したまま、2 つの円弧が交わる点を上方向にドラッグすると、ハートのサイズが大きくなります。この変換は単純に思えるかもしれませんが、実際にはすべての制約の複合効果の結果です。

これらの制約により、各エンティティのサイズと位置が変化しても、形状はデザイナーが伝えたいもののままになります。エンティティ間の複雑な相互作用により、スケッチを無効にする一連の制約を誤って指定してしまう可能性が高くなります。たとえば、平行と垂直の両方の制約を満たす 2 本の線を描くことは不可能です。複雑なスケッチでは、制約の依存関係のチェーンにより、設計者がどの制約を追加するかを判断するのが非常に困難になる可能性があります。さらに、特定のエンティティ セットに対して、同様のスケッチを生成する同等の制約システムが多数存在します。

高品質のスケッチでは通常、設計意図を保持する一連の制約が使用されます。つまり、エンティティ パラメータ (寸法など) が変更されても、スケッチのセマンティクスは保持されます。つまり、物理的なサイズがどのように変化しても、上の写真のハートの形は常にハートの形になります。設計意図を捉え、一貫した制約システムを選択する複雑さにより、スケッチは非常に困難な問題になります。

スケッチと自然言語モデリングの類似点

スケッチ構築の複雑さは、自然言語モデリングと多少似ています。スケッチで次の制約またはエンティティを選択することは、文中の次の単語を生成するようなものであり、2 つの選択は文法的に機能し (スケッチ内で一貫した制約システムを形成)、設計の意図を維持する必要があります。

自然言語を生成するための成功したツールはすでに数多く存在し、その中で最も優れたパフォーマンスを発揮するのは、間違いなく、大量の現実世界のデータでトレーニングされた機械学習モデルです。たとえば、2017 年の Transformer アーキテクチャは、一貫した文章を形成する強力な能力を実証しました。これらの自然言語モデルのルールを使用してスケッチを描くことはできますか?

データ

Onshape は、寸法主導設計用のパラメトリック ソリッド モデリング ソフトウェアです。しかし、スケッチを保存および処理するために、研究者は Onshape API によって提供される元の JSON 形式ではなく PB を使用しました。 PB を使用する利点は 2 つあります。不要な情報が削除されるため、結果のデータが占めるスペースが少なくなり、PB 言語を使用すると、さまざまな構造の複雑なオブジェクトの正確な仕様を簡単に定義できるようになります。

必要なオブジェクト タイプがすべて揃ったら、データを機械学習モデルで処理できる形式に変換する必要があります。研究者たちは、言語モデルを使用してスケッチを生成できるように、スケッチをトークンのシーケンスとして表現することを選択しました。テキスト形式には、データの構造と内容が含まれます。この方法を使用する利点は、既存のテキスト データ モデリング方法を適用できることです。しかし、最新の言語モデリング技術であっても、これにはコストがかかります。有効な文法を生成するために、モデルは容量の追加部分を占有することになります。

解決策は、バイト形式 PB で定義されている一般的なパーサーの使用を避け、スケッチ形式の構造を使用して設計インタープリターをカスタマイズすることです。つまり、スケッチ作成プロセスの各決定ステップの有効な選択肢を表す一連のトークンを入力します。この形式のトークン シーケンスで動作するようにインタープリターを設計すると、有効な PB メッセージが生成されます。

この形式では、研究者はメッセージを 3 つの文字 (,,) のシーケンスとして表現します。ここで、 はトークンのインデックスです。このようなトリプレットのシーケンスが与えられれば、各トークンが対応する正確なフィールドを推測することが可能です。実際、最初のトークン (、、) はスケッチ メッセージを作成するための最初の選択肢であるため、常に objects.kind に関連付けられます。 2 番目のフィールドは 1 の値に依存します。 1 = 0 の場合、最初のオブジェクトはエンティティであり、2 番目のトークンは entity.kind に対応することを意味します。シーケンスの残りの部分も同様に関連しています。フィールド識別子とオブジェクト内のその位置がトークンのコンテキストを構成します。トリプレット値の意味を解釈し、全体的なデータ構造を理解しやすくなるため、研究者はこの情報を機械学習モデルへの追加入力として使用しました。

上の図に示すように、スケッチには線エンティティと点エンティティが含まれています。左の列の各トリプレットでは、実際に使用される値が太字で表示されます。右側の列には、トリプレットがオブジェクトのどのフィールドに関連付けられているかが表示されます。

モデルからのサンプリング

モデル構築の主な目的は、データセット D 内の 2D スケッチ データの分布を推定することです。前述の通り、スケッチをトークンシーケンスのように処理します。この作業では、生のテキスト形式に関連するシーケンスの長さの課題のため、バイトとトリプレットの表現のみが考慮されます。

バイト モデルからのサンプリングは簡単で、プロセスは一般的な Transformer ベースの言語モデリングの場合と同じですが、Triplet モデルではより多くのカスタム処理が必要です。

上図は Triplet の処理を​​示しています。まず、特別な BOS トークンが埋め込まれ、Transformer に提供されます。次に、Transformer は、トークンの可能なグループごとに 1 つずつ、3 つのセットを出力します。どの特定のトークンを発行する必要があるかを判断するために、データ仕様から自動的に生成されたインタープリター (ステート マシン) が適用され、適切なトークン グループが選択され、複合オブジェクト内のフィールドを持つトリプレットのアクティブ コンポーネントに関連付けられます。適切なフィールドに入力すると、インタープリターは次の状態に移行し、出力トークンを生成して、モデルにフィードバックします。ステート マシンが最も外側の繰り返しフィールド (つまり、object.kind) の「end」トリプレットを受信すると、プロセスは停止します。

実験

研究者らは、Onshape プラットフォーム上の公開リポジトリから取得したデータを使用して、自らの手法を検証しました。自己回帰生成モデルの標準的な評価方法に従い、対数尤度を主要な定量的指標として使用します。さらに、研究者らは定性的な分析と評価のために、さまざまなランダムおよび選択されたモデルサンプルを提供しました。

トレーニングの詳細

研究者らは、128 チャネルのバッチを使用してモデルをトレーニングし、10^6 回の重み更新を行いました。各チャネルは、トリプレット設定で 1024 トークンのシーケンス、バイト設定で 1990 トークンのシーケンスを保持できます。占有率を向上させ、計算の無駄を減らすために、次のレーンへ移動する前に、できるだけ多くの例を詰め込んでレーンを動的に埋めます。各バッチは 32 個の TPU コアによって並列に処理されます。

さらに、研究者らは、すべての実験において、学習率10^−4、勾配ノルム1.0、ドロップアウト率0.1のAdamオプティマイザーも使用しました。

実験結果

上の図に示すように、さまざまなモデルの可能性がテストされました。 3 列目はスケッチ テスト サンプル内のオブジェクトあたりの平均バイト数であり、4 列目は 3 列目にオブジェクト数を掛けた値です。

次の図は、トリプレット モデルからサンプリングされたエンティティと制約を示しています。最初の列のノードはさまざまなエンティティを表し、ノードは上から下への生成順序に従います。 2 番目の列は、シーケンス インデックスでソートされたさまざまな制約を表します。 3 番目の列は、最も頻度の高いものから最も頻度の低いものの順に並べられた制約タイプです。

次の図は、条件モデルのエンティティと制約を示しています。左下隅には入力ビットマップがあり、次の例は分布外入力でモデルがどのように動作するかを示しています。

次の図は、無条件モデルからサンプリングされたさまざまなスケッチ データの分布統計を示しています。Nucleus サンプリングの top-p パラメーターは括弧内に示されています。

これらは単なる初期の概念実証実験です。 DeepMind は、スケッチのさまざまな特性に応じて、エンティティに与えられた制約を推測して自動的に図面を完成させるなど、開発されたインターフェースの柔軟性を活用するアプリケーションがさらに開発されることを期待していると述べています。

<<:  NLP入門シリーズ:自然言語処理

>>:  アプリケーションの利点はたくさんあります!チャットボットは経済の活性化に貢献する

ブログ    

推薦する

美団は食品配達に「ドローン」を使う予定?テクノロジーは飛躍的な進歩を遂げました!

以前のPC時代では、人々は携帯電話やウェブページを通じて近くのレストランに注文をしていたが、これには...

...

人工知能は将来言語をどのように変えるのでしょうか?

人工知能 (AI) とは、人間の知的思考や行動の方法や技術をシミュレートすることで、コンピュータ シ...

...

5Gは医療業界に革命を起こす

[[377987]]画像ソース: https://pixabay.com/images/id-149...

...

VAE から拡散モデルへ: テキストを使用して画像を作成する新しいパラダイム

1 はじめにDALL·E のリリースから 15 か月後、OpenAI は今春、続編の DALL·E ...

教師あり学習の一般的なアルゴリズムは何ですか?どのように適用されますか?

教師あり学習とは何ですか?教師あり学習は機械学習のサブセットであり、機械学習モデルの入力データにラベ...

一般化の危機! LeCunは質問を公開しました: テストセットとトレーニングセットは決して関連していません

[[431567]]長い間、テスト セットで優れたパフォーマンスを発揮するモデルは、一般化のパフォー...

...

DeepSpeed ZeRO++: ネットワーク通信を4倍削減し、大規模モデルやChatGPTのようなモデルのトレーニング効率を大幅に向上

大規模な AI モデルがデジタルの世界を変えています。大規模言語モデル (LLM) に基づく Tur...

アリババに採用された中国の高レベル科学者がAIがもたらす想像力の空間について語る

彼はかつてアマゾンの中国トップレベルの科学者であり、1年前に世界の小売業界にセンセーションを巻き起こ...

人工知能は将来どのように発展するのでしょうか?

20 世紀初頭から、ロボットが人間のように考え始めることができるかどうかについて、人々は疑問を持ち...

...

微積分の最終試験に希望があります! AIが方程式を解くのを手伝います

最近、Facebook AI は、記号推論を使用して高度な数式を解き、その精度が Mathemati...