交通大学ACMクラス卒業生のGoogleでの新たな仕事:Excelの表の数式を自動で記述

交通大学ACMクラス卒業生のGoogleでの新たな仕事:Excelの表の数式を自動で記述

[[433049]]

数式ビルダーのテーブルバージョンが登場しました。交通大学の ACM クラスを卒業し、バークレーで博士号を取得した Chen Xinyun さんは、ICML 2021 での新しい仕事として Google に入社しました。彼女は自動的に数式を完成させることができ、テスト段階での精度は 57.4% です。この機能は Google スプレッドシートでご利用いただけるようになりました。ぜひお試しください。

Excel は最も身近な見知らぬ人と言えます。私たちは毎日 Excel を使用していますが、その高度な使い方はあまり多くありません。

数式を記述することは Excel の重要な機能です。数式を使用すると、データに対して複雑な分析や変換を実行できます。しかし、スプレッドシートの数式言語はプログラミング言語よりも習得しやすいとはいえ、数式の記述は依然として複雑であり、1 つの記号を誤って計算するとエラーが発生する可能性があります。

2014年にGoogleは、表内のパターンを自動的に識別して各列の欠損値を埋めることができるスマートオートフィルというツールを開発しました。主な手法は、機械学習アルゴリズムを使用して新しいデータを予測することです。

たとえば、テーブルには、使用されている車両の 4 つの特性 (年式、走行距離、ドアの数、車両の種類 (乗用車またはトラック)) が含まれており、車両の価格はこれらの 4 つの特性に基づいて決定されます。これは典型的なデータ分析および予測シナリオであり、アルゴリズムを使用して、テーブルにすでで提供されているデータ (トレーニング セットとして) に基づいて、欠落している価格を推定できます。

このツールは良いのですが、複雑な数式を学習できず、手動での修正も非常に面倒です。

2021 年に早送りすると、シーケンス モデルにおける BERT のパワーを活用して、Google は ICML 2021 で、ターゲット ユニットの周囲のコンテキストに基づいて数式を自動的に生成できる新しいモデルを提案しました。

論文の第一著者は、現在カリフォルニア大学バークレー校でドーン・ソン教授の指導を受けている博士課程の学生であるシンユン・チェン氏です。上海交通大学のACMクラスを卒業し、コンピュータサイエンスの学士号を取得。現在はDeepmindの研究インターンとして働いており、2019年と2020年にはGoogle Brainでインターンとして働いていました。彼の主な研究分野は、ニューラル ネットワーク プログラムの合成と敵対的機械学習です。

[[433050]]

ユーザーが対象セルに「=」記号を含む数式を入力し始めると、システムは履歴テーブル内の数式のパターンを学習して、そのセルに関連する可能性のある数式を生成します。モデルは、ターゲット セルとヘッダー行の隣接する行と列のデータをコンテキストとして使用します。

まず、隣接するセルとヘッダー セルで構成されるテーブルのコンテキスト構造を埋め込みにエンコードし、次にこのコンテキスト埋め込みを使用して必要なテーブル式を生成します。

数式生成部分は、次の 2 つのコンポーネントで構成されます。

  1. 演算子シーケンス(例:sum、if など)
  2. 演算子が適用されるテーブル範囲 (例: A2:A10)。

現在、Google スプレッドシートのユーザーはこの機能を正式に使用できます。

モデルで使用されるアーキテクチャは、依然としてエンコーダー-デコーダーです。この構造により、研究者はさまざまな種類のコンテキスト情報 (隣接する行、列、タイトルなどに含まれる情報など) をエンコーダーに柔軟に埋め込むことができ、デコーダーはこの構造を使用して必要な数式を生成できます。

テーブル コンテキストの埋め込みを計算するには、まず BERT ベースのモデル アーキテクチャを使用して、ターゲット セル (およびヘッダー行) の近くの複数の行をエンコードします。各セルの内容には、そのデータ型 (数値、文字列など) と値が含まれており、同じ行のセルの内容は BERT エンコーダーへの入力用にトークン シーケンスに連結されます。

同様に、モデルはターゲット セルの左右の複数の列をエンコードし、2 つの BERT エンコーダーで行と列の畳み込みを実行して、コンテキストの集約された表現を計算します。

デコーダーは LSTM を使用して、必要なターゲット式をトークン シーケンスとして生成します。まず、モデルは数式演算子で構成される数式構造(数式スケッチ)を予測し、次に対象セルに関連するセルアドレスを使用して対応する範囲を生成します。

このモデルは、アテンション メカニズムを使用してヘッダーとセル データのアテンション ベクトルを計算し、予測を行う前にこれらのアテンション ベクトルを LSTM 出力層に直接接続します。

このモデルは、隣接する行と列のデータを活用するだけでなく、最上位のワークシート構造 (ヘッダーなど) からの追加情報も活用し、モデルの予測に TPU を使用することで、数式の提案が低レイテンシで生成され、より少ないマシンでより多くのリクエストを処理できるようになります。

モデルのトレーニング データセットは、主に Google によって作成され、Google と共有されているスプレッドシートのコーパスです。データセットには 46,000 個の Google スプレッドシートが含まれており、そのうち 42,000 個はトレーニングに、2,300 個は検証に、1,700 個はテストに使用されます。

実験結果によると、モデルの完全な数式精度は 42.5%、完全な数式フレームワーク精度は 57.4% でした。これら 2 つの指標の精度は、製品の発売をサポートし、初期ユーザーにサービスを提供するのに十分な高さです。そして、製品がより多くのデータを収集するにつれて、精度は確実に向上します。

研究者らはまた、さまざまなコンポーネントを削除してモデルのいくつかの簡略化されたバージョンをテストするアブレーション実験を実施し、行と列に基づくコンテキスト埋め込みとタイトル情報がモデルのパフォーマンスに非常に重要であることを発見しました。

今後、この分野では、より多くの表構造を組み込むための新しいモデル アーキテクチャの設計や、バグ検出やスプレッドシートでの自動グラフ作成などのより多くのアプリケーションをサポートするようにモデルを拡張するなど、さらなる研究が行われる可能性があります。

<<:  パドルパドル中国ツアーは、中小企業のソフトウェアおよびハードウェア製品の革新の需要に応えるために深センに上陸しました

>>:  成功するビジネス インテリジェンス戦略を開発する方法

ブログ    
ブログ    

推薦する

顔スキャンの時代、顔認識起業家の進むべき道

[[205201]] 9月26日、北京市内の中学校で、顔認証システムで本人確認がされた受験者が模擬試...

新たな調査でAIのROIの急上昇と将来の課題が浮き彫りに

Dataiku と Databricks が発表した新しい共同調査によると、生成型人工知能の急速な導...

売上高2,684億元の背後にあるアリババのAI技術の全貌

先日終了した双十一では、天猫の取引額は2,684億元に達し、前年比25.7%増加した。この成果の裏に...

人工知能の発展の特徴とその3つのタイプの現れについての簡単な分析

人工知能は、人間の知能をシミュレート、拡張、拡大するための理論、方法、技術、アプリケーション システ...

...

MITの新しいAI研究:セーターが編めなくても問題ない、AIにやらせればいい

人工知能といえば、最先端のクールなアプリケーションのほかに、この話題になると「偽物」という言葉が思い...

パンデミック後、アメリカ人の半数がスマートデバイスの音声制御が不可欠だと考えている

Syntiantが最近実施したユーザー調査によると、COVID-19パンデミックの影響により、アメリ...

...

ついに誰かが教師あり学習を明確にした

01 教師あり学習とは何か教師あり学習を行うには、コンピューターが学習できるラベルが付いたサンプル...

人工知能が教室に導入されると、教育プロセスにどのような変化が起こるでしょうか?

人工知能技術の応用により、コースの内容、教授法、教師と生徒の関係が変化しています。人工知能の利用によ...

機械学習の本質は数理統計学ですか?答えはそれほど単純ではないかもしれない

AI 初心者の多くは、次のような同様の疑問を抱いているかもしれません。機械学習と数理統計の本質的な違...

蘇州の路上には自動運転バスが走っている。これは試験運行ではない。市民は無料で乗車できる。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

5G時代、移動ロボットは知能でどのように勝利できるのでしょうか?

移動ロボットは、環境認識、動的意思決定と計画、行動制御と実行などの複数の機能を統合した総合システムで...

誰かが匿名ソフトウェアで私の学校を爆破したいと言っていたので、私はすぐに先生と警察に通報しました。xdm、私は正しいことをしたのでしょうか?

ビッグデータダイジェスト制作著者: カレブ空には太陽が輝き、花々は私に微笑みかけ、鳥たちは「おはよう...