AI におけるブレークスルーには、一般的に 3 つの種類があります。
これらのポイントのいずれか 1 つを単独で達成するのは、非常に困難な作業です。情報抽出の分野において、最近の研究でこれら 3 つのブレークスルーがすべて同時に達成されたとしたらどうでしょうか?今回は、逆からお話ししましょう。まず3番目の点についてお話しします。 認知をリフレッシュするオープンソースの情報抽出ツール情報抽出は産業応用価値の高い技術ですが、タスクの難しさから、実装コストは依然として高いままです。金融、政府関係、法律、医療などの業界では、大量の文書情報を手作業で処理する必要があります。たとえば、政府職員が国民の苦情を処理する場合、苦情の対象者、事件の発生場所と時間、苦情の理由などの構造化された情報を迅速に抽出する必要があります。これは非常に時間がかかり、労力がかかります。情報抽出技術を低コストかつ高性能で実装できれば、多くの産業の生産効率を大幅に向上させ、人件費を節約することができます。今、このアイデアには前例のない可能性があります。では、早速コードと結果を見てみましょう。 #エンティティ抽出 たった 3 行のコードで正確なエンティティ抽出を実現できますか? より難しいイベント抽出タスクに挑戦してみましょう。 #イベント抽出 使いやすくて正確です!ご興味のある方は、以下のポータルからご自身でインストールして体験することができます。 事前にリンクを保存することをお勧めします。GithubにアクセスしてStarをクリックすることをお勧めします https://github.com/PaddlePaddle/PaddleNLP もちろん、私たち自身でテストしてみると、たった 3 行のコードで何かを DIY で抽出するのは少し大げさだと感じるかもしれません。 いいえ、このインターフェースは、実際には、一般的なオープン ドメイン情報抽出パラダイム、つまりオープン ドメイン情報抽出 API インターフェースをすべての人に示しています。つまり、抽出するエンティティ、関係、イベント、その他のタイプ (スキーマ) を指定すると、「プロンプト」モデルがテキストから対応するターゲットを抽出します。 たとえば、最初の例では、テキストから時間、プレーヤー、イベント名の 3 つのエンティティを抽出します。これらをスキーマ パラメータとして Taskflow に渡すと、「プロンプト」モデルはテキストからこれらの 3 つのエンティティを正確に抽出します。このようにして、あらゆる情報抽出のニーズに簡単に対応できます。 この一連の作戦は、2022年でもまだ少し夢のような感じがします。市場に出回っている情報抽出ツールのほとんどは、特定の分野でのクローズドドメイン(限定された定義済みスキーマ)抽出しか実行できず、効果を保証することは困難であることを知っておく必要があります。ましてや、3 行のコードで呼び出せるオープンドメイン ツールの場合はなおさらです。 こうなると、このオープンソース ツールはどうやって実現されるのか、と人々は興味を抱きます。私は PaddleNLP 内部の誰かと話をして、2 つの重要なポイントがあることを知りました。
最初の点に関しては、この記事の次の章で焦点を当てるので、ここでは保留にしておきます。 2点目については、情報抽出タスクには知識が極めて重要であることが分かっており、ERNIE 3.0はパラメータ数が多いだけでなく、数千万のエンティティの知識グラフも吸収しており、中国のNLPで最も「知識」が豊富なSOTAベースであると言えます。 ERNIE 3.0 に基づいて、オープン ドメイン情報抽出用の 2 段階 SOTA 事前トレーニング スーパーストラクチャを構築するとどうなるでしょうか? 2 つの強力な力の組み合わせが、このツールが夢のような体験をもたらす秘密です。 注目すべきは、強力な知識蓄積を備えたこの NLP ベースと素晴らしい情報抽出アーキテクチャが PaddleNLP に統合されていることです。ただし、PaddleNLP は単なる SOTA ストレージ ボックスではありません。非常に使いやすいモデル圧縮展開ソリューション、大規模モデル加速テクノロジ、産業シナリオのアプリケーション例も提供し、堅牢なユーザビリティとパフォーマンスの最適化を実現しています。一言でまとめると、中国語 NLP アプリケーション用の魔法のツールを作成します。 UIE は驚くべきゼロショットオープンドメイン情報抽出機能を備えているだけでなく、強力な小規模サンプルのカスタマイズされたトレーニング機能も備えていることは注目に値します。 著者は、インターネット、医療、金融の 3 つの業界における関係性とイベント抽出タスクに対する小規模サンプルのカスタマイズされたトレーニングの効果をテストしました。 金融シナリオでは、トレーニング サンプルを 5 つ追加するだけで、uie ベース モデルの F1 値が 25 ポイント増加しました。つまり、ツールのパフォーマンスが一部のケースやシナリオで低下したとしても、いくつかのサンプルを手動でラベル付けしてモデルに取り込むと、パフォーマンスが大幅に向上します。この強力な Few-Shot 機能は、ツールが多数のロングテール シナリオに実装されることを最終的に保証します。 このツールのさらなる可能性と驚きを探求するには、ポータルにアクセスしてください: https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie 次に、2番目のポイントは、 複数のサブタスクによる情報抽出のための統一アーキテクチャ情報抽出の分野には多くのタスクがあります。主なタスクの種類の観点から、エンティティ抽出、関係抽出、イベント抽出、評価次元抽出、意見語抽出、感情傾向抽出などに分類できます。各タスクの種類での抽出ドメインとスキーマ定義を具体的にすると、タスクは無限にあります。 そのため、これまでは情報抽出の実装は非常に困難でコストがかかりました。企業はデータのラベル付け、モデルの開発、細分化された各タスクタイプとドメインの保守に専任の人員を配置する必要があっただけでなく、展開にも非常に手間がかかり、多くのマシンリソースを消費していました。 さらに、さまざまなサブタスクは完全に分離されていません。従来のサブタスク固有の設計では、タスク間で共通の知識を共有することが困難です。「情報アイランド」の力は常に限られており、偏りさえあります。しかし、今ではない。複数のタスクを統合するオープンドメイン情報抽出技術UIEは、中国科学院ソフトウェア研究所と百度が共同で提案し、ACL 2022でSOTA技術として公開されました。これがその写真です。 簡単に言えば、UIE は近年人気のプロンプト概念を利用し、抽出するスキーマ情報をモデル入力の接頭辞として「手がかり語」(スキーマベース プロンプト)に変換することで、モデルが理論的にさまざまな分野やタスクのスキーマ情報に適応し、手がかり語が示す結果をオンデマンドで抽出できるようにすることで、オープン ドメイン環境での一般的な情報抽出を実現します。 例えば、上図のように、テキストから「名前」という実体と「勤務先」という関係を抽出したい場合、[スポット] 人 [関連] 勤務先という接頭辞を構築し、抽出したい対象テキスト [テキスト] と接続して、全体を UIE に入力することができます。 では、ここで重要な UIE モデルはどのようにトレーニングされるのでしょうか? UIE の著者は、事前トレーニング済みモデルの MLM 損失に基づいて、2 つのタスク/損失を巧みに構築しました。
2 つの損失を共同で事前トレーニングすることにより、強力な UIE モデルが得られます。注目すべきは、元の論文では T5 モデルをバックボーンとして使用していたものの、生成アーキテクチャに基づいていたことです。実際、中国語タスクにおけるモデルの潜在能力を最大限に引き出し、モデルの推論効率を許容できるものにするために(結局のところ、生成タスクはまだ重すぎる)、この記事の最初の章で説明した PaddleNLP 情報抽出ソリューションでは、強力な ERNIE 3.0 モデル + 抽出(読解)アーキテクチャが使用されています。 したがって、中国語のタスクではパフォーマンスが向上し、推論速度も速くなります。詳細については、原文を読むか、記事の最後にあるQRコードポスターをスキャンしてUIEライブ放送の予約をしてください〜論文リンク:https://arxiv.org/pdf/2203.12277.pdf 最後に、ポイント1についてお話しましょう。 偶然にもSOTAが13個になりましたUIE はさまざまな IE タスク データセットでどのように機能しますか? まず、従来の設定では、4 種類の抽出タスク、13 の従来のテスト セット、および SOTA 比較が行われます。 表の右から2番目の列はUIE事前トレーニングなし(T5+SELに基づく直接微調整)の結果を示し、右から1番目の列はUIE事前トレーニング後の微調整の結果を示しています。SEL+強力な生成モデルは情報抽出の統一モデリングで強力な結果を達成でき、UIE事前トレーニングによりモデルのパフォーマンスがさらに向上することがわかります。 モデルを微調整すると、異なる事前トレーニング戦略によって生じたモデルの違いが実際に弱まることが分かっています。したがって、UIE 事前トレーニングの価値は、小規模なサンプルでより完全に反映されます。 UIE 事前トレーニング後、モデルの小サンプル学習能力が大幅に向上しました。これが、UIE ツールの強力なカスタマイズ機能と、ミッドテールおよびロングテール業界での実装の鍵となります。 |
<<: ビジネスニーズに基づいて AI ソリューションを選択するにはどうすればよいでしょうか?
>>: ネットユーザーの83%を騙した!画像生成の頂点、DALL-E 2 は実際にチューリングテストに合格したのか?
LoGANがデザインしたいくつかのロゴ画像提供: マーストリヒト大学[51CTO.com クイック翻...
[[350644]]ジョージ・フロイドの悲劇的な殺害が世界に衝撃を与えてから、まだ3か月しか経って...
最近、Sogou 入力方式がバージョン 10.8 に更新されました。新バージョンでは、主に音声入力と...
李開復氏が所有するAI企業Zero One Everythingにも、もう1つの大手モデルプレイヤー...
[[312937]] [51CTO.com クイック翻訳] かつて紙は必須の事務用品とみなされ、ほと...
何年もの間、自社のソフトウェアとデバイスすべてに機械学習を統合してきたAppleは、WWDCでは自社...
最近、南京、江蘇省、天津などではAI顔認識技術の使用を禁止し始めている。 11月末、南京市のある男性...
悪意のある「バックドア」が埋め込まれたモデルが、何百万、何十億ものパラメータを持つモデルの中に、何者...
犯罪現場の足跡が貴重な証拠となるのと同様に、野生動物の足跡も野生生物保護活動家にとって同様に貴重なも...
現在、企業では人工知能(AI)をますます幅広く活用しており、自動化する傾向もあります。既存のデータ開...
2020年11月、Appleは速度と強力な機能の点で驚異的なM1チップを発売しました。 2022年に...
小売業の経営者は、長期的な顧客関係の構築を妨げる在庫管理の問題に直面することがよくあります。小売在庫...