AI専門家の周明氏が軽量な「孟子モデル」を作成し、オープンソース化しました! 10億のパラメータでCLUEリストの3位に到達

AI専門家の周明氏が軽量な「孟子モデル」を作成し、オープンソース化しました! 10億のパラメータでCLUEリストの3位に到達

[[430068]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

わずか10 億のパラメータで中国の自然言語理解CLUEリストのトップ 3 にランクされているMencius モデルが、オープンソースになりました。

これを作成したチーム、蘭州科技創新工場は最近、孟子の普遍モデルに基づいた4つのモデルをオープンソース化すると発表した。

テキスト分類、金融ニュース分類、コピーライティング生成、画像説明などのシナリオで使用できます。

今年7月、AIの専門家である周明氏とそのチームが作成したこの軽量モデルは、リリースされるやいなや皆を驚かせました。

数百億、数千億のパラメータを持つモデルが10億のパラメータで樹立した記録を達成し、CLUEリストがテンセント、Sogou、Huawei、Alibaba Damo Academyによって独占されていた近年のパターンを打ち破りました。

現時点では、Mencius モデルはリストのトップ 5 の中で唯一、巨大企業が発売していないモデルであり、 3 位にランクされています。

下流タスクにおける優れたパフォーマンス

CLUE リストは自然言語理解のプレイヤーたちの戦場であり、Tencent、Sogou、Huawei、Alibaba Damo Academy などが順番にリストを独占し、記録を更新しています。

彼らの大規模なモデルは、多くの場合、数千億または数兆のパラメータを持っています。わずか 10 億のパラメータを持つ Mencius モデルは、どのようにして包囲を突破したのでしょうか?

孟子モデルを見てみましょう。

Mencius モデルは、言語情報の統合やトレーニングの加速などの方法に基づいて Lanzhou Technology が開発した一連のモデルです。

BERT との一貫したモデル構造 (Transformer) により、Mencius モデルは既存の事前トレーニング済みモデルをすぐに置き換えることができます。

多言語・マルチモーダルなデータを処理でき、さまざまなテキスト理解やテキスト生成のタスクをサポートし、テキスト分類や読解などのさまざまなタスクで優れたパフォーマンスを発揮します。

具体的には、4 つのオープンソース モデル アーキテクチャは次のとおりです。

さまざまなシナリオに対応して、Mencius モデルは財務タスクで優れたパフォーマンスを発揮します。

マーケティング コピーの生成に関しては、Mencius モデルは GPT よりもはるかに豊富な言語を生成できます。

画像コンテンツの説明もより正確かつ詳細になり、AIの痕跡はほとんど見られません。

少しの努力で大きな成果が得られる

他の中国語言語モデルと比較すると、Mencius モデルの最大の特徴は、小型で精密であることです。

軽量なトレーニング戦略を採用し、数十億のパラメータを持つ小さなモデルの構築に取り組んでおり、既存のパラメータの下でのモデルの潜在能力を最大限に活用し、実際のビジネスシナリオを迅速かつ低コストで実装するのに役立ちます。

同時に、Mencius は人間の事前知識を使用してモデルのトレーニングをガイドし、モデルがより効率的に知識を獲得できるようにします。

Menciusモデルの言語理解能力はトップクラスで、権威あるCLUE中国語理解評価の総合ランキングでは84点を超え、人間のベンチマークスコア(85.61)に迫りました。

さらに、T5 スタイルのエンドツーエンドで生成されたトレーニング パラダイムに基づき、BERT スタイルの判断ベースのアーキテクチャを同期的に適応させることで、Mencius モデルは業界のアプリケーションに簡単に適応でき、幅広いビジネス シナリオをカバーできます。

モデルアーキテクチャの面でも、「Mencius」は全面的に改善されました。

具体的な側面は 4 つあります。

  • モデル構造の面では、意味的役割や品詞タグ付けなどの言語的特徴が埋め込み表現に統合され、構文制約に基づいて注意メカニズムが導入され、それによってモデルの言語知識をモデル化する能力が向上します。
  • トレーニング戦略の面では、エンティティ知識と談話に基づくマスク メカニズムが導入され、モデルの言語コンポーネントと談話関係の表現が強化されます。
  • トレーニング効率をさらに向上させるために、大規模モデルの蒸留と小規模モデルの初期化戦略が使用されました。
  • Mencius モデルを金融やマーケティングなどの垂直分野にうまく適応させるために、ドメイン データを使用してトレーニングを継続し、対応するプロンプト テンプレート (Prompt) を構築し、大幅なパフォーマンスの向上を実現しました。

周明:認知知能にとって今後10年間に大きなチャンスが生まれる

最後に、Mencius モデルの背後にあるチームであるLanzhou Technologyを紹介しましょう。

イノベーションファクトリーによって育成された認知インテリジェンス企業です。

同社の創設者は周明博士。

[[430069]]

AI の分野では、周明氏はもはや説明の必要がありません。彼は世界的に認められた AI 科学者であり、自然言語処理の分野を代表する人物です。

周明博士は2020年にイノベーションワークスに入社し、主任科学者を務めました。

私たちはまた、開催されたばかりの2021年杭州雲奇カンファレンスで周明博士に会いました。

彼は、長年にわたる産学研究連携の経験に基づき、認知知能に関する自身の考えをいくつか共有しました。

周明博士は、現在のニューラルネットワーク手法は、エンドツーエンドのトレーニングに大規模なラベル付きデータに依存していると述べました。このブラックボックスシステムには説明力と常識的な推論能力が欠けています。

人間の脳は、慣れ親しんだタスクを扱うときに直感に頼ります。これは、事前トレーニング済みモデルやディープラーニングに多少似ています。

新しいことに取り組むとき、人間の脳は落ち着いて自身の知識を使って推論する必要があり、それは記号計算に似ています。

現在のディープラーニングは、両方の利点を 1 つのモデルで組み合わせる方法、つまりデータと知識を統合して問題を解決する方法を考えるべきだと彼は考えています。

さらに、周明博士は、ディープラーニングでは新しいタスクをトレーニングし、すべての機能を学習する必要があるとも提案しました。しかし、人間が新しいタスクに取り組むときは、基本的な能力に基づいて小さな調整のみを行うことが多いです。

したがって、人間の脳をどのようにシミュレートし、一連の基本機能とそれに応じた微調整メカニズムを設計するかは、ディープラーニングが考慮する必要がある問題です。

AI業界の展望について語る際、周明博士は次のように述べた。

AI は知覚知能から認知知能へと急速に移行しており、今後 10 年間は認知知能の開発と革新にとって大きなチャンスとなるでしょう。

同時に、彼は、Lanzhou Technology がオープンソースから始まり、SaaS、カスタマイズ、アプリに移行していることも明らかにしました。現在、当社は国内外の数十の有名大学や関連分野の大手企業10社以上と安定した協力関係を築いています。

ポータル

現在、蘭州科技はプロジェクトのオープンソースアドレスと技術レポートを公開しています。アドレスは次のとおりです。

プロジェクトアドレス: https://github.com/Langboat/Mengzi
技術レポート: https://arxiv.org/abs/2110.06696

<<:  継続的な冷却を心配する必要はありません。ドローンが電力網を保護して暖かさを提供します

>>:  AIコンピューティングのローカライズのもう一つの可能​​性:CoCoPIEの探究と選択

ブログ    
ブログ    

推薦する

ToTを超えて、ETHチューリッヒは新世代のマインドマップGoTをリリース:推論品質は62%向上し、コストは31%削減

大規模言語モデルは推論能力がまだ弱く、推論プロセスの改善を支援するためにさまざまな思考ツールに頼る必...

デューク大学: 効率的な人工知能システムのソフトウェアとハ​​ードウェアの共同設計

少し前に、機械知能 AI テクノロジー年次会議がオンラインで開催されました。デューク大学電気・コンピ...

ガンダムの運転をシミュレーションしますか? !優秀な学生が高度にシミュレーションされた運転体験ロボットシステムを発明し、白熱した議論を巻き起こした。

誰もがいつでもザクを操縦できるわけではありませんが、最近、優秀な大学生が「リモートコックピット」と呼...

人体に入り込んで手術ができる「ソフトロボット」が登場し、2040年には宇宙に送り込まれるかも!

人工知能の活発な発展は大きな論争を引き起こしています。発展の一般的な傾向からすると、これはデメリット...

完全なマーケティング効果評価におけるベイズ構造モデルの応用

著者についてCtrip のデータアナリストである Yiwen 氏は、ユーザー増加、因果推論、データサ...

2026年までに、AIを活用したARアプリケーションのユーザー数は2億人を超える

ABI Research は、2026 年までに、何らかの形で人工知能 (AI) を活用した拡張現実...

LLVM の創始者、クリス・ラトナー: AI インフラ ソフトウェアを再構築する必要がある理由

かつて人々は AI の美しいビジョンを思い描いていましたが、現状は満足できるものではありません。 A...

顔認識アプリケーションの境界はどこにあるのでしょうか?

日常生活における新しい技術の普及により、個人情報の漏洩に対する国民の懸念が生じている。顔認識アプリケ...

3Dを理解する言語モデルが登場! UCLA、上海交通大学、MITなどが共同で3D-LLMを提案:パフォーマンスが9%向上

大規模言語モデル (LLM) と視覚言語モデル (VLM) は、画像からの発話や常識的な推論の実行な...

2019年のAI研究開発のホットスポットのレビュー

人工知能技術を継続的に改善することで、より優れたインテリジェントな世界を創造することができます。 2...

最高人民検察院は、虚偽訴訟の監視に人工知能とビッグデータを活用することを検討している。

虚偽の訴訟は、他人の正当な権利と利益を侵害するだけでなく、社会の健全性を著しく損ない、司法の公平性、...

ディープニューラルネットワークはディープフェイクを検出できる

開発者がディープフェイクのパンドラの箱を開けたことで、本物と区別がつかないほどリアルな写真を偽造する...

...