NLP に革命を起こす 3 つの AI スタートアップ

NLP に革命を起こす 3 つの AI スタートアップ

ディープラーニングは自然言語処理において驚くべき進歩を遂げました。 Explosion、Huggingface、JohnSnowLabs の最新のイノベーションを活用してください。

自然言語処理 (NLP) は、ELIZA の時代、さらにはコンピューティング自体の基礎 (チューリング テストなど) にまで遡る、コンピュータ科学者の長年の夢でした。 NLP はここ数年で劇的な革命を遂げ、統計的手法がディープラーニングやニューラル ネットワークに基づく手法に取って代わられました。

[[439050]]

ディープラーニングを NLP に適用することで、GPT-3 などの大規模で洗練された汎用言語モデルが実現し、人間の文章とまったく区別がつかないテキストを生成できるようになりました。たとえば、GPT-3 は、Microsoft の新しい「コード不要」の PowerApps プラットフォームの機能を解放します。このプラットフォームでは、クエリの自然言語による説明を入力すると、バックエンドがコードを生成します (PowerFx 式は Excel 構文に基づいています)。

NLP は、Google や Microsoft のような大企業が製品を提供するためだけではなく、企業全体にわたって大きな可能性を秘めています。この記事では、AI 駆動型ソリューションの提供から、独自のカスタム NLP ソリューションを構築するための構成要素の提供まで、さまざまなサービスを提供する 3 つの異なるスタートアップを紹介します。

爆発

NLP コミュニティで働く開発者のほとんどは、Python 用の人気のある NLP ライブラリである spaCy を目にしたことがあるでしょう。しかし、Matthew Hannibal 氏と Ines Montani 氏によって設立され、spaCy と商用注釈ツール Prodigy を開発した会社である Explosion について聞いたことがある人はほとんどいません。

長年にわたり最高の NLP ツールキットの 1 つとして、大量の本番ワークロードを楽々と処理できる spaCy の能力は、他の同様のライブラリとは異なる特徴の 1 つです。しばらく spaCy を使用していない場合は、BERT などの事前トレーニング済みの Transformer モデルに基づくパイプライン、PyTorch や TensorFlow からのカスタム モデルを統合する機能、50 を超える言語のサポートなど、最新の NLP 技術に遅れを取らないことを知ったら驚かれるかもしれません。

spaCy はオープンソースですが、Explosion は有料製品 Prodigy も提供しています。これは、データ サイエンティストのツールキットの貴重な一部となることを目指しており、spaCy との緊密なインタラクティブ ループだけでなく、画像、音声、ビデオへの注釈付けも完全にサポートし、データセットの表現力豊かでスクリプト可能な注釈付けを可能にします。 Prodigy は、分類、転写、境界ボックスなどのパイプラインを構築するためのメソッドを提供します。これにより、データ サイエンティストはデータセットの効率的な注釈付けにおいてより積極的な役割を果たすことができるようになり、豊富な入力データの構築とより優れたモデルの作成にかかるコストが削減されます。

ハグフェイス

Transformer ベースの NLP モデル用の PyTorch ライブラリと Write With Transformer Web サイトを提供していた会社から、今日の全能の NLP 巨人である Huggingface に至るまでには、かなりの道のりがありました。今日では、Huggingface の Transformers ライブラリがテキスト処理の事実上の標準となっているだけでなく、新しい論文や技術が見つかってからそれをライブラリに取り込むまでの所要時間は、数週間ではなく数日で測定されることがよくあります。

Huggingface Model Zoo は、さまざまなモデル (ドメイン、言語、サイズなどのトピックをカバー) にわたるモデルのハブを含むように拡張され、多くのモデルの高速実装を備えたマネージド推論 API や、多数のさまざまなデータセットを操作するための使いやすい API が含まれています。 Grammarly などのアプリから、Microsoft、Google、Facebook による調査まで、Huggingface は何千もの企業で使用されています。それに加えて、Huggingface は、分散マシンのクラスター全体で大規模なモデルをトレーニングする際の煩わしさを大幅に軽減する最近の Accelerate ライブラリなど、機械学習エコシステムに他の小規模なライブラリも提供しています。

ハギングフェイスも勢いを緩めていません。ここ数か月で、音声モデルと画像モデルがプラットフォームに追加されてきました。Transformer アーキテクチャがディープラーニングの分野で定着し続け、あらゆる分野を征服するにつれて、Huggingface が最前線に立つ可能性が高くなります。

ジョンスノーラボ

JohnSnowLabs は、おそらく驚くことではないが、Apache Spark 上で実行されるオープンソースの NLP フレームワークである SparkNLP のキュレーターです。企業で非常に人気があり、名前付きエンティティ認識 (NER)、情報検索、分類、感情分析などのアプリケーション向けに、社内のさまざまな NLP パイプラインを強化しています。 spaCy と同様に、NLP の新しいパラダイムに適応するように進化しており、多数のディープラーニング モデル (700 以上!) と、さまざまなアプリケーションに対応する 400 を超えるパイプラインが標準で付属しています。また、Apache Spark のスケーラビリティも活用しているため、競合他社の多くよりも分散型の展開が容易になります。

興味深いのは、JohnSnowLabs が SparkNLP をベースに 3 つの有料製品を構築しており、そのうち 2 つは主に医療業界を対象としており、もう 1 つは主にその分野を対象としていますが、他の分野でも使用できることです。同社は、ヘルスケア分析と研究のために Kubernetes 上で実行されるマネージド プラットフォームである HealthcareAI と、臨床エンティティの認識とリンク、医療概念の抽出、テキストの匿名化などの方法を可能にする SparkNLP のアドオン パッケージ セットを提供しています。

もう一つの有料製品は SparkOCR で、同種の OCR ソリューションとしては最高であると主張しています。領域をキャプチャして DICOM 形式と PDF で出力する機能があるため、ヘルスケア分野に少し偏っていますが、より一般的な画像処理、ノイズ除去、傾き補正パイプラインを備えており、もちろん SparkNLP と統合して、任意の入力画像からエンドツーエンドの NER 抽出を実行できるスケーラブルなパイプラインを簡単に作成できます。

SparkNLP には多くの知識が組み込まれており、ヘルスケア分野では JohnSnowLabs が他の大規模な NLP ライブラリ プロバイダーよりも優位に立っているようです。

NLPの今後

今後数か月で NLP 分野ではどのようなことが期待できるでしょうか? 同じようなことが起きると思いますが、規模は大きくなります。Google、Microsoft、Facebook などの企業では、兆パラメータ モデルがますます重要になっています。 GPT-3 は現在 OpenAI の API でロックされていますが、1,750 億のパラメータ モデルである GPT-NeoX のオープンソース「再作成」が今年中にリリースされ、GPT-3 の生成能力のパワーを地球上のほぼすべての人に提供できるようになると予想されています。

最後に、研究者たちはスケールの反対側での研究を継続し、これらのアーキテクチャをより小型のデバイスやより長いドキュメントでより高速かつ効率的に実行できるように努めると予想されます。そして、この研究の結果はすべて、Explosion、Huggingface、JohnSnowLabs の製品にも反映されるのでご安心ください。

<<:  米国版「テンセントがアプリのアップデートを停止」、米国が「AIアルゴリズム」を法制化、未審査の公開を禁止

>>:  AIと行動科学がワクチン接種への躊躇にどう対処できるか

ブログ    
ブログ    

推薦する

人工知能技術に注目し導入すべき3つの理由

AI の導入が拡大しているにもかかわらず、多くの IT リーダーは AI のリスクと機会を取り巻く不...

調査レポート:2021年の人工知能開発動向予測

人工知能は、幅広い議論を巻き起こすだけでなく、人々に未来への無限の夢を抱かせるようなさまざまなテクノ...

...

人工知能は怖いものではありません。怖いのは、使い方がわからず淘汰されてしまうことです。

王鵬坤:過去半世紀、人類は人間のようにすべての問題を解決できる機械を発明していません。その代わりに、...

...

IoTとAI:輸送管理の変革

私たちが今生きている時代は、これまでで最も技術的に進歩した時代です。これらの新しいテクノロジーの登場...

無人配送はJD.com、Alibaba、SF Expressの「新たなお気に入り」となっているが、全国的に普及するには10年かかるかもしれない!

[[222058]]無人運転車、ドローン、無人倉庫、無人駅、配達ロボットなどの「無人技術」が、電子...

...

貨物ドローンは宅配業界に革命を起こす:より重い荷物を運び、より遠くまで飛ぶ

貨物ドローンは、高効率、環境保護、低コストなど、多くの利点を備え、宅配業界に革命をもたらそうとしてい...

未来志向のAI自動テストツール

翻訳者 | 陳俊校正:孫淑娟近年、自動テストは大きな進化を遂げています。これは、人為的エラーの可能性...

スポットロボット犬が古代ポンペイの警備員として活躍!墓泥棒を防ぐだけでなく、宙返りや3Dモデリングもできる

ボストン・ダイナミクスのロボット犬は、ダンスビデオを毎年リリースしているほか、さまざまな産業や警察署...

Google、AIロボットが人間に危害を加えないことを保証する「ロボット憲法」を起草

グーグルのディープマインドは1月5日、3つの新たな開発を発表した。その1つは、AIロボットが人間に危...

なぜ男性ロボットの方がユーザーに人気があるのでしょうか?その魅力は何でしょうか? 3つの特徴が鍵となる

人類が科学技術の時代に入り、初期の単純な産業時代から複雑で多面的なハイテク産業時代へと進化して数百年...

Apple Watchも新型コロナウイルスを検知可能:症状が出る7日前に検知可能

現在、新型コロナウイルスの核酸検査のほとんどは、咽頭ぬぐい液を使って行われている。スマートウォッチを...

2021 年を迎えるにあたり、人気の GNN はどのアプリケーション分野で存在感を発揮するのでしょうか?

近年、グラフ構造の強力な表現力により、機械学習の手法を用いたグラフ解析の研究が注目を集めています。グ...