AIビッグモデルにおける言語の不平等:英語は最も安価、他の言語ははるかに高価

AIビッグモデルにおける言語の不平等:英語は最も安価、他の言語ははるかに高価

7月31日、ユーザーが使用する言語が大規模言語モデル(LLM)のコストに大きな影響を与え、英語話者と他言語話者の間に人工知能の格差が生じる可能性があると報告された。最近の調査によると、OpenAIなどのサービスがサーバーのコストを測定し請求する方法により、英語の入力と出力は他の言語よりもはるかに安く、簡体字中国語は英語の約2倍、スペイン語は1.5倍、ビルマ語のシャン語は15倍のコストがかかるという

IT Homeは、TwitterユーザーのDylan Patel (@dlan522p)がオックスフォード大学が実施した調査の写真を共有したことに気付きました。その調査では、LLMがビルマ語の文章を処理するのに198トークンかかるのに対し、英語で書かれた同じ文章には17トークンしかかからないことがわかりました。トークンは、OpenAI の ChatGPT や Anthropic の Claude 2 などの API を介して LLM にアクセスするための計算コストを表します。つまり、ビルマ語の文章は英語の文章よりも 11 倍コストがかかります。

トークン化は、AI企業がユーザーの入力を計算コストに変換する方法であり、英語以外の言語でモデルを使用およびトレーニングするにはコストがはるかに高くなることを意味します。これは、中国語などの言語は構造が異なり、より複雑であるため(文法と文字数の両方の点で)、より高いレマ率が必要になるためです。たとえば、OpenAI の GPT3 トークナイザーによると、「your Affection」というトークンは英語では 2 つのトークンしか必要としませんが、簡体字中国語では 8 つのトークンが必要になります。簡体字中国語のテキストには 4 文字 (your love) しかありませんが、英語のテキストには 14 文字あります。

<<:  マイクロソフト、自然言語インターフェース開発を簡素化する TypeChat ライブラリを発表

>>:  保険詐欺防止リスク管理の実践

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

MITが脳制御ロボットを開発:脳波を使ってロボットのエラーを修正できる

ロボットが人間のように行動するためには、人間を理解する必要があります。多くの場合、それは妥協しなけれ...

...

...

「人工知能、データサイエンス、機械学習」について語る -- 概要

[[190364]]この記事は、写真付きの 4 つの例を含む 6 時間かけて執筆されました。目的は、...

AIチップのスタートアップ企業が岐路に立つ

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

コード不要で再利用可能な AI が AI の溝を埋める方法

著者: ミシェル・ゾウ翻訳:李睿企画丨孫淑娊[51CTO.com クイック翻訳]事前に構築された A...

ディープニューラルネットワークを使用してNER固有表現抽出の問題を解決する

この記事は次のように構成されています。固有表現抽出 (NER) とはどのように識別しますか? cs2...

Stability AIのCEOが大胆な発言:5年後には人間のプログラマーは存在しなくなる

最近、Stability AIの創設者兼CEOであるEmad Mostaque氏が再び衝撃的な発言を...

...

自然言語処理にディープラーニングを使用するにはどうすればよいでしょうか?ベストプラクティスのリストはこちら

この記事の著者である Sebastian Ruder は、自然言語処理にディープラーニングを使用する...

Nvidia は Arm を買収して何をしたいのでしょうか?中国の承認後、クアルコムの影が再び現れる

またタトゥー?興味深いのは、この取引の解約手数料の詳細がまだ発表されていないことです。現時点では、独...

2021年11月のドローン業界の最新動向を3分で振り返る

現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の軌道に乗っています。...

...