大学を解雇され、Facebookも拒否した大物音声エンジニアのダニエル・ポーヴィー氏が、中国のXiaomiに入社する

大学を解雇され、Facebookも拒否した大物音声エンジニアのダニエル・ポーヴィー氏が、中国のXiaomiに入社する

昨日、小米集団の創業者、雷軍氏は微博で、音声認識とAIの国際的専門家であり、音声認識オープンソースツールKaldiの生みの親であるダニエル・ポービー氏(以下、ダン)が小米集団の主任音声科学者に就任すると発表した。彼は北京に独立した研究開発チームを設立し、同グループの副社長兼技術委員会の委員長である崔宝秋に報告することになる。

ダン氏の入社について、崔宝秋氏はまず彼の仕事に対する姿勢を称賛し、「ダン氏が今年のXiaomi開発者会議に参加できることをとても嬉しく思います!」と語った。

ダン氏は自身のツイッターでもこのニュースを発表し、2019年末に北京へ出発し、そこで小さなチームを結成して新世代の「PyTorch風」カルディを開発する予定だと述べた。

Xiaomiに入社する前、彼はFacebookを拒否した

今年8月、ダンは学生の茶番劇のせいでジョンズ・ホプキンス大学から解雇された。

[[282867]]

ダン・ポーヴィー

Facebook はすぐに Dan Povey に和解の手を差し伸べ、Dan はそれを受け入れました。

しかしフェイスブックは、学校での事件の調査が完了するまではダン氏に6か月間の「契約社員」契約しか与えることができず、調査結果が発表された後に正式に雇用するかどうかを決めると述べた。

ダン氏はこれを拒否し、フェイスブックの行動は「デジャブ」のような感覚を与えると冗談を言った。

ダンは後に自身の個人ページで、中国企業に就職し、「中国の大学でパートタイムで働くかもしれない」と計画していると述べた。

このニュースが報道されるとすぐに、国内の学界や産業界は大いに盛り上がり、この偉人がどこへ行くのかと推測した。

そしてついに、ダン・ポーヴィー氏の新しい仕事が正式に発表された。その中国企業はXiaomiだ。

ダンって誰ですか?音声認識オープンソースソフトウェアの開発をサポートするKaldiを開発する音声業界の伝説

音声学に詳しくない読者は、Dan Povey を知らないかもしれません。音声学の世界では、Dan は伝説的な人物です。

ダンはスピーチの分野ではよく知られた人物です。彼の LinkedIn 情報によると、彼は 2012 年からジョンズ ホプキンス大学の助教授を務めています。ジョンズ・ホプキンス大学に入学する前は、マイクロソフトと IBM で研究者として働いていました。

Zhihu での議論をざっと見たところ、Dan 教授は学生の間で非常に高い評価を得ており、彼の多くの「ラベル」は通行人を惹きつけて彼をフォローしていることがわかりました。

彼の元教え子たちはこう語った。「ダンは私が今まで出会った中で最も純粋で、正直で、親切な研究者です。彼の学問的レベルが優れているだけでなく、彼は今もコーディングの最前線にいます。インスピレーションが湧くと、彼は昼夜を問わずコードを書き、ジャガイモ1個だけで生き延びています。」

仕事中毒: ダンは仕事中毒です。1日14時間以上働いており、メールの返信以外にもコードを書いているそうです。

熱心: 学生のことを気にかけ、サーバーの維持に積極的に取り組み、会議に出席し、貧しい学生を助けるためにホテルをシェアし、ホームレスにお金をあげることさえよくありました。

Pure : 彼の理想は、Nuance (初期の音声認識で非常に有名だった会社) を「殺し」、すべての人に無料の音声認識ツールを提供することです。このため、彼は 7 年間、あまり良くないボルチモアに留まり、Kaldi の開発と保守に専念しました。Kaldi フォーラムでは、ほぼすべての投稿に返信があり、Dan はほぼ常にメールに返信しています。

Dan Povey 氏は、Apache ライセンスに基づいて無料で利用できるオープンソースの音声認識ツールキットである Kaldi の開発を主導したことで最もよく知られています。

Kaldi は、線形変換、MMI、ブースト MMI および MCE 判別トレーニング、特徴空間判別トレーニング、ディープ ニューラル ネットワークをサポートし、TensorFlow 統合を提供し、音声認識開発者向けに柔軟でスケーラブルなソフトウェアを提供することを目指しています。

[[282868]]

カルディの名前の由来は、コーヒーを発見した伝説のコーヒーの神様の名前であると言われています。ダンさんは、このツールキットがコーヒーと同じくらい簡単で便利で人気が出ることを願っています。

現在、Kaldi は最も広く使用されているオープンソースの音声認識ツールキットの 1 つになっており、多くの音声認識チームが Kaldi に依存しています。このツールキットは 2011 年のリリース以来、20,000 回以上ダウンロードされ、共著論文は 1,000 回以上引用されています。 Kaldi は音声認識オープンソースソフトウェアの半分をサポートしていると言えます。

Kaldi は大きな影響力を持っています。これは、完全に C++ で記述され、重み付け有限状態マシン理論に基づいた最初のオープンソース音声認識ソフトウェアです。モジュール式で拡張性の高い設計、詳細なドキュメント、完全な公開チュートリアルも、開発者に愛される主な理由です。

現在、学術界ではMIT、CMU、GHU、ケンブリッジ大学、中国では清華大学、上海交通大学、産業界ではマイクロソフト、グーグル、IBM、フェイスブックなど、業界では標準ツールとして広く採用されており、その発売は音声認識分野全体の発展を大きく促進しました。

興味深いことに、Dan Povey 氏はケンブリッジ大学の音声認識ツールキット HTK の作者の一人でもあります。彼は、HTK ツールキットの開発を主導した Phil Woodland 教授の教え子です。数年にわたる開発を経て、Kaldi は HTK よりも多くの技術を統合しました。教師は第 1 世代の音声認識オープンソース ソフトウェアを開発し、学生は第 2 世代の音声認識オープンソース ソフトウェアを開発しました。

学生の茶番劇が音声専門家の解雇につながった。教授はサーバーを取り戻すためだけに夜遅くに会社に侵入した。

音声業界の大ボスは怒りに任せて辞任し、フェイスブックの中国進出を激しく拒否した。その原因は「サーバーを取り戻す」ための反乱と、それに続く茶番劇的な解雇事件だった。

事件は5月7日の真夜中に起こった。暗く風の強い夜、ワイヤーカッターを持ったダン・ポーヴィーがジョンズ・ホプキンス大学の抗議活動中の学生たちが占拠する管理棟に侵入し、CLSP(言語音声処理センター)が管理するサーバーの制御権を取り戻そうとしたのだ。

[[282869]]

ジョンズ・ホプキンス大学の学生が入居するガーランド・ホールの外壁

これに先立ち、管理棟であるガーランドホールは学生たちによって34日間占拠され、座り込み抗議が行われていた。学生たちは窓を封鎖し、ドアを鎖でロックした。

しかし、ダンが保守を担当していたCLSPサーバーは建物内にありました。サーバー保守のために建物内に入る許可を学校に申請しようとしたが、無駄だったため、彼は抗議をやめることにしました。

ダンは仕事中毒として知られている。彼の生徒である陳国国さんは知乎でこう語った。「ダンと長年交流してきたが、触れることのできないものが二つあると感じている。一つは時間、もう一つはサーバーだ。」

陳国国氏は次のように述べた。「ダンが受け入れられないもう一つのことは、サーバーの不安定さです。ダンは多くのことに対して比較的寛容ですが、サーバーのリソースを悪用する人がいれば、非常に厳しく警告します。ダンは、データとコンピューティング リソースは CLSP 全体にとって非常に重要な資産であり、CLSP の全員がいつでもそれらを使用できるようにする必要があると考えています。これが、今回の事件でダンがデータとそのリソースの損失を回避するためにサーバーを取り戻そうとする理由だと思います。」

地元紙の報道によると、その夜、ダンは他の6人の「社会の怠け者」とともにペンチを持って建物に行き、抗議する学生たちがドアに結んだチェーンを切断し、サーバーの制御を取り戻そうと懸命に努力した。

[[282870]]

動画には、ダンが学生たちに建物から押し出される様子が映っている。

しかし彼は失敗した。物理的な衝突が起こり、ダンは生徒たちによって建物の外に押し出された。ダンさんは自身のウェブサイトで、強制侵入は学生が使用する建物に設置されていた研究用サーバーの故障が原因だったと説明している。

「サーバー奪還」事件後、ダン氏はまず停職処分を受け、その後8月8日に「生徒の安全を危険にさらした」として学校から解雇された。

ダンは解雇通知を公表し、早期退職すると発表した。 「仕事は失ったかもしれないが、少なくとも私には尊厳と独立した精神がまだ残っている」と彼は自身のウェブサイト上の声明で述べた。

彼は、自分が白人男性であり、抗議活動を行っていた学生たちが少数派であったために解雇されたと主張した。彼は自身のホームページに声明文を投稿し、「米国人と米国のあらゆる組織にとって、人種差別(またはそれに類するもの)で非難されることほど恐ろしいことはないようだ。これが、私たちがここで目にしている不条理な事実につながる。これほど巨大な組織が、魔法にかかった数人の子供によって麻痺させられたのだ」と書いた。

彼は多くの選択肢があったと語った。「物事がうまくいかなかったら中国かロシアに行くと友人たちに話した。しかし、何が起ころうとも、私は決して謝ったり、引き下がったりしないということを皆さんに伝えたい。」

彼は公開書簡の中でこう書いている。

最後に、ボブ・ディランの歌詞をいくつか紹介します。

私は自分がしたことに何一つ後悔していない

戦えてよかった。ただ勝つことを願うだけだ

学校を解雇され、Facebook を拒否した後、なぜ Xiaomi なのか?

なぜこのような素晴らしい人がXiaomiを選んだのでしょうか? 10月23日、XiaomiはAI Media Open DayイベントでDanを採用した経緯を共有した。

ポーヴィー氏がジョンズ・ホプキンス大学から解雇された後、シャオミの人工知能部門の音声グループの責任者はツイッターでダン氏の「フェイスブックを拒否」という投稿を見て、それをシャオミグループの人工知能部門ゼネラルマネージャーであるイェ・ハンジュン博士に転送した。国際採用を担当する同僚はすぐにダンに連絡し、返事を受け取った後、イェ・ハンジュン博士はダンと小米の戦略的なレイアウトと技術的な問題について話し合いました。

その後、Xiaomiの技術委員会の委員長である崔宝秋氏は、ダン氏とさらにコミュニケーションを取り、彼をXiaomiに採用することに成功した。崔宝秋氏はかつてメディアに対し、ダン氏がXiaomiを選んだ理由は3つあると語った。1つ目はXiaomiのAIoTエコシステム、2つ目はXiaomiが自社開発の技術と人材を重視していること、3つ目はXiaomiがオープンソースを採用していることだ。

崔宝秋氏は、その中でも小米のオープンソース戦略がダン氏を惹きつけた重要なポイントだったと語り、ダン氏に渡した3つのPPTで小米がオープンソースを積極的に取り入れていることを具体的に紹介した。 PPT の 1 つでは将来の計画について説明されており、その 1 つは中国のインターネット企業とテクノロジー企業を統合して、中国のオープン ソースの力を世界にアピールするというものでした。ダンは特にこの文を強調し、これが自分がやりたいことだと述べました。

また、小米のビジネスの観点から、雷軍はかつて、小米の今後5年間の「デュアルエンジン」は携帯電話+AIoTであると提案した。AIoTはAIとIoTの組み合わせであり、これは小米の全体戦略における人工知能の重要性を示している。 XiaomiはAI分野で素晴らしい成果を上げています。公開データによると、Xiaomiは2016年から2018年の間にAI分野で684件の特許を申請し、世界第11位となり、AI分野で国際的に主導的な新勢力となった。

同時に、Xiaomi は音響、音声、視覚、自然言語処理、知識グラフ、機械学習の 6 つの主要分野に対応する研究開発チームを擁しています。現在、音声分野では実用的な製品が発売され、技術の進歩も進んでいます。

例えば、少し前に業界で大きな注目を集めた「AISHELL Speaker Verification Challenge 2019 Far-field Speaker Recognition Challenge」では、Xiaomi音声チームは多次元データ拡張+クラシック認識モデル+ディープニューラルネットワーク埋め込みの融合方法を採用し、近距離登録トラック1と遠距離登録トラック2の両方のタスクで国内1位を獲得しました。

音声技術の研究開発を重視するXiaomiと音声認識大手の連携はどのような影響をもたらすのだろうか。これについて、一部のネットユーザーは「長期的には、Xiaomiの科学研究能力の向上に役立ち、将来、AI分野におけるXiao AiとXiaomiの発展に期待している」と考えている。

<<:  アルゴリズムエンジニアとして働くために養豚場に行く?月20,000

>>:  ファーウェイ、2019年グローバルコネクティビティインデックス(GCI)レポートを発表:インテリジェントコネクティビティが経済成長の新たな原動力に

ブログ    

推薦する

AI技術がデータセンターの省エネに向けた新たな戦いに参入

序文: 2020年、データセンター建設は中央政府による新インフラ戦略に正式に組み込まれ、新インフラの...

...

GPTとWhisperを使用してパーソナライズされた音声アシスタントを作成する

翻訳者 | 朱 仙中レビュー | Chonglou導入この記事は、ユーザーの好みに合わせてシンプルで...

Google DeepMindは、新しいAIモデルGeminiを開発中であることを明らかにし、「GPT-4よりも強力」であると主張している。

6月28日、先月のGoogle I/O開発者会議で、Googleは開発中の大規模言語モデル「Gem...

人工知能産業の将来は、パンデミックの最中に過大評価されているのでしょうか?

これまで、私を含め、ほとんどの人は、今回の流行が経済に及ぼす影響は段階的かつ一時的な変動に過ぎないと...

エッジインテリジェンス: リアルタイムのデータ処理とインテリジェントな意思決定を実現する新世代のテクノロジー

ラボガイドエッジインテリジェンスは、人工知能 (AI) とエッジコンピューティングを組み合わせた新し...

人工知能は伝染病の予防と制御に役立ちます。正確にスクリーニングし、伝染病を推測し、ウイルスの発生源を追跡することができます。

感染予防・抑制の過程では、高リスクグループとスーパースプレッダーを迅速に特定し、感染の進行状況を正確...

...

Weilingsi チームは、グラフ同型性の下での同変性と高い計算効率を備えた「自然グラフ ネットワーク」メッセージ パッシング メソッドを提案しました。

最近、ウェリングスチームによる研​​究では、グラフの局所的な対称性を研究することで新しいアルゴリズム...

約100機のドローンが「爆発」し、重慶の建物に墜落した!プログラムエラー、ホストクラッシュ

ドローンが墜落することは珍しくありませんが、数十機、あるいは数百機ものドローンが同時に墜落したらどう...

GoogleのAI設計チップから「知能」の本質がわかる

先週、査読付き科学誌「ネイチャー」に掲載された論文で、Google Brain チームの科学者らは、...

Spark Graphx はグラフの最大クリークマイニング、疑似並列アルゴリズムを実装します

[[206073]] ####背景:#### Spark graphxは最大クリークマイニングアルゴ...

人工知能を活用した診断・治療の現状と戦略に関する研究

1. はじめにわが国では毎年、さまざまな医療機関における診察や治療の総回数が70億回を超えており、医...

アルゴリズミア:人工知能は2021年に主流になる

1月6日、海外メディアの報道によると、新型コロナウイルス肺炎流行の影響により、企業内での人工知能技術...

パドルパドル中国ツアーは、中小企業のソフトウェアおよびハードウェア製品の革新の需要に応えるために深センに上陸しました

AI応用の時代において、人工知能技術は研究室から産業化へと移行しています。人工知能が徐々に製品応用市...