私をプログラマーと呼ばないで、私は「AIエンジニア」です、マスク氏：自然言語プログラミングを始めましょう

ChatGPTの出現後、人々は「すべての産業がAIによって再編され、一部の職業は置き換えられ、一部の職業は形態が変化する」と予測しました。 AIを創り出すプログラマーとしての彼らのキャリアはどうなるのでしょうか？

最近、物事は順調に進んでいるようだ。エンジニアと学者のグループが「AIエンジニア」という概念を提唱し、多くの反響を得た。

写真

GPT-4 などの大規模言語モデルが示す汎用的かつ強力な機能により、私たちの働き方はすぐに AI と連携した作業へと変化する可能性があり、人工知能の進歩のペースに追いつくこと自体がフルタイムの仕事になるでしょう。

この「AIエンジニア」は、フルスタックエンジニアと機械学習エンジニアの中間に位置し、バックエンドエンジニアの一部を占め、大規模なモデルの構築に注力すると言われています。まだ定義段階ですが、白熱した議論から判断すると、実装までそう遠くないはずです。結局のところ、ChatGPT革命のスピードは非常に速いのです。

このアイデアが発表されるとすぐに、AI分野の大物たちがすぐにコメントしました。 OpenAIの科学者であり、元テスラのAIおよび自動運転担当ディレクターであるAndrej Karpathy氏も同意している。「このビッグモデルは、抽象化と専門知識のまったく新しいレイヤーを生み出します。私はこれまでこれを「キューエンジニア」と呼んできましたが、今では単なるキューイング以上のものになっています。」

彼はまた、次の4つの重要な点を指摘しました。

これまでの機械学習の取り組みでは、通常、アルゴリズムをゼロからトレーニングする必要があり、その結果得られるパフォーマンスは限られているのが一般的でした。
大規模モデルのトレーニングは、従来の機械学習とは大きく異なります。前者は非常に大規模なシステムワークロードであるため、スーパーコンピューター上でのトランスフォーマーの大規模なトレーニングに重点を置いた新しい役割が生まれました。
数字から判断すると、機械学習エンジニア/ビッグモデルエンジニアよりも AI エンジニアの方がはるかに多いでしょう。
この役割で成功するためには、トレーニングは必要ありません。

写真

マスク氏はそれを読んだ後、こうも述べた。

写真

このポジションは需要が高く、大きな意義があり、参入障壁が低いため、人々は興奮と不安の両方を感じているようです。

議論の中で、「認知エンジニア」や「AIシステムエンジニア」といった名前が候補として挙げられた。NvidiaのAI科学者Jim Fan氏は、この新興の職業は「勾配フリーエンジニア」と呼ぶべきだと考えている。従来のツール1.0からニューラルネットワーク2.0、そして勾配フリーアーキテクチャ3.0へと進み、ついにGPTシリーズの自己トレーニングバージョン4.0が登場した。

写真

これに対し、ウィスコンシン大学の助教授セバスチャン・ラシュカ氏は、これは一般アシスタントにのみ適用され、ほとんどの企業では「一般」は必要ないと述べた。

これまで多くの名称と定義を挙げてきましたが、この「AIエンジニア」という職種が実際どのようなものなのか見ていきましょう。

私たちは、基礎モデルとオープンソースのビッグモデルおよび API の画期的な機能によって推進される、応用 AI における 10 年に一度の変化を目撃しています。

2013 年に 5 年の歳月と研究者チームを要した成果が、2023 年には API、ドキュメント、そして自由な午後だけで実現できるようになりました。

写真

しかし、細部にこそ問題があり、AI の適用と製品化には終わりがありません。

モデルに関しては、最大の GPT-4 および Claude モデルのほか、オープンソースの Huggingface、LLaMA などのモデルがあります。
ツールは、最も人気のあるリンク、検索、ベクター検索ツール（LangChain、LlamaIndex、Pinecone など）から、新興の自律エージェント分野（Auto-GPT、BabyAGI など）まで多岐にわたります。
技術的には、毎日新たに提出される論文、モデル、技術の数は、関心と資金の増加とともに飛躍的に増加しており、すべてに対応するのはほぼフルタイムの仕事になるほどです。

この状況を真剣に受け止めるなら、これはフルタイムの仕事とみなすべきです。その結果、ソフトウェアエンジニアリングでは、「サイト信頼性エンジニア (SRE)」、「DevOps エンジニア」、「データエンジニア」、「分析エンジニア」が登場したのと同じように、AI の応用と新しいスタックの効果的な採用に特化した新しいサブ分野が生まれます。

この役割の新しい（そして最も素晴らしくない）バージョンは、AI エンジニアのようです。

すべてのスタートアップには AI の使用について議論するための何らかの Slack チャンネルがあり、これらのチャンネルは間もなく非公式のグループから公式のチームに移行することが分かっています。現在、何千人ものソフトウェアエンジニアが、勤務時間中や夜間、週末を問わず、会社の Slack や個別の Discord で、実稼働 AI API や OSS モデルに取り組んでいますが、これらすべてが「AI エンジニア」という単一の肩書きの下に専門化され、一元化されます。

これは、今後 10 年間で最も需要の高いエンジニアリング職になる可能性があります。

AI エンジニアは、Microsoft や Google などのテクノロジー大手から、Figma、Vercel、Notion などの大手スタートアップ、そして Simon Willison、Pieter Levels、Riley Goodside などの独立系開発者まで、あらゆるところに存在します。 Anthropic でエンジニアリングを行えば年間 30 万ドル、OpenAI でソフトウェアを構築すれば年間 90 万ドルを稼ぐことができます。彼らは週末の自由時間を AGI House でアイデアを練ったり、Reddit の /r/LocalLLaMA セクションでヒントを共有したりして過ごします。

これらに共通するのは、人工知能の進歩を、ほぼ一夜にして何百万人もの人々が使用する実際の製品に変える能力だ。そして彼らの中には博士号を持つ人は一人もいない。 AI 製品の提供には、研究者ではなくエンジニアが必要です。

AIエンジニアとMLエンジニアの大逆転

Indeedのウェブサイトにある一連のデータによると、機械学習エンジニアのポジション数はAIエンジニアのポジション数の10倍ですが、比較するとAI分野の成長率の方が速いです。この比率は5年以内に逆転し、つまりAIエンジニアの数がMLエンジニアの数倍になると予測されています。

写真

HN Who's Hiring（ハッカーニュースの月刊記事。雇用主が求人情報を投稿できるプラットフォームを提供）さまざまなカテゴリの月間雇用動向

AI と ML の違いについては、終わりのない、しかし慎重な議論が続いています。また、一般的なソフトウェアエンジニアが AI ソフトウェアを構築することは完全に可能であることもわかっています。しかし、最近、誰もが別の問題について議論しています。それは、Hacker News のホットな投稿「AI エンジニアリングに参入する方法」が幅広い関心を呼び起こしたことです。このホットな投稿は、市場にまだ存在する基本的な制限原則も示しており、各ポジションの区別は依然として非常に細かいです。

写真

2023 年 6 月の Hacker News の投稿のスクリーンショット: 「AI エンジニアリングを始めるには」に対する最も投票数の多い回答。

これまで、AI エンジニアリングは ML エンジニアリングやデータエンジニアリングの一種であると考えている人が多く、特定の分野に参入するにはどうすればよいかと尋ねられた場合、上記の回答のように、多くの人が Andrew Ng の Coursera コースを推奨するなど、同じ前提条件を推奨する傾向があります。しかし、これらの有能な AI エンジニアの中には、Andrew Ng の Coursera コースを修了した人もいれば、PyTorch に精通している人もいなかったし、データレイクとデータウェアハウスの違いを知っている人もいませんでした。

近い将来、Transformer の論文「Attention is All You Need」を読んで AI エンジニアリングを学び始めることを提案する人は誰もいなくなるでしょう。それは、フォードモデル T の設計図を読んで運転を学び始めようとしないのと同じです。もちろん、テクノロジーの基本原理と歴史的発展を理解することは役に立ち、思考と効率を向上させる方法を見つけるのに役立ちます。しかし、実際に製品を使ってみて、その特性を知ることができる場合もあります。

AI エンジニアと ML エンジニアの逆転は一夜にして起こるものではなく、優れたデータサイエンスと機械学習のバックグラウンドを持つ人々にとって、プロンプトエンジニアリングと AI エンジニアリングは長い間軽視される可能性があります。しかし、時間が経つにつれて、需要と供給の経済法則が優勢になり、AI エンジニアリングに対する人々の見方は変化するでしょう。

AIエンジニアが登場したのはなぜでしょうか?

モデルレベルでは、多くの基本モデルが強力なコンテキスト学習とゼロショット転送機能を備えた少数ショット学習者になっています。モデルが示すパフォーマンスは、多くの場合、モデルをトレーニングする当初の目的を超えています。言い換えれば、これらのモデルを作成した人々は、モデルの機能の範囲を完全に理解していませんでした。 LLM の専門家ではない人でも、モデルをより深く操作し、研究が不十分な分野に適用することで、これらの機能を発見し、活用することができます。

人材面では、Microsoft、Google、Meta、大規模基礎モデル研究所が希少な研究人材を独占し、「AI研究をサービスとして」APIを提供しています。そのような研究者を雇うことはできないかもしれませんが、彼らのサービスを借りることはできます。現在、世界中に約 5,000 人の LLM 研究者と 5,000 万人のソフトウェアエンジニアがいます。この供給制約により、「中間」カテゴリーの AI エンジニアが人材需要を満たすために増加することになります。

ハードウェア面では、大手テクノロジー企業や機関がGPUを大量に備蓄している。もちろん、OpenAIとMicrosoftが最初にそうしたが、Stability AIは4,000のGPUクラスターを強調することで、スタートアップ企業間のGPU競争を開始した。

写真

さらに、Inflection（13億ドル）、Mistral（1億1,300万ドル）、Reka（5,800万ドル）、Poolside（2,600万ドル）、Contextual（2,000万ドル）などの新しいスタートアップ企業が登場し始めており、これらの企業は独自のハードウェア施設を所有するために巨額のシードラウンドの資金調達を始めています。

米国の技術系幹部で投資家のナット・フリードマン氏は、ポートフォリオの新興企業を支援するために、10エクサフロップスの計算能力を備えた1億ドルのGPUクラスターであるアンドロメダ・プロジェクトを発表しました。 API の世界の反対側では、より多くの AI エンジニアがモデルをトレーニングするだけでなく、使用できるようになります。

効率の面では、データサイエンティストや機械学習エンジニアが単一のドメイン固有モデルをトレーニングして本番環境に導入する前に面倒なデータ収集作業を実行するのではなく、製品マネージャーやソフトウェアエンジニアが LLM と対話することで製品のアイデアを構築および検証できます。

写真

後者（データ、MLエンジニア）の数が前者（AIエンジニア）の100～1000倍であると仮定すると、LLMと対話的に作業することで、従来の機械学習よりも10～100倍高速化できます。その結果、AI エンジニアは、従来よりも 10,000 倍安価に AI 製品を検証できるようになります。

ソフトウェアレベルでは、Python から JavaScript への変更が行われます。データと AI の分野は伝統的に Python を中心に展開されており、LangChain、LlamaIndex、Guardrails などの AI エンジニアリングツールの第一波も Python 中心でした。しかし、JavaScript 開発者の数は少なくとも Python 開発者の数と同数である必要があるため、LangChain.js や Transformers.js から Vercel の新しい AI SDK まで、ツールはますますその方向に拡張されています。 JavaScript の全体的な市場規模と機会は印象的です。

完全に異なる背景を持ち、完全に異なる言語を話し、完全に異なる製品を生産し、完全に異なるツールを使用するサブグループが出現するたびに、それらは最終的に独自のグループに分裂します。

ソフトウェア 2.0 からソフトウェア 3.0 への進化におけるコードの役割

6 年前、Andrej Karpathy 氏は、ロジックを正確にモデル化した手書きプログラミング言語の古典的なスタックと、ロジックを近似する機械学習ニューラルネットワークの新しいスタックを対比した、ソフトウェア 2.0 を説明する非常に影響力のある記事を書きました。この記事は、ソフトウェアが人間がモデル化できない多くの問題を解決できることを示しています。

今年、カルパシー氏は、生成AIのプロンプトは、多くの場合英語で人間が設計し、法学修士（LLM）が解釈したコードとして理解できるため、最もホットな新しいプログラミング言語は英語であると書き、最終的に彼のチャートのグレーゾーンを埋めました。

写真

注: ソフトウェア 1.0 のクラシックスタックは、Python、C++ などの言語で記述されています。ソフトウェア 2.0 はニューラルネットワークの重みで記述されており、重みが非常に多いため、このコードの作成プロセスに人間は関与していません。

昨年はプロンプトエンジニアリングが話題となり、GPT-3や安定拡散を仕事に応用する動きが出てきました。人々は AI スタートアップを OpenAI ラッパーと嘲笑し、LLM アプリケーションがヒントインジェクションやリバースヒントエンジニアリングに対して脆弱であるという懸念を表明しました。

しかし、2023年の大きなテーマは、人間が書いたコードの役割を再確立することであり、2億ドル以上の巨大企業LangchainからNvidiaが支援するVoyagerまで、コードの生成と再利用の重要性を示しています。 Prompt Engineering は過大評価され、かつ根強い人気を誇っていますが、ソフトウェア 3.0 アプリケーションにおけるソフトウェア 1.0 パラダイムの再出現は、大きなチャンスであり、多数のスタートアップ企業にとって新たなスペースを生み出します。

写真

人間のエンジニアが AI を活用する方法を学び、AI がエンジニアリング業務を引き継ぐようになると、将来的には、過去を振り返って両者の違いを見分けることが難しくなるでしょう。

<<: アルパカたちはどこまで来たのでしょうか？研究によると、最高のものはGPT-4のパフォーマンスの68%を達成できる。

>>: NTUと上海AIラボが300以上の論文をまとめました：Transformerベースの視覚セグメンテーションの最新レビューが公開されました