大規模な言語モデルをローカルで実行する 5 つの簡単な方法

翻訳者 |陳俊

レビュー | Chonglou

今日では、ChatGPT や phind などの AI ベースのチャットボットが、私たちの生活のあらゆる面でさまざまな支援を提供できます。ただし、質問や機密データを外部アプリケーションで処理することを常に望んでいるわけではありません。特に一部のプラットフォームでは、AI とのやり取りがバックグラウンドで手動で監視され、将来のモデルのトレーニングに使用される可能性もあります。

自然な傾向としては、Large Language Model (LLM) をダウンロードして自分のマシンで実行することが考えられます。こうすることで、外部の企業があなたのデータにアクセスできなくなります。同時に、これはいくつかの新しいプロフェッショナルモデルを試してみるための迅速な試行錯誤の方法でもあります。たとえば、Meta は最近、プログラミング分野向けの Code Llama シリーズのモデルと、テキスト読み上げおよび言語翻訳用の SeamlessM4T をリリースしました。

「LLM をローカルで実行する」というのは複雑に聞こえるかもしれませんが、適切なツールがあれば驚くほど簡単です。多くのモデルはハードウェアに対する要求がそれほど高くないため、2 つのシステムでテストしました。これらは、 Intel i9プロセッサ、 64GBの RAM、 Nvidia GeForce 12GB GPUを搭載したDell PCと、 M1チップを搭載しているがRAM が16GBしかないMac です。

デスクトップハードウェアで実行できる適切なパフォーマンスのモデルを見つけるには、オープンソースモデルの継続的な反復を調査して追跡するのにある程度の時間が必要になる場合があることに注意してください。

1. GPT4Allを使用してローカルチャットボットを実行する

GPT4All は、Windows、macOS、Ubuntu 用のデスクトップクライアントのダウンロードと、システム上でさまざまなモデルを実行するオプションを提供します。全体的に、セットアップは複雑ではありません。

GPT4Allデスクトップアプリを初めて開くと、 Meta AIのモデルLlama-2-7B チャットなど、ダウンロードしてローカルで実行できるモデルオプションが約10 個(この記事の執筆時点では)表示されます。 APIキーをお持ちの場合は、 OpenAIのGPT-3.5およびGPT-4 (アクセスできる場合) を非ローカルで使用するように設定することもできます。

上の図は、 GPT4Allのモデルダウンロードインターフェースを示しています。アプリを開くと、事前にダウンロードしておいたモデルが自動的に表示されました。

モデルを設定すると、シンプルで使いやすいチャットボットインターフェースが表示されます。チャットの内容をクリップボードにコピーして返信を生成できるので便利です。

同時に、ローカルドキュメントと「チャット」できるLocalDocsプラグインの新しいベータバージョンも提供されます。「設定」 > 「プラグイン」タブで有効にできます。ここでは、「 LocalDocs プラグイン (ベータ版) 設定」の見出しと、特定のフォルダーパスの下にコレクションを作成するオプション。もちろん、プラグインはまだ開発中ですが、ドキュメントには、オープンソースモデルの機能が向上し続けるにつれて、これがさらに改善される興味深い機能であると記載されています。

チャットボットアプリケーションに加えて、GPT4All には Python、Node、およびコマンドラインインターフェイス (CLI) のバインディングも付属しています。同時に、GPT4All には、OpenAI に似た構造を持つ HTTP API を介してローカル LLM と対話できるサーバーモードもあります。ご覧のとおり、目標は、コードを数行変更するだけで、ローカル LLM をOpenAIのLLMに置き換えることができるようにすることです。

2. コマンドラインモードでの LLM

Simon Willisonが提供しているLLMは、オープンソースのLLM をローカルマシンにダウンロードして使用するための、私が知る限り最も簡単な方法の 1 つです。実行するにはPythonをインストールする必要がありますが、 Pythonコードに触れる必要はありません。 Macを使用していてHomebrewがインストールされている場合は、次のコマンドを実行します。

 brew install llm

Windowsを使用している場合は、 Pythonライブラリをインストールして次のように入力します。

 pip install llm

LLM はデフォルトでOpenAIモデルを使用しますが、プラグインを使用して他のモデルをローカルで実行することもできます。たとえば、 GPT4Allプラグインをインストールすると、 GPT4All内の他のローカルモデルにアクセスできます。さらに、 llama にはMLCプロジェクト、 MPT-30B 、その他のリモートモデル用のプラグインがあります。

コマンドラインからプラグインをインストールするには、 llm install model-nameの形式を使用します。例えば：

 llm install llm-gpt4all

次に、コマンドllm models listを使用して、使用可能なすべてのリモートモデルまたはインストール済みモデルを表示できます。以下のリストに示すように、各モデルに関する簡単な情報も含まれています。

次の構文を使用して、ローカルLLMにクエリ要求を送信できます。

 llm -m the-model-name "Your query"

次に、 ChatGPTの場合と同様の質問をしましたが、モデルをダウンロードするための別のコマンドを発行しませんでした。

 llm -m ggml-model-gpt4all-falcon-q4_0 "Tell me a joke about computer programming"

GPT4Allモデルがローカルシステムに存在しない場合は、クエリを実行する前にLLMツールによって自動的にダウンロードされることに注意してください。また、モデルのダウンロード中は、ターミナルに次のような進行状況バーが表示されます。

モデルのジョークは、「なぜプログラマーはコンピュータの電源を切ったのか？コンピュータがまだ動いているかどうかを確認したかったからだ！」というものでした。これは、インタラクションが成功したことを証明しています。結果が満足のいくものではないと感じた場合は、 LLMツールではなく、モデル自体または情報が不足しているユーザープロンプトが原因です。

LLMでモデルのエイリアスを設定して、より短い名前で参照することもできます。

 llm aliases set falconggml-model-gpt4all-falcon-q4_0

完了したら、「 llm aliases 」と入力して、使用可能なすべてのエイリアスを表示できます。

対照的に、Meta Llama モデルの LLM プラグインでは、GPT4All よりも多くのセットアップが必要です。詳細については、LLM プラグインの GitHub リポジトリ (https://github.com/simonw/llm-llama-cpp) をご覧ください。汎用の llama-2-7b-chat は私の Mac 上で動作しますが、GPT4All モデルよりも動作が遅いことに注意してください。

もちろん、LLM には、以前のチャットから続行して Python スクリプトで使用できるパラメーターフラグなどの他の機能もあります。 9 月初旬、このアプリには、関連文書の検索に使用できるテキストの意味のデジタル表現である生成テキスト埋め込みツールが追加されました。詳細については、LLM の Web サイトをご覧ください。

3. Mac上のラマモデル: Ollama

Ollama はLLMよりもモデルをダウンロードして実行する簡単な方法ですが、制限もより多くあります。現在、 macOS版とLinux版があり、 Windows版も近日中にリリースされる予定です。

上の写真のように、数回クリックするだけでインストールを完了できます。 Ollamaはコマンドラインツールですが、構文コマンドはollama run model-name の1 つだけです。 LLMと同様に、必要なモデルがシステムにまだ存在しない場合は、自動的にダウンロードされます。

利用可能なモデルのリストはhttps://ollama.ai/libraryで確認できます。本稿執筆時点では、General Llama 2 、 Code Llama 、特定のプログラミングタスク向けにDeepSEによって微調整されたCodeUp 、医療に関する質問への回答などに微調整されたmedllama2など、 Llamaベースのモデルの複数のバージョンが含まれています。

GitHub リポジトリのOllam a の README には、さまざまなモデルと仕様がリストされており、「3B モデルを実行するには、少なくとも 8GB のメモリが必要です。7Bモデルを実行するには、少なくとも16GBのメモリが必要です。13B モデルを実行するには、少なくとも32GBのメモリが必要です」と示されています。 16GBの RAMを搭載した私のMacでは、 7B Code Llama は非常に高速に動作します。プロフェッショナル側では、 bash/zsh シェルコマンドだけでなく、 PythonやJavaScriptなどのプログラミング言語に関する質問にも答えることができます。

上の画像は、 OllamaターミナルウィンドウでCode Llamaを実行したときの外観を示しています。たとえば、 Rコードの質問の場合: 「棒がスチールブルーに着色されたggplot2棒グラフのRコードを記述してください」。大型モデルの多くは質問に完全に答えることができませんが、 Code Llamaはシリーズの中で最も小さいモデルであるにもかかわらず、質問に非常によく答えます。配信されたコードは基本的に正しいものでしたが、2 行のコードに 2 つの余分な括弧がありましたが、これは統合開発環境 (IDE) で簡単に発見できました。

Ollama には、LangChain との統合 (https://www.infoworld.com/article/3705097/a-brief-guide-to-langchain-for-software-developers.html) や PrivateGPT で実行する機能など、いくつかの追加機能があります。もちろん、GitHub リポジトリのチュートリアルページを確認しなければ、これらの機能は明らかではないかもしれません。

4. 自分のファイルでチャット: h2oGPT

長年にわたり自動機械学習の分野に深く関わってきたH2O.aiが、チャットLLMトラックに参入しました。 h2oGPT チャットデスクトップアプリケーションのベータ版は、初心者でも簡単にインストールして使用できます。

インターフェースに慣れるには、https://gpt.h2o.ai/ Web サイトのデモバージョンにアクセスしてください (ローカルシステムの LLM ではないことに注意してください)。ローカルバージョンを取得するには、GitHub リポジトリをクローンし、Python 仮想環境を作成してアクティブ化し、README ファイル内の 5 行のコードを実行する必要があります。ドキュメントによると、結果には「限定されたドキュメント Q/A 機能」と Meta の Llama モデルが提供されます。

次のコードを実行すると、 http://localhost:7860でLlamaモデルバージョンとアプリケーションをダウンロードできます。

 python generate.py --base_model='llama' --prompt_type=llama2

独自のファイルを追加しなくても、アプリを通常のチャットボットとして使用できます。もちろん、いくつかのファイルをアップロードし、ファイルの内容に基づいて質問することもできます。互換性のあるファイル形式には、 PDF 、 Excel 、 CSV 、 Word 、テキスト、マークダウンなどがあります。上の図は、 VS Codeドキュメントに基づいて質問に答えるローカルLLaMaモデルのスクリーンショットを示しています。

h2oGPTテストプログラムは私の16GB Macで問題なく動作しますが、有料のGPT- 4を使用したChatGPTほど良くはありません。さらに、下の図に示すように、 h2oGPTユーザーインターフェイスにはエキスパートタブもあり、プロのユーザーに多くの構成および結果改善オプションを提供します。

アプリをより細かく制御し、より多くのモデルから選択できるようにしたい場合は、アプリのフルバージョンをダウンロードできます。 README には、Windows、macOS、Linux へのインストールに関するさまざまな手順が記載されています。もちろん、ハードウェアの制限も考慮する必要があります。既存のGPUでは、かなり大きなモデルを実行するにはパワーが足りないことが判明しました。

5.シンプルだが遅いデータチャットのためのPrivateGPT

PrivateGPT を使用すると、自然言語を使用して独自のドキュメントをクエリし、生成 AI からの応答を取得できます。アプリケーションのドキュメントには、数十種類の異なる形式が含まれる場合があります。 README には、「 100%プライベートであり、データが環境外に漏れることはありません。インターネットに接続しなくても、ドキュメントを入力したり質問したりできます。」と保証されています。

PrivateGPT はスクリプトを通じてデータファイルを取り込み、それをさまざまなチャンクに分割して「埋め込み」（つまり、テキストの意味の数値表現）を作成し、これらの埋め込みをローカルのChromeベクトルに保存します。質問すると、アプリは関連するドキュメントを検索し、 LLMに送信して回答を生成します。

PythonとPythonプロジェクトの構築方法に精通している場合は、 PrivateGPTライブラリの完全なセットをクローンし、リンクhttps://github.com/imartinez/privateGPTを介してローカルで実行できます。もちろん、 Python をよく知らない場合は、 Iván Martínez がワークショップで構築したプロジェクトの簡易版を参照できます。このバージョンでは、セットアップがはるかにシンプルになっています。 READMEファイルには詳細な手順が記載されています。ライブラリに付属するsource_documentsフォルダーには、 Penpot (翻訳者注: クロスドメインチーム向けのオープンソースの設計およびプロトタイピングツール) ドキュメントが多数含まれていますが、それらを削除して独自のドキュメントを追加できます。

ただし、 PrivateGPTのドキュメントでは、実稼働環境には適していないと警告されています。結局、ローカルで実行すると、比較的遅くなります。

6. 地元のLLMへの道が広がる

実際、 LLM をローカルで実行する方法は 5 つ以上あります。ただし、他のデスクトップアプリケーションでは、多くの場合、最初からスクリプトを作成する必要があり、セットアップの複雑さもさまざまです。

たとえば、 PrivateGPTの派生である LocalGPT には、より多くのモデルオプションが含まれており、詳細な手順と操作ビデオが提供されます。 PrivateGPT と同様に、インストールとセットアップの容易さについては賛否両論ある一方で、ドキュメントでは「 CPUのみの環境では速度が遅くなる」と警告されています。

私が試したもう一つのデスクトップアプリはLM Studio です。シンプルで使いやすいチャットインターフェースを提供するだけでなく、モデル選択においてユーザーにさらなる自律性を与えます。中でも、Hugging Face HubはLM Studioのモデルの主な提供元であり、ダウンロード可能なモデルが多数あります。

下の図に示すように、 LM Studio は美しくシンプルなインターフェースを提供します。ただし、この記事の執筆時点では、ユーザーインターフェイスには、独自のデータを実行するためのLLMの組み込みオプションはまだ提供されていません。

リファレンスドキュメントに記載されているように、 OpenAI APIの代替として使用できる組み込みサーバーが付属しているため、 APIを介してOpenAIモデルを呼び出すように記述されたコードは、選択したローカルモデルで実行できます。

LM StudioのコードはGitHubによって提供されていないため、 h2oGPTと同様に、 Windowsにインストールするときに「これは未検証のアプリケーションです」という警告が表示されます。

h2oGPTなどのアプリケーションを通じて事前に構築されたモデルのダウンロードインターフェイスを使用するだけでなく、 Hugging Faceからさまざまなモデルを直接ダウンロードして実行することもできます。これは多くのLLMを含む AI プラットフォームおよびコミュニティです。さらに、 Hugging Face では、利用可能なモデルをローカルにインストールして実行する方法に関するドキュメントも提供しています。これはhttps://huggingface.co/docs/transformers/installation で参照できます。

もう 1 つの一般的な方法は、LangChain で LLM をローカルにダウンロードして使用することです。これは、エンドツーエンドの生成 AI アプリケーションを作成するためのフレームワークです。 LangChainの基礎についてはhttps://www.infoworld.com/article/3705097/a-brief-guide-to-langchain-for-software-developers.htmlで学習できます。また、Hugging API についてはhttps://python.langchain.com/docs/integrations/llms/huggingface_pipelinesで確認できます。 Face ローカルパイプラインの関連コンテンツ。

さらに、 OpenLLM は、開発者が LLM ベースのアプリケーションを運用環境に導入するのに役立つ、もう 1 つの強力な独立プラットフォームです。