2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

実装のアイデアと手順

軽量 LLM モデル推論フレームワーク InferLLM を OpenHarmony 標準システムに移植し、OpenHarmony で実行できるバイナリ製品をコンパイルします。 (InferLLM は、量子化されたモデルを LLM にローカルに展開できるシンプルで効率的な LLM CPU 推論フレームワークです)

OpenHarmony NDK を使用して、OpenHarmony 上で InferLLM 実行可能ファイルをコンパイルします (具体的には、OpenHarmony lycium クロスコンパイル フレームワークを使用し、いくつかのスクリプトを記述します。次に、それらを tpc_c_cplusplusSIG リポジトリに保存します)。

DAYU200に大規模な言語モデルをローカルにデプロイする

InferLLM 3 パーティ ライブラリ コンパイル製品をコンパイルして取得する

OpenHarmony SDK をダウンロードするには、ダウンロード アドレス:

http://ci.openharmony.cn/workbench/cicd/dailybuild/dailyList

このリポジトリをダウンロードする

git clone https://gitee.com/openharmony-sig/tpc_c_cplusplus.git --depth=1
 # 设置环境变量export OHOS_SDK=解压目录/ohos-sdk/linux # 请替换为你自己的解压目录cd lycium ./build.sh InferLLM

InferLLM の 3 者ライブラリ ヘッダー ファイルと生成されたライブラリを取得します。

InferLLM-405d866e4c11b884a8072b4b30659c63555be41d ディレクトリは、コンパイルされた 32 ビットおよび 64 ビットのサードパーティ ライブラリを含む tpc_c_cplusplus/thirdparty/InferLLM/ ディレクトリに生成されます。 (関連するコンパイル結果は、lycium ディレクトリの下の usr ディレクトリにパッケージ化されません)。

 InferLLM-405d866e4c11b884a8072b4b30659c63555be41d/arm64-v8a-build InferLLM-405d866e4c11b884a8072b4b30659c63555be41d/armeabi-v7a-build

コンパイルされた製品ファイルとモデルファイルを開発ボードにプッシュして実行します。

  • モデルファイルのダウンロード: https://huggingface.co/kewin4933/InferLLM-Model/tree/main
  • InferLLMをコンパイルして生成されたllama実行ファイル、OpenHarmony SDKのlibc++_shared.so、およびダウンロードしたモデルファイルchinese-alpaca-7b-q4.binをフォルダllama_fileにパッケージ化します。
 # 将llama_file文件夹发送到开发板data目录hdc file send llama_file /data
 # hdc shell 进入开发板执行cd data/llama_file # 在2GB的dayu200上加swap交换空间# 新建一个空的ram_ohos文件touch ram_ohos # 创建一个用于交换空间的文件(8GB大小的交换文件) fallocate -l 8G /data/ram_ohos # 设置文件权限,以确保所有用户可以读写该文件: chmod 777 /data/ram_ohos # 将文件设置为交换空间: mkswap /data/ram_ohos # 启用交换空间: swapon /data/ram_ohos # 设置库搜索路径export LD_LIBRARY_PATH=/data/llama_file:$LD_LIBRARY_PATH # 提升rk3568cpu频率# 查看CPU 频率cat /sys/devices/system/cpu/cpu*/cpufreq/cpuinfo_cur_freq # 查看CPU 可用频率(不同平台显示的可用频率会有所不同) cat /sys/devices/system/cpu/cpufreq/policy0/scaling_available_frequencies # 将CPU 调频模式切换为用户空间模式,这意味着用户程序可以手动控制CPU 的工作频率,而不是由系统自动管理。这样可以提供更大的灵活性和定制性,但需要注意合理调整频率以保持系统稳定性和性能。 echo userspace > /sys/devices/system/cpu/cpufreq/policy0/scaling_governor # 设置rk3568 CPU 频率为1.9GHz echo 1992000 > /sys/devices/system/cpu/cpufreq/policy0/scaling_setspeed # 执行大语言模型chmod 777 llama ./llama -m chinese-alpaca-7b-q4.bin -t 4

InferLLM 三部ライブラリを移植して、OpenHarmmony デバイス rk3568 に大規模な言語モデルを展開し、人間とコンピューターの対話を実現します。最終的な実行効果は少し遅く、人間とコンピューターのダイアログボックスが少しゆっくりとポップアップするので、しばらくお待ちください。

<<:  GPT-4/Llama2のパフォーマンスを大幅に向上させるためにRLHFは必要ない、北京大学のチームはAlignerの新しいアライメントパラダイムを提案

>>:  OccNeRF: LIDARデータの監視は不要

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

早く来なさい!最初の Python チャットボット プロジェクトの構築

Python を使用すると、お客様専用のチャットボット プログラムの構築など、さまざまな目標を達成で...

...

自己注意メカニズムとは何ですか?

[[241487]]著者: キオン・キムマシンハートが編集参加者: Geek AI、Liu Xia...

農業革命:農業ロボットの台頭

近年、農業ロボットの登場により農業業界は大きな変化を遂げています。これらの最先端の機械は、作物の栽培...

ブロックチェーン技術を活用してディープフェイク動画の脅威に対抗する方法

デジタル革新が主流の時代において、ディープフェイク動画の増加は広く懸念されるようになっている。ディー...

顔認識アルゴリズムは人間の認識能力を超えている

コンピューター科学者たちは、人間自身よりも顔を識別できる新しい顔認識アルゴリズムを開発した。誰もが、...

高校生たちは皆ニューラルネットワークを勉強しており、教師である私は圧倒されています

[[356670]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

今度のブレイン・コンピューター・インターフェースは人間の脳内の画像をリアルタイムで読み取ることができるのでしょうか?

脳コンピューターインターフェースは、言語の読み取りに加えて、人間の脳内の画像をリアルタイムで読み取る...

人工知能を成功に導く8つのステップ

AI の実装は一度で終わるものではなく、幅広い戦略と継続的な調整のプロセスが必要です。ここでは、AI...

心配なことはまだ起こりました。プログラマーは、自分が書いた AI アルゴリズムが原因で解雇されたのです。

[[419510]]最近、ロシア人プログラマーが元雇用主を相手取り訴訟を起こし、職務の復職と精神的...

...

...

数学を使わずに円の面積を計算する方法

機械学習の手法を使用して円の面積を計算します。円の面積はいくらかと誰かに尋ねると、r²だと答えるでし...

人工知能は意識のギャップを埋めることができるか?

諺にもあるように、千人の読者には千のハムレットがあり、私たちにとって人工知能 (AI) も同じことが...

Raft アルゴリズムの原理と CMQ への応用 (パート 2)

CMQにおけるラフトの応用初期には、rabbitmqをベースにスケーラブルなメッセージミドルウェア...