介绍

本项目实现算能BM1684X芯片部署各类开源生成式AI模型，其中以LLM为主。通过TPU-MLIR编译器将模型转换成bmodel，并采用c++代码将其部署到PCIE环境或者SoC环境。在知乎上写了一篇解读，以ChatGLM2-6B为例，方便大家理解源码：ChatGLM2流程解析与TPU-MLIR部署

我们已经部署过的开源模型如下（按照首字母顺序排列）：

Model	INT4	INT8	FP16/BF16	Huggingface Link
Baichuan2-7B		✅		LINK
ChatGLM3-6B	✅	✅	✅	LINK
CodeFuse-7B	✅	✅		LINK
DeepSeek-6.7B	✅	✅		LINK
Falcon-40B		✅	✅	LINK
Phi-3-mini-4k	✅	✅	✅	LINK
Qwen-7B	✅	✅	✅	LINK
Qwen-14B	✅	✅	✅	LINK
Qwen-72B	✅			LINK
Qwen1.5-0.5B	✅	✅	✅	LINK
Qwen1.5-1.8B	✅	✅	✅	LINK
Llama2-7B	✅	✅	✅	LINK
Llama2-13B	✅	✅	✅	LINK
LWM-Text-Chat	✅	✅	✅	LINK
Mistral-7B-Instruct	✅	✅		LINK
Stable Diffusion			✅	LINK
Stable Diffusion XL			✅	LINK
WizardCoder-15B	✅			LINK
Yi-6B-chat	✅	✅		LINK
Yi-34B-chat	✅	✅		LINK

如果您想要知道转换细节和源码，可以到本项目models子目录查看各类模型部署细节。

如果您想看看演示效果，可以根据Quick Start内容操作即可。

如果您对我们的芯片感兴趣，也可以通过官网SOPHGO联系我们。

Quick Start

如果您手上有1684X芯片的SoC板卡或者PCIE板卡，例如Airbox（SoC），那么可以参考以下步骤跑通大语言模型，这里以Llama2-7B为例。

另外SoC的执行步骤和PCIE的有些区别，PCIE必须要安装docker后才能运行，这里将其分开说明。

版本检查

在开始之前，首先要检查sophon-driver的版本是否符合条件

SoC如何执行版本检查

uname -v

之后，会显示类似这样的一个时间#2 SMP Sat Nov 18 10:07:36 HKT 2023，如果你的日期>=20240110，也就是比较新，那么跳过这一步，如果日期<20240110，也就是版本比较老，那么参考这个链接重新安装sdk，刷机包则用以下命令获取

pip3 install dfss
python3 -m dfss [email protected]:/ext_model_information/LLM/LLM-TPU/sdcard.tgz

PCIE如何执行版本检查

cat /proc/bmsophon/driver_version

之后，会显示类似这样的一个release daterelease version:0.5.0 release date: 20240304-175610，如果你的日期>=20240110，也就是比较新，那么跳过这一步，如果日期<20240110，也就是版本比较老，那么按照如下步骤重新安装driver

pip3 install dfss
python3 -m dfss [email protected]:/ext_model_information/LLM/LLM-TPU/sophon-driver_0.5.0_amd64.deb
python3 -m dfss [email protected]:/ext_model_information/LLM/LLM-TPU/sophon-libsophon-dev_0.5.0_amd64.deb
python3 -m dfss [email protected]:/ext_model_information/LLM/LLM-TPU/sophon-libsophon_0.5.0_amd64.deb

sudo apt remove sophon-driver sophon-libsophon
sudo dpkg -i sophon-*.deb

跑通Demo

SoC如何跑通Demo

1. 克隆LLM-TPU项目，并执行run.sh脚本

git clone https://github.com/sophgo/LLM-TPU.git
./run.sh --model llama2-7b

PCIE如何跑通Demo

1. 安装docker，并进入docker

docker pull sophgo/tpuc_dev:latest
docker run --privileged --name mlir -v /dev:/dev -v $PWD:/workspace -it sophgo/tpuc_dev:latest bash
docker exec -it mlir bash

2. 克隆LLM-TPU项目，并执行run.sh脚本

git clone https://github.com/sophgo/LLM-TPU.git
./run.sh --model llama2-7b

效果图

跑通后效果如下图所示

Command Table

目前用于演示的模型，全部命令如下表所示

Model	SoC	PCIE
ChatGLM3-6B	./run.sh --model chatglm3-6b --arch soc	./run.sh --model chatglm3-6b --arch pcie
Llama2-7B	./run.sh --model llama2-7b --arch soc	./run.sh --model llama2-7b --arch pcie
Qwen-7B	./run.sh --model qwen-7b --arch soc	./run.sh --model qwen-7b --arch pcie
LWM-Text-Chat	./run.sh --model lwm-text-chat --arch soc	./run.sh --model lwm-text-chat --arch pcie
WizardCoder-15B	./run.sh --model wizardcoder-15b --arch soc	./run.sh --model wizardcoder-15b --arch pcie

常见问题

Q1：如果我的BM1684X环境没有联网，那么怎么跑通大语言模型？

A：您可以先在联网的大机器上git clone本项目，之后运行 ./run.sh --model llama2-7b

然后把LLM-TPU的全部文件拷贝到Airbox上，必须要是全部文件，包括LLM-TPU/models和LLM-TPU/deploy

最后再在Airbox上运行 ./run.sh --model llama2-7b

Q2：为什么在PCIE模式下，我在docker里运行以后第一次输出会出现如下的warning？

Warning 部分：

[a53lite_runtime][error] open file /opt/sophon/libsophon-current/lib/tpu_module/libbm1684x_kernel_module.so error!!

[a53lite_runtime][error] /workspace/libsophon/bmlib/src/a53lite_api.cpp 488: load file failed! bm_module is null!

A：这是由于docker内部本身不具有libsophon导致的，解决方法为

pip3 install dfss
python3 -m dfss [email protected]:/ext_model_information/LLM/LLM-TPU/sophon-driver_0.5.0_amd64.deb
python3 -m dfss [email protected]:/ext_model_information/LLM/LLM-TPU/sophon-libsophon-dev_0.5.0_amd64.deb
python3 -m dfss [email protected]:/ext_model_information/LLM/LLM-TPU/sophon-libsophon_0.5.0_amd64.deb

sudo dpkg -i sophon-*.deb
source /etc/profile

完成上述步骤后，下次推理时此类warning将不会出现。

Q3：推理出来精度异常，输出全是“！”

A：可能是由于板子的tpu电压太低了，tpu降频就好了，降频命令如下

echo "setr tpll_clock 750000000" > /sys/kernel/debug/top/clock
echo "setr mpll_clock 1800000000" > /sys/kernel/debug/top/clock
echo "setr vpll_clock 100000000"> /sys/kernel/debug/top/clock

Name		Name	Last commit message	Last commit date
Latest commit History 256 Commits
assets		assets
harness		harness
models		models
support		support
.gitignore		.gitignore
.gitmodules		.gitmodules
README.md		README.md
envsetup.sh		envsetup.sh
run.sh		run.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

介绍

Quick Start

版本检查

SoC如何执行版本检查

PCIE如何执行版本检查

跑通Demo

SoC如何跑通Demo

1. 克隆LLM-TPU项目，并执行run.sh脚本

PCIE如何跑通Demo

1. 安装docker，并进入docker

2. 克隆LLM-TPU项目，并执行run.sh脚本

效果图

Command Table

常见问题

Q1：如果我的BM1684X环境没有联网，那么怎么跑通大语言模型？

Q2：为什么在PCIE模式下，我在docker里运行以后第一次输出会出现如下的warning？

Q3：推理出来精度异常，输出全是“！”

About

Releases

Packages

Languages

ZIFENG278/LLM-TPU

Folders and files

Latest commit

History

Repository files navigation

介绍

Quick Start

版本检查

SoC如何执行版本检查

PCIE如何执行版本检查

跑通Demo

SoC如何跑通Demo

1. 克隆LLM-TPU项目，并执行run.sh脚本

PCIE如何跑通Demo

1. 安装docker，并进入docker

2. 克隆LLM-TPU项目，并执行run.sh脚本

效果图

Command Table

常见问题

Q1：如果我的BM1684X环境没有联网，那么怎么跑通大语言模型？

Q2：为什么在PCIE模式下，我在docker里运行以后第一次输出会出现如下的warning？

Q3：推理出来精度异常，输出全是“！”

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages