使用 Intel NPU 加速推理 LLM Model - TinyLlama

手邊有台搭載 Intel Core Ultra 的筆電
內含一顆 NPU 可以加速 AI 運算
所以就試著使用 NPU 來跑跑看 Model
NPU
打開工作管理員可以看到有顆名為 Intel® AI Boost 的 NPU,平時使用都不會使用到這顆 NPU,而今天就是要來玩玩看這顆 NPU。

Intel® AI Boost
根據 Intel 官網的數據,這顆 NPU 頻率有 1.4 GHz,也支援多個 AI 框架,決定就拿來跑個簡單的 Causal LLM。

Intel® AI Boost
安裝驅動
在使用之前我們需要先下載最新的 NPU 驅動,可以到這個網址 intel-npu-driver-windows 下載,下載好後我們將檔案解壓縮即可。

Intel NPU Driver
我們要先解除安裝舊版本的驅動,到開始搜尋裝置管理員並打開它,我們可以找到 Intel AI Boost,接著對它按右鍵,選擇解除安裝裝置,並按下解除安裝。


勾選選項,並解除安裝。

接著我們安裝新版本的驅動程式,我們先重新搜尋硬體。

找到有著驚嘆號的 PCI 裝置。

對著 PCI 裝置按右鍵,選擇更新驅動程式。

從電腦上瀏覽驅動,選擇剛剛解壓縮後的驅動資料夾,並安裝,這樣就大功告成了!


TinyLlama
考慮到不是用高級的 GPU 跑 inference,因此這邊用 Tiny Llama 來做範例:
Huggingface - TinyLlama-1.1B-Chat-v1.0
要使用到 NPU,我們要先安裝 intel_npu_acceleration_library 這個 Python Library:
pip install intel-npu-acceleration-library
以下為我使用的環境配置:
Name | Version |
---|---|
Python | 3.11 |
intel-npu-acceleration-library | 1.3.0 |
numpy | 1.26.4 |
transformers | 4.39.3 |
torch | 2.3.1 |
我們透過 AutoModelForCausalLM.from_pretrained
所得到的 model,再交給 intel_npu_acceleration_library 做 compile,讓他可以跑在我們 NPU 上面,最後透過 pipeline 來跑 tiny llama,中間使用到 chat template 來統一 model 的輸入。
Full Code:
import torch
import warnings
import intel_npu_acceleration_library
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
# suppress future warning
warnings.simplefilter(action="ignore", category=FutureWarning)
model_path = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
model = AutoModelForCausalLM.from_pretrained(model_path)
model = intel_npu_acceleration_library.compile(model, dtype=torch.float16)
tokenizer = AutoTokenizer.from_pretrained(model_path)
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
torch_dtype=torch.float16,
device_map="auto",
)
messages = [
{
"role": "system",
"content": "You are a friendly chatbot",
}
]
while True:
question = input("Q: ")
messages.append({"role": "user", "content": question})
outputs = pipe(
messages,
max_new_tokens=256,
do_sample=True,
temperature=0.7,
top_k=50,
top_p=0.95,
)
answer = outputs[0]["generated_text"][-1]
messages.append(answer)
print(f"A: {answer['content']}")
Output:
Q: What color is the sky?
A: The sky is typically blue in color, with varying shades of blue representing different parts of the sky. However, some clouds may be white, gray, or green, which can make the sky appear differently. The sky is typically the first thing a person sees in the morning or the last thing they see at night.
上述的回答耗時大約 16 秒,期間也能看到 NPU 有在運作:

Reference
- https://downloadmirror.intel.com/825735/NPU_Win_Release_Notes_v2540.pdf
- https://github.com/intel/intel-npu-acceleration-library
- https://huggingface.co/TinyLlama/TinyLlama-1.1B-Chat-v1.0
如果你覺得這篇文章有用 可以考慮贊助飲料給大貓咪