目錄

廣告 AD

使用 Intel NPU 加速推理 LLM Model - TinyLlama

手邊有台搭載 Intel Core Ultra 的筆電

內含一顆 NPU 可以加速 AI 運算

所以就試著使用 NPU 來跑跑看 Model

廣告 AD

打開工作管理員可以看到有顆名為 Intel® AI Boost 的 NPU,平時使用都不會使用到這顆 NPU,而今天就是要來玩玩看這顆 NPU。

Intel® AI Boost


根據 Intel 官網的數據,這顆 NPU 頻率有 1.4 GHz,也支援多個 AI 框架,決定就拿來跑個簡單的 Causal LLM。

Intel® AI Boost


在使用之前我們需要先下載最新的 NPU 驅動,可以到這個網址 intel-npu-driver-windows 下載,下載好後我們將檔案解壓縮即可。

Intel NPU Driver

我們要先解除安裝舊版本的驅動,到開始搜尋裝置管理員並打開它,我們可以找到 Intel AI Boost,接著對它按右鍵,選擇解除安裝裝置,並按下解除安裝。

勾選選項,並解除安裝。

接著我們安裝新版本的驅動程式,我們先重新搜尋硬體。

找到有著驚嘆號的 PCI 裝置。

對著 PCI 裝置按右鍵,選擇更新驅動程式。

從電腦上瀏覽驅動,選擇剛剛解壓縮後的驅動資料夾,並安裝,這樣就大功告成了!


考慮到不是用高級的 GPU 跑 inference,因此這邊用 Tiny Llama 來做範例:

Huggingface - TinyLlama-1.1B-Chat-v1.0


要使用到 NPU,我們要先安裝 intel_npu_acceleration_library 這個 Python Library:

shell

pip install intel-npu-acceleration-library

以下為我使用的環境配置:

NameVersion
Python3.11
intel-npu-acceleration-library1.3.0
numpy1.26.4
transformers4.39.3
torch2.3.1

我們透過 AutoModelForCausalLM.from_pretrained 所得到的 model,再交給 intel_npu_acceleration_library 做 compile,讓他可以跑在我們 NPU 上面,最後透過 pipeline 來跑 tiny llama,中間使用到 chat template 來統一 model 的輸入。


Full Code:

Python

import torch
import warnings
import intel_npu_acceleration_library
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline

# suppress future warning
warnings.simplefilter(action="ignore", category=FutureWarning)

model_path = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"

model = AutoModelForCausalLM.from_pretrained(model_path)
model = intel_npu_acceleration_library.compile(model, dtype=torch.float16)
tokenizer = AutoTokenizer.from_pretrained(model_path)
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.float16,
    device_map="auto",
)

messages = [
    {
        "role": "system",
        "content": "You are a friendly chatbot",
    }
]

while True:
    question = input("Q: ")
    messages.append({"role": "user", "content": question})

    outputs = pipe(
        messages,
        max_new_tokens=256,
        do_sample=True,
        temperature=0.7,
        top_k=50,
        top_p=0.95,
    )
    answer = outputs[0]["generated_text"][-1]
    messages.append(answer)
    print(f"A: {answer['content']}")

Output:

shell

Q: What color is the sky? 
A: The sky is typically blue in color, with varying shades of blue representing different parts of the sky. However, some clouds may be white, gray, or green, which can make the sky appear differently. The sky is typically the first thing a person sees in the morning or the last thing they see at night.

上述的回答耗時大約 16 秒,期間也能看到 NPU 有在運作:



廣告 AD