加速大型語言模型:運用 ONNX 格式推理和 KV Cache 的使用
使用 LLM 來 Inference 相信大家都玩過
但有使用過 ONNX 格式來跑看看嗎?
使用 LLM 來 Inference 相信大家都玩過
但有使用過 ONNX 格式來跑看看嗎?
因為工作需求對 decorator 研究了一下
將結果整理紀錄在這邊
Markdown + Mindmap = Markmap
我想知道目前電腦的下載速率
所以就跑來研究這個了
手邊有台搭載 Intel Core Ultra 的筆電
內含一顆 NPU 可以加速 AI 運算
所以就試著使用 NPU 來跑跑看 Model
寫了一個將圖片轉成 PDF 的 Python 工具
但實在是不想要每次下指令執行
也不想要輸入檔案路徑
索性找了個方法在檔案右鍵選單上加上了選項來快速執行