浏览代码

禁用flashattention

lxylxy123321 1 周之前
父节点
当前提交
b8d6fd086b
共有 1 个文件被更改,包括 7 次插入0 次删除
  1. 7 0
      backend/app/engines/text_engine.py

+ 7 - 0
backend/app/engines/text_engine.py

@@ -1,3 +1,10 @@
+import os
+
+# 禁用 FlashAttention,解决沐曦显卡共享内存不足问题
+os.environ["FLASH_ATTENTION_ENABLED"] = "0"
+os.environ["PYTORCH_NO_FLASH"] = "1"
+os.environ["VLLM_ATTENTION_BACKEND"] = "NO_ATTENTION"
+
 import asyncio
 import json
 from pathlib import Path