fix: remove small --gpu-memory-utilization to avoid OOM due to vllm upgrade (#4899)

ziqifan617 · web-flow · commit 31f31e8e792e · 2025-12-11T19:25:33.000Z
Signed-off-by: Ziqi Fan &lt;ziqif@nvidia.com&gt;
diff --git a/examples/backends/vllm/deploy/agg_kvbm.yaml b/examples/backends/vllm/deploy/agg_kvbm.yaml
@@ -40,8 +40,6 @@ spec:
           args:
             - --model
             - Qwen/Qwen3-8B
-            - --gpu-memory-utilization
-            - "0.45"
             - --max-model-len
             - "32000"
             - --enforce-eager
diff --git a/examples/backends/vllm/deploy/disagg_kvbm.yaml b/examples/backends/vllm/deploy/disagg_kvbm.yaml
@@ -33,8 +33,6 @@ spec:
           args:
             - --model
             - Qwen/Qwen3-8B
-            - --gpu-memory-utilization
-            - "0.3"
             - --max-model-len
             - "32000"
             - --enforce-eager
@@ -65,8 +63,6 @@ spec:
             - --model
             - Qwen/Qwen3-8B
             - --is-prefill-worker
-            - --gpu-memory-utilization
-            - "0.3"
             - --max-model-len
             - "32000"
             - --enforce-eager
diff --git a/examples/backends/vllm/deploy/disagg_kvbm_2p2d.yaml b/examples/backends/vllm/deploy/disagg_kvbm_2p2d.yaml
@@ -33,8 +33,6 @@ spec:
           args:
             - --model
             - Qwen/Qwen3-8B
-            - --gpu-memory-utilization
-            - "0.3"
             - --max-model-len
             - "32000"
             - --enforce-eager
@@ -65,8 +63,6 @@ spec:
             - --model
             - Qwen/Qwen3-8B
             - --is-prefill-worker
-            - --gpu-memory-utilization
-            - "0.3"
             - --max-model-len
             - "32000"
             - --enforce-eager