fix scheduler_reserve_resource_ratio

xinfei-shi · xinfei-shi · commit 9fc9a39f9e52 · 2025-11-28T14:26:31.000+08:00
diff --git a/rtp_llm/config/gpt_init_model_parameters.py b/rtp_llm/config/gpt_init_model_parameters.py
@@ -349,7 +349,6 @@ class GptInitModelParameters:
     rotary_factor2: float
     partial_rotary_factor: float
     rotary_embedding_extrapolation_factor: float
-    scheduler_reserve_resource_ratio: int
     scoring_func: int
     seq_size_per_block: int
     size_per_head: int
@@ -1140,13 +1139,6 @@ def update_common(
             )
             logging.info(f"decode_entrance: {self.decode_entrance}")
 
-        self.scheduler_reserve_resource_ratio = int(
-            os.environ.get("SCHEDULER_RESERVE_RESOURCE_RATIO", 5)
-        )
-        logging.info(
-            f"scheduler_reserve_resource_ratio: {self.scheduler_reserve_resource_ratio}"
-        )
-
         self.reuse_cache = self.py_env_configs.py_kv_cache_config.reuse_cache
         logging.info(f"reuse_cache: {self.reuse_cache}")
         self.pre_allocate_op_mem = bool(int(os.environ.get("PRE_ALLOCATE_OP_MEM", 1)))
diff --git a/rtp_llm/cpp/config/GptInitParameter.h b/rtp_llm/cpp/config/GptInitParameter.h
@@ -209,7 +209,6 @@ class GptInitParameter {
     int64_t max_block_size_per_item_ = 16;
 
     int64_t block_nums_                       = 0;
-    int64_t scheduler_reserve_resource_ratio_ = 5;
     int64_t reserve_runtime_mem_mb_           = 0;
     int64_t kv_cache_mem_mb_                  = 0;
     bool    reuse_cache_                      = false;
diff --git a/rtp_llm/cpp/engine_base/schedulers/FIFOScheduler.cc b/rtp_llm/cpp/engine_base/schedulers/FIFOScheduler.cc
@@ -24,7 +24,7 @@ FIFOScheduler::FIFOScheduler(const rtp_llm::GptInitParameter&     params,
     need_fill_fake_stream_(params.dp_size_ > 1 && params.tp_rank_ == 0),
     fast_gen_max_context_len_(params.fast_gen_max_context_len_),
     metrics_reporter_(metrics_reporter) {
-    reserve_block_num_ = params.scheduler_reserve_resource_ratio_ * cache_manager->availableBlockNums() / 100;
+    reserve_block_num_ = params.fifo_scheduler_config.scheduler_reserve_resource_ratio * cache_manager->availableBlockNums() / 100;
     RTP_LLM_LOG_INFO("max_generate_batch_size is [%d], max_batch_tokens_size is [%d], reserve_block_num is [%d]",
                      max_generate_batch_size_,
                      max_batch_tokens_size_,
diff --git a/rtp_llm/cpp/model_rpc/DecodeRpcServer.cc b/rtp_llm/cpp/model_rpc/DecodeRpcServer.cc
@@ -90,7 +90,7 @@ void DecodeRpcServer::allocateResource(DecodeGenerateContext& decode_context) {
 
     auto cache_manager = engine_->resourceContext().cache_manager;
     auto reserve_block_num =
-        maga_init_params_.gpt_init_parameter.scheduler_reserve_resource_ratio_ * cache_manager->totalBlocks() / 100;
+        maga_init_params_.gpt_init_parameter.fifo_scheduler_config.scheduler_reserve_resource_ratio * cache_manager->totalBlocks() / 100;
     auto current_blocks = cache_manager->availableBlockNums();
     if (current_blocks < reserve_block_num) {
         string error_msg = "request: [" + decode_context.request_key + "] malloc kv cache block failed at decode node, "
diff --git a/rtp_llm/cpp/pybind/ConfigInit.cc b/rtp_llm/cpp/pybind/ConfigInit.cc
@@ -632,7 +632,6 @@ void registerGptInitParameter(py::module m) {
     DEF_PROPERTY(seq_size_per_block, seq_size_per_block_)                                                              \
     DEF_PROPERTY(max_block_size_per_item, max_block_size_per_item_)                                                    \
     DEF_PROPERTY(block_nums, block_nums_)                                                                              \
-    DEF_PROPERTY(scheduler_reserve_resource_ratio, scheduler_reserve_resource_ratio_)                                  \
     DEF_PROPERTY(kv_cache_mem_mb, kv_cache_mem_mb_)                                                                    \
     DEF_PROPERTY(reserve_runtime_mem_mb, reserve_runtime_mem_mb_)                                                      \
     DEF_PROPERTY(reuse_cache, reuse_cache_)                                                                            \
diff --git a/rtp_llm/ops/libth_transformer_config.pyi b/rtp_llm/ops/libth_transformer_config.pyi
@@ -439,7 +439,6 @@ class GptInitParameter:
     routed_scaling_factor: float
     sampler_config: SamplerConfig
     scheduler_config: SchedulerConfig
-    scheduler_reserve_resource_ratio: int
     scoring_func: int
     seq_size_per_block: int
     service_discovery_config: ServiceDiscoveryConfig