ModelTC
diff --git a/‎lightllm/common/basemodel/infer_struct.py‎
Lines changed: 3 additions & 0 deletions b/‎lightllm/common/basemodel/infer_struct.py‎
Lines changed: 3 additions & 0 deletions
diff --git a/‎lightllm/models/qwen3next/layer_infer/transformer_layer_infer.py‎
Lines changed: 1 addition & 2 deletions b/‎lightllm/models/qwen3next/layer_infer/transformer_layer_infer.py‎
Lines changed: 1 addition & 2 deletions
diff --git a/‎lightllm/models/qwen3next/mem_manager.py‎
Lines changed: 7 additions & 23 deletions b/‎lightllm/models/qwen3next/mem_manager.py‎
Lines changed: 7 additions & 23 deletions
diff --git a/‎lightllm/models/qwen3next/model.py‎
Lines changed: 14 additions & 11 deletions b/‎lightllm/models/qwen3next/model.py‎
Lines changed: 14 additions & 11 deletions
diff --git a/‎lightllm/models/qwen3next/req_manager.py‎
Lines changed: 0 additions & 42 deletions b/‎lightllm/models/qwen3next/req_manager.py‎
Lines changed: 0 additions & 42 deletions
diff --git a/‎lightllm/server/core/objs/start_args_type.py‎
Lines changed: 0 additions & 2 deletions b/‎lightllm/server/core/objs/start_args_type.py‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎lightllm/server/router/dynamic_prompt/hybrid_radix_cache.py‎
Lines changed: 124 additions & 0 deletions b/‎lightllm/server/router/dynamic_prompt/hybrid_radix_cache.py‎
Lines changed: 124 additions & 0 deletions
diff --git a/‎lightllm/server/router/dynamic_prompt/radix_cache.py‎
Lines changed: 6 additions & 0 deletions b/‎lightllm/server/router/dynamic_prompt/radix_cache.py‎
Lines changed: 6 additions & 0 deletions
diff --git a/‎lightllm/server/router/model_infer/infer_batch.py‎
Lines changed: 7 additions & 17 deletions b/‎lightllm/server/router/model_infer/infer_batch.py‎
Lines changed: 7 additions & 17 deletions
diff --git a/‎lightllm/server/router/model_infer/mode_backend/__init__.py‎
Lines changed: 0 additions & 1 deletion b/‎lightllm/server/router/model_infer/mode_backend/__init__.py‎
Lines changed: 0 additions & 1 deletion
@@ -88,6 +88,9 @@ def __init__(self):
         self.dp_output_split_sizes: List[List[int]] = None
         self.dp_input_split_sizes: List[List[int]] = None
 
+        # 专门用于管理混合注意力模型的buffer
+        self.buffer_indexes: torch.Tensor = None
+
     def init_some_extra_state(self, model, input_ids: torch.Tensor):
         if self.is_prefill:
             (
 
@@ -7,7 +7,6 @@
 from lightllm.utils.log_utils import init_logger
 from lightllm.common.fused_moe.moe_silu_and_mul import silu_and_mul_fwd
 from lightllm.models.qwen3next.mem_manager import Qwen3NextMemoryManager
-from lightllm.models.qwen3next.req_manager import Qwen3NextReqManager
 from lightllm.models.llama.infer_struct import LlamaInferStateInfo
 from typing import Tuple
 from typing_extensions import override
@@ -250,7 +249,7 @@ def _linear_attn(
     ):
         assert layer_weight.is_linear, "layer_weight must be linear"
         assert isinstance(infer_state.mem_manager, Qwen3NextMemoryManager)
-        assert isinstance(infer_state.req_manager, Qwen3NextReqManager)
+
         input = input.view(-1, infer_cls.embed_dim_)
         buffer_idx = infer_state.req_manager.req_to_buffer_indexes[infer_state.b_req_idx]
         conv_states, ssm_states = infer_state.mem_manager.get_state_cache_buffer(self.layer_idx_)
 
@@ -9,6 +9,7 @@
 from lightllm.utils.envs_utils import get_unique_server_name
 from lightllm.utils.dist_utils import get_current_rank_in_node
 from lightllm.server.router.dynamic_prompt.shared_arr import SharedInt
+from lightllm.server.router.dynamic_prompt.hybrid_radix_cache import HybridMemManager
 
 logger = init_logger(__name__)
 
@@ -34,24 +35,7 @@ def get_cell_size(self):
         return np.prod(self.shape) * self.layer_num * torch._utils._element_size(self.dtype)
 
 
-class HaveStateBuffer(Protocol):
-    def alloc_state_cache_buffer(self, need_size):
-        ...
-
-    def free_state_cache_buffer(self, free_buffer_indexes):
-        ...
-
-    def get_state_cache_buffer(self, layer_index):
-        ...
-
-    def get_state_cache_can_use_size(self):
-        ...
-
-    def copy_state_cache_buffer(self, src_idx, tgt_idx):
-        pass
-
-
-class Qwen3NextMemoryManager(MemoryManager, HaveStateBuffer):
+class Qwen3NextMemoryManager(HybridMemManager):
     def __init__(
         self,
         full_attn_cache_size,
@@ -121,32 +105,32 @@ def free_all(self):
         return
 
     @override
-    def get_state_cache_buffer(self, layer_index) -> Tuple[torch.Tensor, torch.Tensor]:
+    def get_buffer(self, layer_index) -> Tuple[torch.Tensor, torch.Tensor]:
         assert layer_index < self.layer_num, "layer_index is out of range"
         assert (layer_index + 1) % self.full_attention_interval != 0, "layer_index is not linear attention layer"
         real_layer_index = layer_index - layer_index // self.full_attention_interval
         return self.conv_state_mem_manager.buffer[real_layer_index], self.ssm_state_mem_manager.buffer[real_layer_index]
 
     @override
-    def free_state_cache_buffer(self, free_buffer_indexes: List[int], reset=True):
+    def free_buffer(self, free_buffer_indexes: List[int], reset=True):
         # conv_state 和 ssm_state 共享buffer_idx
         self.conv_state_mem_manager.free(free_buffer_indexes)
         if reset:
             self.conv_state_mem_manager.buffer[:, free_buffer_indexes] = 0
             self.ssm_state_mem_manager.buffer[:, free_buffer_indexes] = 0
 
     @override
-    def alloc_state_cache_buffer(self, need_size):
+    def alloc_buffer(self, need_size):
         # conv_state 和 ssm_state 共享buffer_idx
         buffer_indexes = self.conv_state_mem_manager.alloc(need_size)
         return buffer_indexes
 
     @override
-    def get_state_cache_can_use_size(self):
+    def get_buffer_can_use_size(self):
         return self.conv_state_mem_manager.can_use_mem_size
 
     @override
-    def copy_state_cache_buffer(self, src_idx, tgt_idx):
+    def copy_buffer(self, src_idx, tgt_idx):
         assert src_idx is not None and tgt_idx is not None
         assert src_idx != tgt_idx
         # Use slice operation and in-place copy for better performance
 
@@ -9,8 +9,8 @@
 from lightllm.distributed.communication_op import dist_group_manager
 from lightllm.utils.envs_utils import get_env_start_args
 from lightllm.models.qwen3next.mem_manager import Qwen3NextMemoryManager
-from lightllm.models.qwen3next.req_manager import Qwen3NextReqManager
 from lightllm.server.core.objs.start_args_type import StartArgs
+from lightllm.common.basemodel.batch_objs import ModelInput, ModelOutput
 
 logger = init_logger(__name__)
 
@@ -25,6 +25,7 @@ class Qwen3NextTpPartModel(Qwen3MOEModel):
     post_layer_infer_class = Qwen3NextPostLayerInfer
 
     def __init__(self, kvargs) -> None:
+        self.mem_manager: Qwen3NextMemoryManager = None
         super().__init__(kvargs)
 
     @override
@@ -85,13 +86,15 @@ def _init_mem_manager(self):
             mem_fraction=self.mem_fraction,
         )
 
-    @override
-    def _init_req_manager(self):
-        create_max_seq_len = 0
-
-        if self.batch_max_tokens is not None:
-            create_max_seq_len = max(create_max_seq_len, self.batch_max_tokens)
-        if self.max_seq_length is not None:
-            create_max_seq_len = max(create_max_seq_len, self.max_seq_length)
-
-        self.req_manager = Qwen3NextReqManager(self.max_req_num, create_max_seq_len, self.mem_manager)
+    def _create_inferstate(self, model_input: ModelInput, microbatch_index: int = 0):
+        from lightllm.common.basemodel.infer_lock import g_infer_state_lock
+        from lightllm.common.basemodel.infer_context import g_infer_context
+
+        infer_state = super()._create_inferstate(model_input, microbatch_index)
+        g_infer_state_lock.acquire()
+        if g_infer_context.radix_cache is not None:
+            g_infer_context.radix_cache.free_radix_cache_to_get_enough_buffer(infer_state.batch_size)
+        buffer_indexes = self.mem_manager.alloc_buffer(infer_state.batch_size)
+        g_infer_state_lock.release()
+        infer_state.buffer_indexes = buffer_indexes
+        return infer_state
@@ -63,8 +63,6 @@ class StartArgs:
     token_healing_mode: bool = field(default=False)
     output_constraint_mode: str = field(default="none", metadata={"choices": ["outlines", "xgrammar", "none"]})
     first_token_constraint_mode: bool = field(default=False)
-    enable_multimodal: bool = field(default=False)
-    enable_multimodal_audio: bool = field(default=False)
     enable_tpsp_mix_mode: bool = field(default=False)
     enable_dp_prefill_balance: bool = field(default=False)
     enable_decode_microbatch_overlap: bool = field(default=False)
 
@@ -0,0 +1,124 @@
+from typing import Set, Protocol, List
+
+import torch
+from sortedcontainers import SortedSet
+
+from lightllm.server.router.dynamic_prompt.radix_cache import RadixCache, TreeNode
+from lightllm.common.kv_cache_mem_manager.mem_manager import MemoryManager
+from lightllm.server.router.model_infer.infer_batch import InferReq
+
+
+class HybridMemManager(MemoryManager):
+    def alloc_buffer(self, need_size):
+        ...
+
+    def free_buffer(self, free_buffer_indexes):
+        ...
+
+    def get_buffer(self, layer_index):
+        ...
+
+    def get_buffer_can_use_size(self):
+        ...
+
+    def copy_buffer(self, src_idx, tgt_idx):
+        ...
+
+
+class HybridRadixCache(RadixCache):
+    def __init__(self, unique_name, total_token_num, rank_in_node, mem_manager=None):
+        self.mem_manager: HybridMemManager = mem_manager
+        super().__init__(unique_name, total_token_num, rank_in_node, mem_manager)
+        self.evict_buffer_set: Set[TreeNode] = SortedSet(key=lambda x: x.time_id)
+        self.evict_buffer_set.add(self.root_node)
+
+    def free_radix_cache_to_get_enough_buffer(self, need_buffer_num):
+        if need_buffer_num > self.mem_manager.get_buffer_can_use_size():
+            need_evict_buffer_num = need_buffer_num - self.mem_manager.get_buffer_can_use_size()
+
+            release_mems = []
+
+            def release_mem(mem_index):
+                release_mems.append(mem_index)
+                return
+
+            release_buffers = []
+
+            def release_buffer(buffer_idx):
+                release_buffers.append(buffer_idx)
+                return
+
+            self.evict_buffer(need_evict_buffer_num, release_buffer, release_mem)
+            self.mem_manager.free_buffer(release_buffers)
+            if len(release_mems) > 0:
+                mem_index = torch.concat(release_mems)
+                self.mem_manager.free(mem_index)
+        return
+
+    def evict_buffer(self, need_evict_buffer_num, evict_buffer_callback, evict_token_callback):
+        while need_evict_buffer_num > 0:
+            node = self.evict_buffer_set.pop()
+            if node.buffer_idx is not None:
+                evict_buffer_callback(node.buffer_idx)
+                need_evict_buffer_num -= 1
+            else:
+                # 在混合注意力模型的情景里，只能匹配 buffer_idx 不为 None的节点
+                # 假如 buffer_idx 为 None，则当做匹配失败。
+                # 所以可以直接把这个节点给释放掉
+                if node.is_leaf() and node.ref_counter == 0:
+                    self._remove_leaf_node(node)
+        return
+
+    def insert_for_hybrid_radix_cache(self, reqs: List["InferReq"]):
+        from lightllm.server.router.model_infer.infer_batch import g_infer_context
+        from lightllm.common.basemodel.infer_lock import g_infer_state_lock
+
+        # 确保有足够的空间用于新的 buffer
+        g_infer_state_lock.acquire()
+        self.free_radix_cache_to_get_enough_buffer(len(reqs))
+        new_buffer_indexes = self.mem_manager.alloc_buffer(len(reqs))
+        g_infer_state_lock.release()
+
+        for i, req in enumerate(reqs):
+            input_token_ids = req.get_input_token_ids()
+            key = torch.tensor(input_token_ids[0 : req.cur_kv_len], dtype=torch.int64, device="cpu")
+            value = g_infer_context.req_manager.req_to_token_indexs[req.req_idx][: req.cur_kv_len].cpu()
+            buffer_idx = req.buffer_idx
+
+            # 分配新的 buffer 并复制当前 buffer 的内容
+            self.mem_manager.copy_buffer(buffer_idx, new_buffer_indexes[i])
+            req.buffer_idx = new_buffer_indexes[i]
+
+            _, new_shared_kv_node = self.insert(key, value)
+            new_shared_kv_node.buffer_idx = buffer_idx
+            self.dec_node_ref_counter(req.shared_kv_node)
+            self.add_node_ref_counter(new_shared_kv_node)
+            req.shared_kv_node = new_shared_kv_node
+
+    def match_prefix(self, key, update_refs=False):
+        assert len(key) != 0
+        ans_value_list = []
+        tree_node = self._match_prefix_helper(self.root_node, key, ans_value_list, update_refs=update_refs)
+
+        while tree_node != self.root_node and tree_node.buffer_idx is None:
+            self.dec_node_ref_counter(tree_node)
+            if tree_node.is_leaf() and tree_node.ref_counter == 0:
+                tree_node = self._remove_leaf_node(tree_node)
+            else:
+                tree_node = tree_node.parent
+            ans_value_list.pop()
+
+        if tree_node == self.root_node:
+            return None, 0, None
+
+        value = torch.concat(ans_value_list)
+        return tree_node, len(value), value
+
+    def _remove_leaf_node(self, node: TreeNode):
+        self.evict_tree_set.discard(node)
+        self.tree_total_tokens_num.arr[0] -= len(node.token_mem_index_value)
+        parent_node: TreeNode = node.parent
+        parent_node.remove_child(node)
+        if parent_node.is_leaf():
+            self.evict_tree_set.add(parent_node)
+        return parent_node
@@ -31,6 +31,12 @@ def __init__(self):
         self.node_value_len = 0
         self.node_prefix_total_len = 0
 
+        # 专门用于管理混合注意力模型（例如 Qwen3Next），
+        # 该类模型每个请求需要管理一个唯一的buffer_idx，
+        # 放在这里让该类模型能够复用当前的radix_cache代码。
+        # 纯注意力模型该 buffer_idx 始终保持为 None
+        self.buffer_idx = None
+
     def get_compare_key(self):
         return (0 if self.ref_counter == 0 else 1, len(self.children), self.time_id)
 
 
@@ -113,10 +113,8 @@ def free_a_req_mem(self, free_token_index: List, req: "InferReq"):
             # .cpu() 是 流内阻塞操作
             value = self.req_manager.req_to_token_indexs[req.req_idx][: req.cur_kv_len].detach().cpu()
 
-            buffer_idx = None
-            if hasattr(self.req_manager, "req_to_buffer_indexes"):
-                buffer_idx = self.req_manager.req_to_buffer_indexes[req.req_idx].cpu()
-            prefix_len, _ = self.radix_cache.insert(key, value, buffer_idx=buffer_idx)
+            prefix_len, node = self.radix_cache.insert(key, value)
+            node.buffer_idx = req.buffer_idx
             old_prefix_len = 0 if req.shared_kv_node is None else req.shared_kv_node.node_prefix_total_len
             free_token_index.append(self.req_manager.req_to_token_indexs[req.req_idx][old_prefix_len:prefix_len])
             if req.shared_kv_node is not None:
@@ -345,6 +343,10 @@ def __init__(
         self.nixl_pd_task_failed_num: int = 0
         self.nixl_trans_device_id: int = -1
 
+        # 可以用于请求在整个生命周期维护单一大小的buffer的场景
+        # 例如混合注意力模型 Qwen3Next
+        self.buffer_idx = -1
+
         # 在开启 enable_cpu_cache 的情况下，当请求结束后，会将请求的 kv cache
         # 卸载到 cpu cache 中，该标志变量用于标记请求的卸载任务的状态
         self.cpu_cache_task_status: "InferReq._CpuCacheTaskStatus" = InferReq._CpuCacheTaskStatus.NOT_STARTED
@@ -397,26 +399,14 @@ def _match_radix_cache(self):
             key = torch.tensor(input_token_ids, dtype=torch.int64, device="cpu")
             key = key[0 : len(key) - 1]  # 最后一个不需要，因为需要一个额外的token，让其在prefill的时候输出下一个token的值
             share_node, kv_len, value_tensor = g_infer_context.radix_cache.match_prefix(key, update_refs=True)
-
-            if share_node is not None:
-                if g_infer_context.use_hybrid_radix_cache:
-                    if share_node.buffer_idx is None:
-                        g_infer_context.radix_cache.dec_node_ref_counter(share_node)
-                        share_node = None
-
             if share_node is not None:
                 self.shared_kv_node = share_node
                 ready_cache_len = share_node.node_prefix_total_len
                 # 从 cpu 到 gpu 是流内阻塞操作
                 g_infer_context.req_manager.req_to_token_indexs[self.req_idx, 0:ready_cache_len] = value_tensor
                 self.cur_kv_len = int(ready_cache_len)  # 序列化问题, 该对象可能为numpy.int64，用 int(*)转换
                 self.shm_req.prompt_cache_len = self.cur_kv_len  # 记录 prompt cache 的命中长度
-
-                if g_infer_context.use_hybrid_radix_cache:
-                    cur_buffer_idx = g_infer_context.req_manager.req_to_buffer_indexes[self.req_idx]
-                    g_infer_context.req_manager.mem_manager.copy_state_cache_buffer(
-                        share_node.buffer_idx, cur_buffer_idx
-                    )
+                self.buffer_idx = share_node.buffer_idx
 
         self.shm_req.shm_cur_kv_len = self.cur_kv_len
         return
 
@@ -1,7 +1,6 @@
 from .chunked_prefill.impl import ChunkedPrefillBackend
 from .chunked_prefill.impl_for_first_token_constraint_mode import FirstTokenConstraintBackend
 from .chunked_prefill.impl_for_outlines_constraint_mode import OutlinesConstraintBackend
-from .chunked_prefill.impl_for_hybrid_radix_cache import HybridRadixCacheBackend
 from .chunked_prefill.impl_for_return_all_prompt_logprobs import ReturnPromptLogProbBackend
 from .chunked_prefill.impl_for_reward_model import RewardModelBackend
 from .chunked_prefill.impl_for_token_healing import TokenHealingBackend
Original file line number	Diff line number	Diff line change
`@@ -88,6 +88,9 @@ def __init__(self):`
`88`	`88`	`self.dp_output_split_sizes: List[List[int]] = None`
`89`	`89`	`self.dp_input_split_sizes: List[List[int]] = None`
`90`	`90`
	`91`	`+ # 专门用于管理混合注意力模型的buffer`
	`92`	`+ self.buffer_indexes: torch.Tensor = None`
	`93`	`+`
`91`	`94`	`def init_some_extra_state(self, model, input_ids: torch.Tensor):`
`92`	`95`	`if self.is_prefill:`
`93`	`96`	`(`