fix: ci test

Bruce-Lee-LY · Bruce-Lee-LY · commit 0a76b8945b45 · 2025-11-30T20:23:35.000+08:00
diff --git a/rtp_llm/cpp/devices/DeviceBase.h b/rtp_llm/cpp/devices/DeviceBase.h
@@ -167,6 +167,9 @@ class DeviceBase: public DeviceOps {
     torch::Tensor ropeCache() const {
         return rope_cache_;
     }
+    int ropeCacheDim() const {
+        return rope_cache_dim_;
+    }
 
 public:
     // device-independence op implementations
@@ -228,6 +231,7 @@ class DeviceBase: public DeviceOps {
     std::once_flag rope_cache_flag_;
     bool           use_rope_cache_ = false;
     torch::Tensor  rope_cache_;
+    int            rope_cache_dim_;
 
 protected:
     std::unique_ptr<BufferManager> buffer_manager_;
diff --git a/rtp_llm/cpp/devices/base_tests/AttentionOpTest.hpp b/rtp_llm/cpp/devices/base_tests/AttentionOpTest.hpp
diff --git a/rtp_llm/cpp/devices/base_tests/UnfusedAttentionTest.hpp b/rtp_llm/cpp/devices/base_tests/UnfusedAttentionTest.hpp
@@ -291,7 +291,8 @@ void UnfusedAttentionTest::addFusedQKVBiasTransposeTest(size_t batch_size,
                                              params.common.cu_seqlens->data<int>(),
                                              params.common.cu_seqlens_without_prefix->data<int>(),
                                              device->use_rope_cache_,
-                                             device->use_rope_cache_ && device->rope_cache_.defined() ?
+                                             device->use_rope_cache_ && device->rope_cache_.defined()
+                                                     && device->rope_cache_dim_ == params.configs.rope_config.dim ?
                                                  device->rope_cache_.data_ptr<float>() :
                                                  nullptr,
                                              batch_size,
@@ -335,7 +336,8 @@ void UnfusedAttentionTest::addFusedQKVBiasTransposeTest(size_t batch_size,
                                              params.common.cu_seqlens->data<int>(),
                                              params.common.cu_seqlens_without_prefix->data<int>(),
                                              device->use_rope_cache_,
-                                             device->use_rope_cache_ && device->rope_cache_.defined() ?
+                                             device->use_rope_cache_ && device->rope_cache_.defined()
+                                                     && device->rope_cache_dim_ == params.configs.rope_config.dim ?
                                                  device->rope_cache_.data_ptr<float>() :
                                                  nullptr,
                                              batch_size,
@@ -374,40 +376,42 @@ void UnfusedAttentionTest::addFusedQKVBiasTransposeTest(size_t batch_size,
         bool store_kv    = true;
         bool store_cache = false;
 
-        DISPATCH_CUDA_FUNCTION_DATA_TYPE(
-            params.input.type(),
-            invokeAddFusedQKVBiasTranspose,
-            q_no_transpose_output->data(),
-            q_output->data(),
-            k_output->data(),
-            v_output->data(),
-            &prefix_prompt_param,
-            params.input.data(),
-            qkv_buf_fp8 ? qkv_buf_fp8->data() : nullptr,
-            params.common.position_ids->data<int>(),
-            params.weights.qkv_weight->bias->data(),
-            params.common.padding_offset->data<int>(),
-            params.common.cu_seqlens->data<int>(),
-            params.common.cu_seqlens_without_prefix->data<int>(),
-            device->use_rope_cache_,
-            device->use_rope_cache_ && device->rope_cache_.defined() ? device->rope_cache_.data_ptr<float>() : nullptr,
-            batch_size,
-            seq_len,
-            token_num,
-            num_heads,
-            num_key_value_heads,
-            head_dim,
-            params.configs.rope_config,
-            params.configs.use_logn_attn,
-            scale_out_ptr,
-            int8_mode,
-            use_paged_fmha,
-            store_qkv,
-            store_q_no_transpose,
-            store_q,
-            store_kv,
-            store_cache,
-            device->getStream());
+        DISPATCH_CUDA_FUNCTION_DATA_TYPE(params.input.type(),
+                                         invokeAddFusedQKVBiasTranspose,
+                                         q_no_transpose_output->data(),
+                                         q_output->data(),
+                                         k_output->data(),
+                                         v_output->data(),
+                                         &prefix_prompt_param,
+                                         params.input.data(),
+                                         qkv_buf_fp8 ? qkv_buf_fp8->data() : nullptr,
+                                         params.common.position_ids->data<int>(),
+                                         params.weights.qkv_weight->bias->data(),
+                                         params.common.padding_offset->data<int>(),
+                                         params.common.cu_seqlens->data<int>(),
+                                         params.common.cu_seqlens_without_prefix->data<int>(),
+                                         device->use_rope_cache_,
+                                         device->use_rope_cache_ && device->rope_cache_.defined()
+                                                 && device->rope_cache_dim_ == params.configs.rope_config.dim ?
+                                             device->rope_cache_.data_ptr<float>() :
+                                             nullptr,
+                                         batch_size,
+                                         seq_len,
+                                         token_num,
+                                         num_heads,
+                                         num_key_value_heads,
+                                         head_dim,
+                                         params.configs.rope_config,
+                                         params.configs.use_logn_attn,
+                                         scale_out_ptr,
+                                         int8_mode,
+                                         use_paged_fmha,
+                                         store_qkv,
+                                         store_q_no_transpose,
+                                         store_q,
+                                         store_kv,
+                                         store_cache,
+                                         device->getStream());
 
         device->syncAndCheck();
 
diff --git a/rtp_llm/cpp/devices/cuda_impl/CudaAttentionOp.cc b/rtp_llm/cpp/devices/cuda_impl/CudaAttentionOp.cc
@@ -99,7 +99,8 @@ void CudaDevice::getRopeCacheOnce(const RopeConfig& rope_config, int max_positio
     std::call_once(rope_cache_flag_, [&]() {
         use_rope_cache_ = rope_config.style == RopeStyle::Base || rope_config.style == RopeStyle::Yarn;
         if (use_rope_cache_) {
-            rope_cache_ = getRopeCache(rope_config, max_position_embeddings);
+            rope_cache_     = getRopeCache(rope_config, max_position_embeddings);
+            rope_cache_dim_ = rope_config.dim;
         }
     });
 }
@@ -219,7 +220,9 @@ AttentionModuleOutput CudaDevice::contextAttention(const AttentionModuleParams&
             params.common.cu_seqlens->data<int>(),
             params.common.cu_seqlens_without_prefix->data<int>(),
             use_rope_cache_,
-            use_rope_cache_ && rope_cache_.defined() ? rope_cache_.data_ptr<float>() : nullptr,
+            use_rope_cache_ && rope_cache_.defined() && rope_cache_dim_ == params.configs.rope_config.dim ?
+                rope_cache_.data_ptr<float>() :
+                nullptr,
             batch_size,
             seq_len,
             token_num,
@@ -410,8 +413,10 @@ AttentionModuleOutput CudaDevice::decoderSelfAttention(const AttentionModulePara
                                              params.weights.qkv_weight->bias->data() :
                                              nullptr,
                                          use_rope_cache_,
-                                         use_rope_cache_ && rope_cache_.defined() ? rope_cache_.data_ptr<float>() :
-                                                                                    nullptr,
+                                         use_rope_cache_ && rope_cache_.defined()
+                                                 && rope_cache_dim_ == params.configs.rope_config.dim ?
+                                             rope_cache_.data_ptr<float>() :
+                                             nullptr,
                                          batch_size,
                                          local_head_num,
                                          local_kv_head_num,
diff --git a/rtp_llm/cpp/devices/rocm_impl/ROCmAttentionOp.cc b/rtp_llm/cpp/devices/rocm_impl/ROCmAttentionOp.cc
@@ -571,7 +571,8 @@ void ROCmDevice::getRopeCacheOnce(const RopeConfig& rope_config, int max_positio
     std::call_once(rope_cache_flag_, [&]() {
         use_rope_cache_ = rope_config.style == RopeStyle::Base;
         if (use_rope_cache_) {
-            rope_cache_ = getRopeCache(rope_config, max_position_embeddings);
+            rope_cache_     = getRopeCache(rope_config, max_position_embeddings);
+            rope_cache_dim_ = rope_config.dim;
         }
     });
 }
@@ -778,42 +779,46 @@ AttentionModuleOutput ROCmDevice::contextAttention(const AttentionModuleParams&
             }
             check_cuda_error();
         } else {
-            DISPATCH_CUDA_FUNCTION_DATA_TYPE(datatype,
-                                             invokeAddFusedQKVBiasTranspose,
-                                             nullptr,
-                                             q_output->data(),
-                                             k_output->data(),
-                                             v_output->data(),
-                                             &prefix_prompt_param,
-                                             params.input.data(),
+            DISPATCH_CUDA_FUNCTION_DATA_TYPE(
+                datatype,
+                invokeAddFusedQKVBiasTranspose,
+                nullptr,
+                q_output->data(),
+                k_output->data(),
+                v_output->data(),
+                &prefix_prompt_param,
+                params.input.data(),
+                nullptr,
+                params.common.position_ids ? params.common.position_ids->dataWithOffset<int>(
+                                                 decoder_batch_size * params.configs.rope_config.index_factor) :
                                              nullptr,
-                                             params.common.position_ids ?
-                                                 params.common.position_ids->dataWithOffset<int>(
-                                                     decoder_batch_size * params.configs.rope_config.index_factor) :
-                                                 nullptr,
-                                             params.configs.fuse_qkv_add_bias && params.weights.qkv_weight->bias ?
-                                                 params.weights.qkv_weight->bias->data() :
-                                                 nullptr,
-                                             params.common.padding_offset->data<int>(),
-                                             params.common.cu_seqlens->data<int>(),
-                                             params.common.cu_seqlens_without_prefix->data<int>(),
-                                             batch_size,
-                                             seq_len,
-                                             token_num,
-                                             head_num,
-                                             kv_head_num,
-                                             size_per_head,
-                                             params.configs.rope_config,
-                                             params.configs.use_logn_attn,
-                                             scale_out_ptr,
-                                             int8_mode,
-                                             false,
-                                             store_qkv,
-                                             false,
-                                             store_q,
-                                             store_kv,
-                                             store_cache,
-                                             stream_);
+                params.configs.fuse_qkv_add_bias && params.weights.qkv_weight->bias ?
+                    params.weights.qkv_weight->bias->data() :
+                    nullptr,
+                params.common.padding_offset->data<int>(),
+                params.common.cu_seqlens->data<int>(),
+                params.common.cu_seqlens_without_prefix->data<int>(),
+                use_rope_cache_,
+                use_rope_cache_ && rope_cache_.defined() && rope_cache_dim_ == params.configs.rope_config.dim ?
+                    rope_cache_.data_ptr<float>() :
+                    nullptr,
+                batch_size,
+                seq_len,
+                token_num,
+                head_num,
+                kv_head_num,
+                size_per_head,
+                params.configs.rope_config,
+                params.configs.use_logn_attn,
+                scale_out_ptr,
+                int8_mode,
+                false,
+                store_qkv,
+                false,
+                store_q,
+                store_kv,
+                store_cache,
+                stream_);
             check_cuda_error();
         }
         writeCacheStore(params);
diff --git a/rtp_llm/cpp/kernels/unfused_attention_kernels.cu b/rtp_llm/cpp/kernels/unfused_attention_kernels.cu
@@ -931,6 +931,7 @@ INSTANTIATEDEBUGKERNEL2(__nv_bfloat16);
 
 // Bandwidth-bound kernel by reading cos/sin coefficients from global memory (pre-computed and saved as weights).
 
+#if USING_CUDA
 template<typename T,
          typename Tcache,
          bool      PREFIX_PROMPT,
@@ -1572,6 +1573,7 @@ __global__ void add_fusedQKV_bias_transpose_non_int8_with_rope_cache_kernel(T* q
         }
     }
 }
+#endif
 
 template<typename T, typename Tcache, bool PREFIX_PROMPT, bool USE_PAGED_FMHA, RopeStyle ROPE_STYLE>
 __global__ void add_fusedQKV_bias_transpose_with_rope_cache_kernel(T*                            q_no_transpose_buf,
@@ -2189,10 +2191,12 @@ void invokeAddFusedQKVBiasTranspose(T*                             q_no_transpos
                                     const bool                     store_cache,
                                     cudaStream_t                   stream) {
     if (use_rope_cache && rope_cache) {
+#if USING_CUDA
         if (head_num % 8 == 0 && head_num_kv % 4 == 0 && param_ptr->kv_block_array.cache_type != KvCacheDataType::INT8
             && size_per_head == rope_config.dim) {
             ADD_FUSEDQKV_BIAS_TRANSPOSE_NON_INT8_WITH_ROPE_CACHE(8, 4, 4);
         } else {
+#endif
             dim3         block((size_per_head / Vec_t<T>::size + 31) / 32 * 32);
             dim3         grid(token_num, head_num + head_num_kv * 2);
             const size_t smem_size = rope_config.style == RopeStyle::No ? 0 : 2 * rope_config.dim * sizeof(T);
@@ -2234,7 +2238,9 @@ void invokeAddFusedQKVBiasTranspose(T*                             q_no_transpos
                     });
                 });
             });
+#if USING_CUDA
         }
+#endif
     } else {
         dim3         block((size_per_head / Vec_t<T>::size + 31) / 32 * 32);
         dim3         grid(token_num, head_num);
diff --git a/rtp_llm/models_py/bindings/cuda/FusedRopeKVCacheOp.cc b/rtp_llm/models_py/bindings/cuda/FusedRopeKVCacheOp.cc
@@ -115,7 +115,10 @@ torch::Tensor FusedRopeKVCachePrefillOp::forward(const torch::Tensor&
         params->cu_seqlens.data_ptr<int>(),
         params->cu_seqlens_without_prefix.data_ptr<int>(),
         device_->useRopeCache(),
-        device_->useRopeCache() && device_->ropeCache().defined() ? device_->ropeCache().data_ptr<float>() : nullptr,
+        device_->useRopeCache() && device_->ropeCache().defined()
+                && device_->ropeCacheDim() == attn_configs_.rope_config.dim ?
+            device_->ropeCache().data_ptr<float>() :
+            nullptr,
         batch_size,
         params->max_seq_len,  // seq_len
         token_num,
@@ -195,29 +198,31 @@ torch::Tensor FusedRopeKVCacheDecodeOp::forward(const torch::Tensor&
     device_->getRopeCacheOnce(attn_configs_.rope_config, device_->initParams().max_seq_len);
 
     RTP_LLM_CHECK_WITH_INFO(params->sequence_lengths.is_pinned(), "sequence_lengths is not pinned memory");
-    DISPATCH_CUDA_FUNCTION_DATA_TYPE(
-        torchDTypeToDataType(qkv.dtype()),
-        invokeDecodeAddFusedQKVBiasTranspose,
-        q_output.data_ptr(),
-        nullptr,  // k_buf
-        nullptr,  // v_buf
-        kv_block_array,
-        qkv.data_ptr(),
-        params->sequence_lengths.data_ptr<int>(),
-        nullptr,  // params.configs.fuse_qkv_add_bias && params.weights.qkv_weight->bias ?
-                  // params.weights.qkv_weight->bias->data() : nullptr,
-        device_->useRopeCache(),
-        device_->useRopeCache() && device_->ropeCache().defined() ? device_->ropeCache().data_ptr<float>() : nullptr,
-        batch_size,
-        local_head_num,
-        local_head_num_kv,
-        size_per_head,
-        attn_configs_.rope_config,
-        attn_configs_.use_logn_attn,
-        true,   // store_q,
-        false,  // store_kv,
-        true,   // store_cache,
-        device_->getStream());
+    DISPATCH_CUDA_FUNCTION_DATA_TYPE(torchDTypeToDataType(qkv.dtype()),
+                                     invokeDecodeAddFusedQKVBiasTranspose,
+                                     q_output.data_ptr(),
+                                     nullptr,  // k_buf
+                                     nullptr,  // v_buf
+                                     kv_block_array,
+                                     qkv.data_ptr(),
+                                     params->sequence_lengths.data_ptr<int>(),
+                                     nullptr,  // params.configs.fuse_qkv_add_bias && params.weights.qkv_weight->bias ?
+                                               // params.weights.qkv_weight->bias->data() : nullptr,
+                                     device_->useRopeCache(),
+                                     device_->useRopeCache() && device_->ropeCache().defined()
+                                             && device_->ropeCacheDim() == attn_configs_.rope_config.dim ?
+                                         device_->ropeCache().data_ptr<float>() :
+                                         nullptr,
+                                     batch_size,
+                                     local_head_num,
+                                     local_head_num_kv,
+                                     size_per_head,
+                                     attn_configs_.rope_config,
+                                     attn_configs_.use_logn_attn,
+                                     true,   // store_q,
+                                     false,  // store_kv,
+                                     true,   // store_cache,
+                                     device_->getStream());
     return q_output;
 }
 
diff --git a/rtp_llm/models_py/standalone/rtp_auto_model.py b/rtp_llm/models_py/standalone/rtp_auto_model.py
@@ -1,3 +1,17 @@
+from rtp_llm.utils.model_weight import W
+from rtp_llm.utils.base_model_datatypes import ModelConfig
+from rtp_llm.ops.compute_ops import (
+    KVCache,
+    PyAttentionInputs,
+    PyModelInputs,
+    PyModelOutputs,
+    get_device,
+    get_typemeta,
+    init_device,
+)
+from rtp_llm.model_factory import ModelFactory
+from rtp_llm.config.py_config_modules import StaticConfig
+import rtp_llm.models
 import os
 import sys
 from pathlib import Path
@@ -9,21 +23,6 @@
 rtp_opensouce_path = Path(__file__).resolve().parent.parent.parent.parent
 sys.path.append(str(rtp_opensouce_path))
 
-import rtp_llm.models
-from rtp_llm.config.py_config_modules import StaticConfig
-from rtp_llm.model_factory import ModelFactory
-from rtp_llm.ops.compute_ops import (
-    KVCache,
-    PyAttentionInputs,
-    PyModelInputs,
-    PyModelOutputs,
-    get_device,
-    get_typemeta,
-    init_device,
-)
-from rtp_llm.utils.base_model_datatypes import ModelConfig
-from rtp_llm.utils.model_weight import W
-
 
 class AutoModel:
     def __init__(
@@ -154,6 +153,9 @@ def _prepare_prefill_attention_inputs(self, input_length: int) -> PyAttentionInp
         attention_inputs.cu_seqlens = torch.tensor(
             [0, input_length], dtype=torch.int32, device=self.device
         )
+        attention_inputs.cu_seqlens_without_prefix = torch.tensor(
+            [0, input_length], dtype=torch.int32, device=self.device
+        )
         attention_inputs.prefix_lengths = torch.tensor([0], dtype=torch.int32)
         attention_inputs.padding_offset = torch.tensor(
             [0 for _ in range(input_length)], dtype=torch.int32, device=self.device
diff --git a/rtp_llm/ops/librtp_compute_ops/__init__.pyi b/rtp_llm/ops/librtp_compute_ops/__init__.pyi