fix - add mla_k_merge kernel

Nancheng-11 · Nancheng-11 · commit aa8f7607d978 · 2025-12-01T17:46:11.000+08:00
diff --git a/rtp_llm/cpp/kernels/BUILD b/rtp_llm/cpp/kernels/BUILD
@@ -55,7 +55,7 @@ cc_library(
         "//rtp_llm/cpp/cuda:cuda_utils_cu",
         "//rtp_llm/cpp/cuda:launch_utils",
     ],
-    copts = any_cuda_copts(), 
+    copts = any_cuda_copts(),
     include_prefix = "src",
     visibility = ["//visibility:public"],
 )
@@ -559,6 +559,7 @@ cc_library(
     ]),
     hdrs = glob([
         "mla_kernels/*.h",
+        "mla_kernels/*.cuh",
     ]),
     deps = any_cuda_deps + [
         "//rtp_llm/cpp/utils:core_utils",
diff --git a/rtp_llm/cpp/kernels/mla_kernels/mla_merge_transpose_kernel.cu b/rtp_llm/cpp/kernels/mla_kernels/mla_merge_transpose_kernel.cu
@@ -195,4 +195,108 @@ INSTANTIATE_MLA_QKV_MERGE(__half);
 #ifdef ENABLE_BF16
 INSTANTIATE_MLA_QKV_MERGE(__nv_bfloat16);
 #endif
+
+// adapter from sglang/sgl-kernel/csrc/elementwise/concat_mla.cu
+constexpr int NUM_LOCAL_HEADS  = 128;
+constexpr int QK_NOPE_HEAD_DIM = 128;
+constexpr int QK_ROPE_HEAD_DIM = 64;
+constexpr int HEAD_CHUNK_SIZE  = 16;
+constexpr int NUM_HEAD_CHUNKS  = NUM_LOCAL_HEADS / HEAD_CHUNK_SIZE;
+// Fused kernel to concatenate k_nope and k_pe efficiently
+template<typename T>
+__global__ void concat_mla_k_kernel(T* __restrict__ k,
+                                    const T* __restrict__ k_nope,
+                                    const T* __restrict__ k_rope,
+                                    const int     num_tokens,
+                                    const int64_t k_stride_0,
+                                    const int     k_stride_1,
+                                    const int64_t k_nope_stride_0,
+                                    const int     k_nope_stride_1,
+                                    const int64_t k_rope_stride_0) {
+    const int flat_warp_id  = (blockIdx.x * blockDim.x + threadIdx.x) / 32;
+    const int token_id      = flat_warp_id / NUM_HEAD_CHUNKS;
+    const int head_chunk_id = flat_warp_id % NUM_HEAD_CHUNKS;
+    const int lane_id       = get_lane_id();
+    if (token_id >= num_tokens)
+        return;
+
+    using NopeVec = int2;  // 8B/thread，32 thread = 256B/row
+    using RopeVec = int;   // 4B/thread，32 thread = 128B/row
+    static_assert(sizeof(NopeVec) * 32 == QK_NOPE_HEAD_DIM * sizeof(nv_bfloat16), "nope vec mismatch");
+    static_assert(sizeof(RopeVec) * 32 == QK_ROPE_HEAD_DIM * sizeof(nv_bfloat16), "rope vec mismatch");
+
+    const int head_row0 = head_chunk_id * HEAD_CHUNK_SIZE;
+
+    const int2* __restrict__ nope_src =
+        reinterpret_cast<const int2*>(k_nope + token_id * k_nope_stride_0 + head_row0 * k_nope_stride_1) + lane_id;
+
+    int2* __restrict__ nope_dst = reinterpret_cast<int2*>(k + token_id * k_stride_0 + head_row0 * k_stride_1) + lane_id;
+
+    int* __restrict__ rope_dst =
+        reinterpret_cast<int*>(k + token_id * k_stride_0 + head_row0 * k_stride_1 + QK_NOPE_HEAD_DIM) + lane_id;
+
+    const int nope_src_stride_v = (k_nope_stride_1 >> 2);  // int2 covers 4 bf16
+    const int nope_dst_stride_v = (k_stride_1 >> 2);
+    const int rope_dst_stride_v = (k_stride_1 >> 1);  // int covers 2 bf16
+
+    const int*    rope_base = reinterpret_cast<const int*>(k_rope + token_id * k_rope_stride_0);
+    const RopeVec rope_val  = ld_na_global_v1(rope_base + lane_id);
+
+    prefetch_L2(nope_src);
+    NopeVec cur = ld_na_global_v2(nope_src);
+
+#pragma unroll
+    for (int i = 0; i < HEAD_CHUNK_SIZE; ++i) {
+        NopeVec next;
+        if (i + 1 < HEAD_CHUNK_SIZE) {
+            const int2* next_src = nope_src + nope_src_stride_v;
+            prefetch_L2(next_src);
+            next = ld_na_global_v2(next_src);
+        }
+
+        st_na_global_v2(nope_dst, cur);
+        st_na_global_v1(rope_dst, rope_val);
+
+        nope_src += nope_src_stride_v;
+        nope_dst += nope_dst_stride_v;
+        rope_dst += rope_dst_stride_v;
+
+        cur = next;
+    }
+}
+
+template<typename T>
+void invokeMlaKMerge(T*            k,
+                     T*            k_nope,
+                     T*            k_rope,
+                     const int     num_tokens,
+                     const int64_t k_stride_0,
+                     const int     k_stride_1,
+                     const int64_t k_nope_stride_0,
+                     const int     k_nope_stride_1,
+                     const int64_t k_rope_stride_0,
+                     cudaStream_t  stream) {
+    constexpr int num_warps_per_block = 32;
+    const int     grid_size           = (num_tokens * NUM_HEAD_CHUNKS + num_warps_per_block - 1) / num_warps_per_block;
+    const int     block_size          = num_warps_per_block * 32;
+
+    concat_mla_k_kernel<T><<<grid_size, block_size, 0, stream>>>(
+        k, k_nope, k_rope, num_tokens, k_stride_0, k_stride_1, k_nope_stride_0, k_nope_stride_1, k_rope_stride_0);
+}
+
+#define INSTANTIATE_MLA_K_MERGE(T)                                                                                     \
+    template void invokeMlaKMerge<T>(T * k_out,                                                                        \
+                                     T * k_nope,                                                                       \
+                                     T * k_pe,                                                                         \
+                                     const int     num_tokens,                                                         \
+                                     const int64_t k_stride_0,                                                         \
+                                     const int     k_stride_1,                                                         \
+                                     const int64_t k_nope_stride_0,                                                    \
+                                     const int     k_nope_stride_1,                                                    \
+                                     const int64_t k_rope_stride_0,                                                    \
+                                     cudaStream_t  stream);
+
+#ifdef ENABLE_BF16
+INSTANTIATE_MLA_K_MERGE(__nv_bfloat16);
+#endif
 }  // namespace rtp_llm
diff --git a/rtp_llm/cpp/kernels/mla_kernels/mla_merge_transpose_kernel.h b/rtp_llm/cpp/kernels/mla_kernels/mla_merge_transpose_kernel.h
@@ -8,6 +8,8 @@
 #include <cuda_fp16.h>
 #include <cuda_bf16.h>
 #endif
+#include <cstdint>
+#include "rtp_llm/cpp/kernels/mla_kernels/utils.cuh"
 
 namespace rtp_llm {
 
@@ -36,4 +38,17 @@ void invokeMlaQKVMerge(T*           q,
                        int          rope_head_dim,
                        int          v_head_dim,
                        cudaStream_t stream);
+
+// Fused kernel to concatenate k_nope and k_pe in one operation
+template<typename T>
+void invokeMlaKMerge(T*            k_out,
+                     T*            k_nope,
+                     T*            k_pe,
+                     const int     num_tokens,
+                     const int64_t k_stride_0,
+                     const int     k_stride_1,
+                     const int64_t k_nope_stride_0,
+                     const int     k_nope_stride_1,
+                     const int64_t k_rope_stride_0,
+                     cudaStream_t  stream);
 }  // namespace rtp_llm
diff --git a/rtp_llm/cpp/kernels/mla_kernels/utils.cuh b/rtp_llm/cpp/kernels/mla_kernels/utils.cuh
@@ -0,0 +1,52 @@
+// Adapted from https://github.com/deepseek-ai/DeepEP/blob/main/csrc/kernels/utils.cuh
+
+#pragma once
+
+#include <cuda_bf16.h>
+#include <cuda_runtime.h>
+
+#include <cstdint>
+
+namespace rtp_llm {
+
+__forceinline__ __device__ int get_lane_id() {
+    int lane_id;
+    asm("mov.s32 %0, %laneid;" : "=r"(lane_id));
+    return lane_id;
+}
+
+__device__ __forceinline__ void st_na_global_v1(const int* ptr, int v) {
+    asm volatile("st.global.L1::no_allocate.s32 [%0], %1;" ::"l"(ptr), "r"(v) : "memory");
+}
+
+__device__ __forceinline__ void st_na_global_v2(const int2* ptr, const int2& v) {
+    asm volatile("st.global.L1::no_allocate.v2.s32 [%0], {%1, %2};" ::"l"(ptr), "r"(v.x), "r"(v.y) : "memory");
+}
+
+__device__ __forceinline__ int ld_na_global_v1(const int* ptr) {
+    int r;
+#ifdef USE_L2_HINT
+    asm volatile("ld.global.nc.L1::no_allocate.L2::128B.s32 %0, [%1];" : "=r"(r) : "l"(ptr));
+#else
+    asm volatile("ld.global.nc.L1::no_allocate.s32 %0, [%1];" : "=r"(r) : "l"(ptr));
+#endif
+    return r;
+}
+
+__device__ __forceinline__ int2 ld_na_global_v2(const int2* ptr) {
+    int2 r;
+#ifdef USE_L2_HINT
+    asm volatile("ld.global.nc.L1::no_allocate.L2::128B.v2.s32 {%0, %1}, [%2];" : "=r"(r.x), "=r"(r.y) : "l"(ptr));
+#else
+    asm volatile("ld.global.nc.L1::no_allocate.v2.s32 {%0, %1}, [%2];" : "=r"(r.x), "=r"(r.y) : "l"(ptr));
+#endif
+    return r;
+}
+
+__device__ __forceinline__ void prefetch_L2(const void* p) {
+#if defined(ENABLE_L2_PREFETCH)
+    asm volatile("prefetch.global.L2 [%0];" ::"l"(p));
+#endif
+}
+
+}  // namespace rtp_llm
diff --git a/rtp_llm/models_py/bindings/cuda/MlaKMergeOp.cc b/rtp_llm/models_py/bindings/cuda/MlaKMergeOp.cc
@@ -0,0 +1,44 @@
+#include "rtp_llm/models_py/bindings/cuda/MlaKMergeOp.h"
+#include "rtp_llm/cpp/kernels/mla_kernels/mla_merge_transpose_kernel.h"
+#include "rtp_llm/cpp/core/torch_utils/BufferTorchUtils.h"
+#include "rtp_llm/models_py/bindings/common/Torch_ext.h"
+#include <cuda_runtime.h>
+
+namespace rtp_llm {
+
+void MlaKMerge(torch::Tensor k_out, torch::Tensor k_nope, torch::Tensor k_pe) {
+    TORCH_CHECK(k_out.is_cuda(), "k_out must be on CUDA");
+    TORCH_CHECK(k_nope.is_cuda(), "k_nope must be on CUDA");
+    TORCH_CHECK(k_pe.is_cuda(), "k_pe must be on CUDA");
+
+    TORCH_CHECK(k_out.dim() == 3, "k_out must be 3D: [token_num, head_num, nope_head_dim + rope_head_dim]");
+    TORCH_CHECK(k_nope.dim() == 3, "k_nope must be 3D: [token_num, head_num, nope_head_dim]");
+    TORCH_CHECK(k_pe.dim() == 3, "k_pe must be 3D: [token_num, 1, rope_head_dim]");
+
+    StreamType stream = GET_CURRENT_STREAM();
+
+    const int     num_tokens      = k_out.size(0);
+    const int64_t k_stride_0      = k_out.stride(0);
+    const int     k_stride_1      = k_out.stride(1);
+    const int64_t k_nope_stride_0 = k_nope.stride(0);
+    const int     k_nope_stride_1 = k_nope.stride(1);
+    const int64_t k_rope_stride_0 = k_pe.stride(0);
+
+    // Dispatch based on dtype
+    if (k_out.dtype() == torch::kBFloat16) {
+        invokeMlaKMerge<__nv_bfloat16>(reinterpret_cast<__nv_bfloat16*>(k_out.data_ptr()),
+                                       reinterpret_cast<__nv_bfloat16*>(k_nope.data_ptr()),
+                                       reinterpret_cast<__nv_bfloat16*>(k_pe.data_ptr()),
+                                       num_tokens,
+                                       k_stride_0,
+                                       k_stride_1,
+                                       k_nope_stride_0,
+                                       k_nope_stride_1,
+                                       k_rope_stride_0,
+                                       stream);
+    } else {
+        TORCH_CHECK(false, "Unsupported dtype: ", k_out.dtype());
+    }
+}
+
+}  // namespace rtp_llm
diff --git a/rtp_llm/models_py/bindings/cuda/MlaKMergeOp.h b/rtp_llm/models_py/bindings/cuda/MlaKMergeOp.h
@@ -0,0 +1,9 @@
+#pragma once
+
+#include <torch/extension.h>
+
+namespace rtp_llm {
+
+void MlaKMerge(torch::Tensor k_out, torch::Tensor k_nope, torch::Tensor k_pe);
+
+}  // namespace rtp_llm
diff --git a/rtp_llm/models_py/bindings/cuda/RegisterBaseBindings.hpp b/rtp_llm/models_py/bindings/cuda/RegisterBaseBindings.hpp
@@ -15,6 +15,7 @@
 #include "3rdparty/flashinfer/flashinfer.h"
 #include "rtp_llm/models_py/bindings/cuda/TrtFp8QuantOp.h"
 #include "rtp_llm/models_py/bindings/cuda/ReuseKVCacheOp.h"
+#include "rtp_llm/models_py/bindings/cuda/MlaKMergeOp.h"
 
 using namespace rtp_llm;
 
@@ -145,6 +146,13 @@ void registerBasicCudaOps(py::module& rtp_ops_m) {
                   py::arg("batch_reuse_info_vec"),
                   py::arg("qo_indptr"),
                   py::arg("tokens_per_block"));
+
+    rtp_ops_m.def("mla_k_merge",
+                  &rtp_llm::MlaKMerge,
+                  "Fused kernel to merge k_nope and k_pe efficiently",
+                  py::arg("k_out"),
+                  py::arg("k_nope"),
+                  py::arg("k_pe"));
 }
 
 void registerBaseCudaBindings(py::module& rtp_ops_m) {
diff --git a/rtp_llm/models_py/modules/mla/flashinfer_mla.py b/rtp_llm/models_py/modules/mla/flashinfer_mla.py