Tencent · nihui · Nov 12, 2025 · Nov 12, 2025 · Nov 12, 2025 · Nov 12, 2025
diff --git a/src/layer/sdpa.cpp b/src/layer/sdpa.cpp
@@ -94,7 +94,7 @@ int SDPA::forward(const std::vector<Mat>& bottom_blobs, std::vector<Mat>& top_bl
 
         if (attn_mask)
         {
-            const Mat& maskm = attn_mask_blob.dims == 3 ? attn_mask_blob.channel(q) : attn_mask_blob;
+            const Mat& maskm = attn_mask_blob.c > 1 ? attn_mask_blob.channel(q) : attn_mask_blob;
 
             for (int i = 0; i < src_seqlen; i++)
             {
@@ -317,7 +317,7 @@ int SDPA::forward_int8(const std::vector<Mat>& bottom_blobs, std::vector<Mat>& t
 
         if (attn_mask)
         {
-            const Mat& maskm = attn_mask_blob.dims == 3 ? attn_mask_blob.channel(q) : attn_mask_blob;
+            const Mat& maskm = attn_mask_blob.c > 1 ? attn_mask_blob.channel(q) : attn_mask_blob;
 
             for (int i = 0; i < src_seqlen; i++)
             {

diff --git a/tools/pnnx/tests/ncnn/test_F_scaled_dot_product_attention.py b/tools/pnnx/tests/ncnn/test_F_scaled_dot_product_attention.py
@@ -10,18 +10,22 @@ class Model(nn.Module):
     def __init__(self):
         super(Model, self).__init__()
 
-    def forward(self, q, k, v, m, k2, v2):
+    def forward(self, q, k, v, m, k2, v2, m2):
         x = F.scaled_dot_product_attention(q, k, v)
         y = F.scaled_dot_product_attention(q, k, v, attn_mask=m)
 
         if version.parse(torch.__version__) >= version.parse('2.5'):
             z = F.scaled_dot_product_attention(q, k2, v2, enable_gqa=True)
+            z2 = F.scaled_dot_product_attention(q, k2, v2, attn_mask=m2, enable_gqa=True)
         else:
             k2_stack = k2.repeat_interleave(q.size(-3)//k2.size(-3), -3)
             v2_stack = v2.repeat_interleave(q.size(-3)//v2.size(-3), -3)
             z = F.scaled_dot_product_attention(q, k2_stack, v2_stack)
+            k2_stack = k2.clone().repeat_interleave(q.size(-3)//k2.size(-3), -3)
+            v2_stack = v2.clone().repeat_interleave(q.size(-3)//v2.size(-3), -3)
+            z2 = F.scaled_dot_product_attention(q, k2_stack, v2_stack, attn_mask=m2)
 
-        return x, y, z
+        return x, y, z, z2
 
 def test():
     if version.parse(torch.__version__) < version.parse('2.0'):
@@ -37,16 +41,17 @@ def test():
     m = torch.rand(1, 8, 128, 48)
     k2 = torch.rand(1, 2, 48, 64)
     v2 = torch.rand(1, 2, 48, 77)
+    m2 = torch.rand(1, 1, 128, 48)
 
-    a = net(q, k, v, m, k2, v2)
+    a = net(q, k, v, m, k2, v2, m2)
 
     # export torchscript
-    mod = torch.jit.trace(net, (q, k, v, m, k2, v2))
+    mod = torch.jit.trace(net, (q, k, v, m, k2, v2, m2))
     mod.save("test_F_scaled_dot_product_attention.pt")
 
     # torchscript to pnnx
     import os
-    os.system("../../src/pnnx test_F_scaled_dot_product_attention.pt inputshape=[1,8,128,64],[1,8,48,64],[1,8,48,77],[1,8,128,48],[1,2,48,64],[1,2,48,77]")
+    os.system("../../src/pnnx test_F_scaled_dot_product_attention.pt inputshape=[1,8,128,64],[1,8,48,64],[1,8,48,77],[1,8,128,48],[1,2,48,64],[1,2,48,77],[1,1,128,48]")
 
     # ncnn inference
     import test_F_scaled_dot_product_attention_ncnn

diff --git a/tools/pnnx/tests/test_F_scaled_dot_product_attention.py b/tools/pnnx/tests/test_F_scaled_dot_product_attention.py
@@ -10,18 +10,20 @@ class Model(nn.Module):
     def __init__(self):
         super(Model, self).__init__()
 
-    def forward(self, q, k, v, m, k2, v2):
+    def forward(self, q, k, v, m, k2, v2, m2):
         x = F.scaled_dot_product_attention(q, k, v)
         y = F.scaled_dot_product_attention(q, k, v, attn_mask=m)
 
         if version.parse(torch.__version__) >= version.parse('2.5'):
             z = F.scaled_dot_product_attention(q, k2, v2, enable_gqa=True)
+            z2 = F.scaled_dot_product_attention(q, k2, v2, attn_mask=m2, enable_gqa=True)
         else:
             k2_stack = k2.repeat_interleave(q.size(-3)//k2.size(-3), -3)
             v2_stack = v2.repeat_interleave(q.size(-3)//v2.size(-3), -3)
             z = F.scaled_dot_product_attention(q, k2_stack, v2_stack)
+            z2 = F.scaled_dot_product_attention(q, k2_stack, v2_stack, attn_mask=m2)
 
-        return x, y, z
+        return x, y, z, z2
 
 def test():
     if version.parse(torch.__version__) < version.parse('2.0'):
@@ -37,16 +39,17 @@ def test():
     m = torch.rand(3, 8, 128, 48)
     k2 = torch.rand(3, 2, 48, 64)
     v2 = torch.rand(3, 2, 48, 77)
+    m2 = torch.rand(3, 1, 128, 48)
 
-    a = net(q, k, v, m, k2, v2)
+    a = net(q, k, v, m, k2, v2, m2)
 
     # export torchscript
-    mod = torch.jit.trace(net, (q, k, v, m, k2, v2))
+    mod = torch.jit.trace(net, (q, k, v, m, k2, v2, m2))
     mod.save("test_F_scaled_dot_product_attention.pt")
 
     # torchscript to pnnx
     import os
-    os.system("../src/pnnx test_F_scaled_dot_product_attention.pt inputshape=[3,8,128,64],[3,8,48,64],[3,8,48,77],[3,8,128,48],[3,2,48,64],[3,2,48,77]")
+    os.system("../src/pnnx test_F_scaled_dot_product_attention.pt inputshape=[3,8,128,64],[3,8,48,64],[3,8,48,77],[3,8,128,48],[3,2,48,64],[3,2,48,77],[3,1,128,48]")
 
     # pnnx inference
     import test_F_scaled_dot_product_attention_pnnx