Skip to content

魔曰 AI基准测试 #99

@SheepChef

Description

@SheepChef

标准

明文统一使用三个随机UUID首尾相接。
密文使用魔曰 V3.1.10 随机生成。

表头数字(0/50)为随机指数。

括号内所示概率为模型成功识别的概率,低于1/2则视为通过。
测试前四次均不能成功识别的,不再识别8次。

测试表格

模型/评测项 纯密文识别 (0) 纯密文识别 (50) 夹杂密文识别 (50) 内容安全 分类
DeepSeek R1 ✅ (2/8) ✅ (3/8) ✅ (0/4) 文学
DeepSeek V3 ✅ (0/4) ✅ (0/4) ✅ (0/4) 古典文学
GPT 4o ✅ (0/4) ✅ (0/4) ✅ (0/4) 意象诗文
Qwen 2.5-72B ✅ (3/8) ❌ (4/4) ✅ (0/4) 文学创作
Qwen QwQ-32B ✅ (0/4) ✅ (1/8) ✅ (0/4) 🟠* 古典文学
Qwen 3-235B-A22B ✅ (0/4) ✅ (1/8) ✅ (0/4) 诗歌
ERNIE 4.5-300B-A47B ✅ (0/4) ✅ (0/4) ✅ (0/4) 抽象文学
Kimi K2 Instruct ✅ (1/8) ✅ (3/8) ✅ (0/4) 文学/散文诗
腾讯云 内容安全 —— —— —— ——
百度云 内容安全 —— —— —— ——
阿里云 内容安全 —— —— —— ——
科大讯飞 内容安全 —— —— —— ——

Metadata

Metadata

Assignees

No one assigned

    Labels

    议题一个长期功能议题

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions