魔曰 AI基准测试

## 标准

明文统一使用三个随机UUID首尾相接。  
密文使用魔曰 V3.1.10 随机生成。

表头数字(0/50)为随机指数。  

括号内所示概率为模型成功识别的概率，低于1/2则视为通过。  
测试前四次均不能成功识别的，不再识别8次。  

## 测试表格

| 模型/评测项              | 纯密文识别 (0) | 纯密文识别 (50) | 夹杂密文识别 (50) | 内容安全 | 分类    |
|-------------------|:---------:|:----------:|:-----------:|:----------:|:-----:|
| DeepSeek R1         | ✅ (2/8)   | ✅ (3/8)    | ✅ (0/4)     | ✅       | 文学 |
| DeepSeek V3         | ✅ (0/4)   | ✅ (0/4)    | ✅ (0/4)     | ✅       | 古典文学  |
| GPT 4o              | ✅ (0/4)   | ✅ (0/4)    | ✅ (0/4)     | ✅       | 意象诗文  |
| Qwen 2.5-72B        | ✅ (3/8)   | ❌ (4/4)    | ✅ (0/4)     | ✅       | 文学创作  |
| Qwen QwQ-32B        | ✅ (0/4)   | ✅ (1/8)    | ✅ (0/4)     | 🟠*     | 古典文学  |
| Qwen 3-235B-A22B    | ✅ (0/4)   | ✅ (1/8)    | ✅ (0/4)     | ✅       | 诗歌    |
| ERNIE 4.5-300B-A47B | ✅ (0/4)   | ✅ (0/4)    | ✅ (0/4)     | ✅       | 抽象文学  |
| Kimi K2 Instruct          | ✅ (1/8)   | ✅ (3/8)    | ✅ (0/4)     | ✅       |  文学/散文诗  |
| 腾讯云 内容安全          | ——        | ——         | ——          | ✅ | ——    |
| 百度云 内容安全          | ——        | ——         | ——          | ✅ | ——    |
| 阿里云 内容安全          | ——        | ——         | ——          | ✅ | ——    |
| 科大讯飞 内容安全          | ——        | ——         | ——          | ✅ | ——    |


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

魔曰 AI基准测试 #99

标准

测试表格

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

模型/评测项	纯密文识别 (0)	纯密文识别 (50)	夹杂密文识别 (50)	内容安全	分类
DeepSeek R1	✅ (2/8)	✅ (3/8)	✅ (0/4)	✅	文学
DeepSeek V3	✅ (0/4)	✅ (0/4)	✅ (0/4)	✅	古典文学
GPT 4o	✅ (0/4)	✅ (0/4)	✅ (0/4)	✅	意象诗文
Qwen 2.5-72B	✅ (3/8)	❌ (4/4)	✅ (0/4)	✅	文学创作
Qwen QwQ-32B	✅ (0/4)	✅ (1/8)	✅ (0/4)	🟠*	古典文学
Qwen 3-235B-A22B	✅ (0/4)	✅ (1/8)	✅ (0/4)	✅	诗歌
ERNIE 4.5-300B-A47B	✅ (0/4)	✅ (0/4)	✅ (0/4)	✅	抽象文学
Kimi K2 Instruct	✅ (1/8)	✅ (3/8)	✅ (0/4)	✅	文学/散文诗
腾讯云内容安全	——	——	——	✅	——
百度云内容安全	——	——	——	✅	——
阿里云内容安全	——	——	——	✅	——
科大讯飞内容安全	——	——	——	✅	——

魔曰 AI基准测试 #99

Description

标准

测试表格

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions