Data generation #955

Open

opened

on Nov 25, 2025

Create benchmark dataset with several scenarios across documented difficulty levels

Expected outcome: Meet human inspection success metric mentioned in #928

Metadata

Assignees

No one assigned

Labels

No labels

No labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests