6599088e77
新增C-08测试: - 完整4题对话流程(MC+SA) - 自然等待AI评分(不用force-end) - 验证分数>0和证书生成 - 性能基线: 30秒完成全流程 之前所有测试都用了force-end跳过评分 导致TRUE/FALSE答案映射bug存活2个月未被发现 现在评分路径被真实覆盖 Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>