feat: Phase 2 complete — 13 Phases of COBOL type classification and test benchmark

P0.6: gcov infrastructure P1: extract_structure output expansion (11 new feature fields) P2: Confusion group rule engine (8 pairs + contradiction + backtrack) P3: 4-factor confidence calculation + quality gate update P4: 33+2 COBOL program type test samples (22 files, 7 categories) P5: parametrized/ test data generation engine P6: japanese_data.py lookup tables P7-10: Type-specific test suites (~159 parametrized tests) P11: Full classification pipeline (classify_program) + orchestrator integration P12: Documentation (module-interfaces, test-plan v3.0, coverage-matrix) Architecture decisions: - classification_pipeline/ merged to hina/pipeline/ - parametrized/ as independent module - japanese_data.py as root-level file - hina/__all__ only exports classify_program() Co-Authored-By: Claude <noreply@anthropic.com>
2026-06-19 23:51:55 +08:00
parent 63b5284715
commit bc1d56d1a4
129 changed files with 19378 additions and 261 deletions
@@ -1,283 +1,884 @@
-# 增强测试系统 — 全面测试计划 v1.0
+# 增强测试系统 — 全面测试计划 v3.0

-> 日期: 2026-06-17 | 対象: feat/enhanced-test-phase1
-> 測試范围: cobol_testgen API / HINA分类 / 质量门禁 / 分层重试 / 增强报告
+> 日期: 2026-06-19 | 対象: feat/enhanced-test-phase1 / main
+> 測試范围: 全模块 34/36 + web API/Worker | 7 维度 | ~518 testing points

 ---

 ## 测试策略

+### 覆盖原则
+
+- **Boil the Lake**: AI 使完整性成本趋近于零，推荐完整覆盖而非 happy path
+- **按风险优先级**: 管道中枢 > 外部依赖调用 > 数据模型 > 辅助工具
+- **维度**: 功能正确性 / 错误恢复 / 边界值 / 并发安全 / 性能衰减 / 安全防护 / 环境依赖
+
 ### 测试层次

 ```
-L1: ユニットテスト ─ 各関数の単体動作 (pytest, ~50 tests)
-    ├── cobol_testgen API
-    ├── HINA classifier
-    ├── HINA strategy
-    ├── quality gate
-    ├── retry handler
-    └── report generator
+L0: 模块单元 ─ 全模块独立测试 (pytest, ~80 tests)
+    ├── cobol_testgen (API/cond/core/coverage/design/read/output/models)
+    ├── hina (classifier/gate/gcov/agent/retry/strategy)
+    ├── orchestrator         ← 新增: 管道中枢
+    ├── web (api/worker)     ← 新增: API 端点 + Worker
+    ├── agents (LLM/Parser/Data/Diagnostic)  ← 新增
+    ├── config (Config/Mapping)  ← 新增
+    ├── runners (4文件)     ← 新增
+    ├── jcl (parser/executor)  ← 新增
+    ├── quality / storage / preprocessor  ← 新增
+    └── data models (+ dataclass 复杂逻辑)

-L2: 結合テスト ─ モジュール間連携 (pytest, ~20 tests)
-    ├── extract_structure → generate_data の一貫性
-    ├── generate_data → DataWriter の型整合
-    ├── HINA 分類 → 戦略テンプレート のマッピング
-    └── quality gate → orchestrator のループ制御
+L1: 结合测试 ─ 模块间数据流 (pytest, ~25 tests)
+    ├── extract_structure → generate_data
+    ├── HINA 分类 → strategy 模板映射
+    ├── quality gate → orchestrator 循环
+    ├── API → Worker → Orchestrator 全链路  ← 新增
+    ├── LLM 链 (Agent1→2→3) 异常回退  ← 新增
+    ├── Config → Runner 选择路由  ← 新增
+    ├── HINA + gcov → 报告渲染  ← 新增
+    └── JCL 解析 → 执行  ← 新增

-L3: 統合テスト ─ パイプライン全体 (test-data/ 10 programs, ~10 tests)
+L2: HINA 统合测试 (test-data/ 10 programs, ~10 tests)
    ├── HINA001: 1:1 マッチング
    ├── HINA005: IF条件分岐
    ├── HINA025: CALL
    └── HINA101: EXEC SQL

-L4: 実COBOLプログラム (jcl-cobol-git/ 4 programs, ~4 tests)
+L3: 実 COBOL 验证 (jcl-cobol-git/ 4 programs, ~4 tests)
    ├── CRDVAL / CRDCALC / CRDRPT / GENDATA
-    └── 実際の金銭計算との一致確認
+    └── 实际金额计算一致性确认

-L5: レグレッションテスト ─ 既存42テストの完全通過
+L4: 回归测试 ─ 既存 42 测试完全通过
+
+L5: 非功能测试 ─ 性能/并发/安全  ← 新增层级
+    ├── 大文件上传 10MB 边界
+    ├── Worker 并发任务处理
+    ├── 路径遍历/文件类型校验
+    └── LLM 超时/隔离时优雅降级
+
+L6: E2E UI 测试 ─ Playwright 浏览器测试  ← 新增层级
+    ├── 上传页加载/表单元素
+    ├── 文件上传 → 202 响应 → 轮询状态
+    └── 结果页面字段表格/摘要
 ```

-### テスト手法
+### 测试手法

-| 手法 | 適用レベル | 説明 |
-|:-----|:----------|:------|
-| TDD (レッド・グリーン) | L1 | テストを先に書き、実装で通す |
-| ゴールデンテスト | L3-L4 | 既知の正解値との一致確認 |
-| ファジング | L2 | 不正なCOBOL入力に対する耐性 |
-| 境界値分析 | L1-L2 | PIC 桁数境界、空値、極大値 |
-| エラー注入 | L2 | LLM timeout/malformed response の動作確認 |
-| デグレードテスト | L2 | gcov failure/absence 時の降格確認 |
-| 静的カバレッジ | L1-L2 | cobol_testgen の静的パス網羅率 |
+| 手法 | 适用层级 | 说明 |
+|:-----|:--------|:------|
+| TDD (红绿) | L0 | 先写测试，再实现 |
+| Golden 测试 | L2-L3 | 已知期望值对比 |
+| 模糊测试 | L1 | 异常 COBOL 输入容错 |
+| 边界值分析 | L0, L5 | PIC 桁数边界、空值、极值 |
+| 错误注入 | L0-L1 | LLM timeout/malformed、cobc 编译失败 |
+| 降级测试 | L1 | gcov failure/absence 时降级确认 |
+| 竞态条件 | L5 | 并发 Worker + Task JSON 文件读写 |
+| 安全审计 | L5 | 路径遍历、类型校验、信息泄露 |

 ---

-## L1: ユニットテスト
+## L0: 模块单元测试

-### 1.1 cobol_testgen API
+### 0.1 cobol_testgen API (保持 + 补充)

-| # | テスト名 | 内容 | 入力 | 期待出力 |
-|:-:|:---------|:-----|:-----|:---------|
-| UT-01 | extract_structure: 空プログラム | 空文字列 | `{"total_branches": 0}` |
-| UT-02 | extract_structure: IF 1個 | `IF A > B ... ELSE ...` | branches=2, decisions=1 |
-| UT-03 | extract_structure: EVALUATE | `EVALUATE X WHEN 1 ... WHEN OTHER` | decisions=1, WHEN数確認 |
-| UT-04 | extract_structure: 複数ファイル | 3ファイルのプログラム | file_count=3 open_directions確認 |
-| UT-05 | extract_structure: CALL文 | `CALL 'SUBPGM'` | has_call=True |
+测试文件: `tests/test_cobol_testgen.py`
+
+| # | 测试名 | 内容 | 输入 | 期待输出 |
+|:-:|:-------|:-----|:-----|:---------|
+| UT-01 | extract_structure: 空程序 | 空字符串 | `{"total_branches": 0}` |
+| UT-02 | extract_structure: IF 1个 | `IF A > B ... ELSE ...` | branches=2, decisions=1 |
+| UT-03 | extract_structure: EVALUATE | `EVALUATE X WHEN 1 ... WHEN OTHER` | decisions=1, WHEN 数确认 |
+| UT-04 | extract_structure: 多文件 | 3文件程序 | file_count=3 |
+| UT-05 | extract_structure: CALL | `CALL 'SUBPGM'` | has_call=True |
 | UT-06 | extract_structure: SEARCH ALL | OCCURS+SEARCH ALL | has_search_all=True |
-| UT-07 | extract_structure: 固定形式 | 7桁目からコードの固定形式 | 正常解析(段落数>0) |
-| UT-08 | generate_data: 正常生成 | IFプログラム | 2件以上のデータ |
-| UT-09 | generate_data: 空プログラム | 分岐なし | 0件または1件 |
-| UT-10 | incremental_supplement: 差分生成 | 未カバーID指定 | IDに対応するデータのみ |
-| UT-11 | incremental_supplement: 存在しないID | [-1] | 空リスト |
-| UT-12 | check_coverage: 静的報告 | structureのみ | "note"に静的限界の記述 |
-| UT-13 | _cobol_testgen_to_testcases: 型変換 | list[dict] | list[TestCase] |
+| UT-07 | extract_structure: 固定格式 | 7桁目代码固定格式 | 正常解析(段落数>0) |
+| UT-08 | extract_structure: GOBACK | GOBACK 语句 | 非 STOP RUN 但正确退出 |
+| UT-09 | extract_structure: ALTER | ALTER X TO PROCEED TO Y | 标记 alter 语句 |
+| UT-10 | extract_structure: ENTRY | ENTRY 'ENTPT' | 多入口点识别 |
+| UT-11 | extract_structure: 无 PROCEDURE DIVISION | 数据部只有 ID/DATA | 空结构返回，不崩溃 |
+| UT-12 | generate_data: 正常生成 | IF 程序 | ≥2 条数据 |
+| UT-13 | generate_data: 空程序 | 无分支 | 0 或 1 条 |
+| UT-14 | generate_data: 深嵌套 REDEFINES | A REDEFINES B REDEFINES C | 所有变体字段正确取值 |
+| UT-15 | generate_data: OCCURS DEPENDING 最大 | ODO 到达最大值 | 数组长度正确 |
+| UT-16 | generate_data: PIC 9(18) | 超出 64-bit 范围 | 不溢出，字符串表示 |
+| UT-17 | generate_data: SIGN LEADING/TRAILING SEPARATE | SIGN IS LEADING SEPARATE | 符号位正确 |
+| UT-18 | incremental_supplement: 差分 | 未覆盖 ID 指定 | 对应 ID 数据 |
+| UT-19 | incremental_supplement: 不存在 ID | [-1] | 空列表 |
+| UT-20 | check_coverage: 静态报告 | structure 仅 | "note" 含静态限制描述 |

-### 1.2 HINA Classifier
+### 0.2 cobol_testgen cond (新增)

-| # | テスト名 | 内容 | 入力 | 期待出力 |
-|:-:|:---------|:-----|:-----|:---------|
+测试文件: `tests/cobol_testgen/test_cond.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| CO-01 | parse_single_condition: 数值比较 | `A > 100` | CondLeaf(> 100) |
+| CO-02 | parse_single_condition: 文字列 | `B = 'Y'` | CondLeaf(= 'Y') |
+| CO-03 | parse_compound: AND | `A > 0 AND B < 5` | CondAnd(>0, <5) |
+| CO-04 | parse_compound: OR | `A = 1 OR B = 2` | CondOr(=1, =2) |
+| CO-05 | parse_compound: 嵌套 AND+OR | `(A > 0 AND B < 5) OR C = 1` | 正确优先级 |
+| CO-06 | mcdc_sets: IF | IF A > 100 | 2 sets |
+| CO-07 | mcdc_sets: AND | A > 0 AND B < 5 | 3 sets (MCDC) |
+| CO-08 | mcdc_sets: OR | A = 1 OR B = 2 | 3 sets (MCDC) |
+| CO-09 | evaluate_tree: 真路径 | A=200 当 A>100 | True |
+| CO-10 | evaluate_tree: 假路径 | A=50 当 A>100 | False |
+
+### 0.3 cobol_testgen core (新增)
+
+测试文件: `tests/cobol_testgen/test_core.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| CE-01 | scan_paragraphs: 正常 | 3段落 | 3个段落 |
+| CE-02 | scan_paragraphs: 空程序 | 无段落 | 空列表 |
+| CE-03 | build_branch_tree: IF | IF 语句 | BrIf 节点 |
+| CE-04 | build_branch_tree: EVALUATE | EVALUATE 语句 | BrEval 节点 |
+| CE-05 | build_branch_tree: PERFORM | PERFORM VARYING | BrPerform 含循环 |
+| CE-06 | build_branch_tree: SEARCH ALL | SEARCH ALL | BrSearch 节点 |
+| CE-07 | classify_field_roles: IO / WORKING / LINKAGE | IO / WORKING / LINKAGE 字段 | 正确角色分类 |
+| CE-08 | propagate_assignments: 嵌套组 | 子字段赋值传播 | 子字段继承值 |
+| CE-09 | propagate_assignments: REDEFINES | REDEFINES 字段赋值 | 共享起始位置 |
+
+### 0.4 cobol_testgen coverage (新增)
+
+测试文件: `tests/cobol_testgen/test_coverage.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| CV-01 | collect_decision_points: IF | 1个 IF | 1个决策点 (2分支) |
+| CV-02 | collect_decision_points: EVALUATE | EVALUATE 4 WHEN | 1决策点 4分支 |
+| CV-03 | collect_decision_points: SEARCH ALL | SEARCH ALL | 1决策点 |
+| CV-04 | mark_coverage: 全覆盖 | 所有分支有测试数据 | 覆盖率 100% |
+| CV-05 | mark_coverage: 部分覆盖 | 一半分支有数据 | 覆盖率 50% |
+| CV-06 | mark_coverage: 零覆盖 | 无测试数据 | 覆盖率 0% |
+| CV-07 | locate_decision_lines: 源码定位 | 已知决策点 | 正确行号 |
+| CV-08 | generate_html_report: 基本渲染 | 决策点+统计 | 有效 HTML |
+
+### 0.5 cobol_testgen design (新增)
+
+测试文件: `tests/cobol_testgen/test_design.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| DE-01 | enum_paths: 2层嵌套 | IF 内 IF | 路径枚举数正确 |
+| DE-02 | apply_constraint: 数值约束 | field > 100 | 字段值 > 100 |
+| DE-03 | apply_constraint: 文字约束 | field = 'ABC' | 字段值 'ABC' |
+| DE-04 | apply_constraint: MCDC 约束 | AND 条件 | 满足指定真值 |
+| DE-05 | generate_records: 基本 | 已知分支路径 | 记录字段值正确 |
+| DE-06 | sync_redefined_fields: REDEFINES | REDEFINES 字段 | 同步后值一致 |
+| DE-07 | apply_occurs_depending: ODO | OCCURS DEPENDING ON | 数组长度按依赖字段 |
+| DE-08 | make_base_record: 序列值 | seq_num=1 | 字段含序列值 |
+
+### 0.6 cobol_testgen read (新增)
+
+测试文件: `tests/cobol_testgen/test_read.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| RD-01 | preprocess: 固定格式 | 7桁目代码 | 正确提取 |
+| RD-02 | preprocess: 自由格式 | `>>SOURCE FORMAT IS FREE` | 正确提取 |
+| RD-03 | preprocess: COPY 展开 | `COPY CPYBOOK` | COPY 内容展开 |
+| RD-04 | preprocess: 嵌套 COPY | COPY 内含 COPY | 递归展开 |
+| RD-05 | extract_data_division: 多段 | ID/DATA/PROCEDURE | DATA DIVISION 文本 |
+| RD-06 | parse_pic: 简单 | PIC 9(4) | PicInfo(4, 0) |
+| RD-07 | parse_pic: 带小数 | PIC S9(7)V99 | PicInfo(9, 2, signed) |
+| RD-08 | parse_pic: COMP-3 | PIC S9(7)V99 COMP-3 | signed, COMP-3 |
+| RD-09 | parse_data_division: 层级 | 01/05/10/15 | 正确层级树 |
+| RD-10 | parse_data_division: 88-level | 88 AA VALUE 'X' | is_88 识别 |
+| RD-11 | parse_data_division: REDEFINES | 字段含 REDEFINES | redefines 属性 |
+| RD-12 | parse_data_division: OCCURS | OCCURS 10 TIMES | occurs=10 |
+| RD-13 | resolve_copybooks: 多路径 | 搜索多目录 | 找到 COPY |
+
+### 0.7 cobol_testgen output (新增)
+
+测试文件: `tests/cobol_testgen/test_output.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| OU-01 | output_json: 基本 | 3条测试记录 | 有效 JSON 文件 |
+| OU-02 | output_input_files: 多方向 | I-O / INPUT 字段 | 文件输出正确 |
+
+### 0.8 HINA Classifier (保持)
+
+测试文件: `tests/hina/test_classifier.py`
+
+| # | 测试名 | 内容 | 输入 | 期待 |
+|:-:|:-------|:-----|:-----|:------|
 | HC-01 | L1: DB操作 | `EXEC SQL SELECT` | category="DB操作" ≥90% |
-| HC-02 | L1: 子程序调用 | `CALL 'SUBPGM' ... LINKAGE SECTION` | category="子程序调用" ≥90% |
+| HC-02 | L1: 子程序调用 | `CALL ... LINKAGE SECTION` | category="子程序调用" ≥90% |
 | HC-03 | L1: SORT | `SORT WORK-FILE ON KEY` | category="SORT" ≥90% |
 | HC-04 | L1: IS INITIAL | `PROGRAM-ID. X IS INITIAL.` | category="IS INITIAL" ≥90% |
 | HC-05 | L1: 编辑输出 | `WRITE AFTER ADVANCING` | category="编辑输出" ≥80% |
 | HC-06 | L1: 文件编成 | `ORGANIZATION IS` | category="文件编成" ≥90% |
-| HC-07 | L1: キーワード重複 | DB操作+CALL両方 | 最大確信度のキーワード勝ち |
-| HC-08 | compute_confidence: L1≥90% | L1のみ | method="keyword" |
-| HC-09 | compute_confidence: LLM結果 | LLM result | method="hybrid" |
-| HC-10 | compute_confidence: 両方なし | キーワード無し+LLM無し | category="unknown" confidence=0 |
+| HC-07 | 关键字重叠 | DB操作+CALL 两者 | 最大确信度关键字胜出 |
+| HC-08 | compute_confidence: L1≥90% | L1 仅 | method="keyword" |
+| HC-09 | compute_confidence: LLM结果 | LLM 结果 | method="hybrid" |
+| HC-10 | compute_confidence: 两者无 | 关键字无+LLM无 | category="unknown" confidence=0 |

-### 1.3 HINA Strategy
+### 0.9 HINA Strategy (保持)

-| # | テスト名 | 内容 | 期待出力 |
-|:-:|:---------|:-----|:---------|
+测试文件: `tests/hina/test_strategy.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
 | HS-01 | get_strategy: マッチング | 9 required items |
 | HS-02 | get_strategy: キーブレイク | 6 required items |
 | HS-03 | get_strategy: 条件分岐 | 4 required items |
-| HS-04 | get_strategy: 未知のタイプ | 空テンプレート |
-| HS-05 | supplement: マーカー追加 | マーカーレコード含むlist |
-| HS-06 | supplement_only: 特定ギャップ | 指定IDのみのマーカー |
+| HS-04 | get_strategy: 未知类型 | 空模板 |
+| HS-05 | supplement: マーカー追加 | マーカーレコード含む list |
+| HS-06 | supplement_only: 特定间隙 | 指定 ID のみマーカー |

-### 1.4 Quality Gate
+### 0.10 HINA Gate (保持)

-| # | テスト名 | 内容 | 入力 | 期待 |
-|:-:|:---------|:-----|:-----|:------|
-| QG-01 | 全通過 | branch≥95%, paragraph=100% | passed=True |
-| QG-02 | 分岐不足 | branch=80% | passed=False, decision_gaps有 |
+测试文件: `tests/hina/test_gate.py`
+
+| # | 测试名 | 内容 | 输入 | 期待 |
+|:-:|:-------|:-----|:-----|:------|
+| QG-01 | 全通过 | branch≥95%, paragraph=100% | passed=True |
+| QG-02 | 分岐不足 | branch=80% | passed=False, decision_gaps 有 |
 | QG-03 | 段落不足 | paragraph=0.5 | passed=False |
-| QG-04 | データ無し | empty list | passed=False, no_data=True |
-| QG-05 | スコア計算 | branch=0.92, para=1.0 | score=0.976 | 例: (1.0×0.5+0.92×0.5)×0.6+1.0×0.4=0.976 |
+| QG-04 | 数据无 | empty list | passed=False, no_data=True |
+| QG-05 | 评分计算 | branch=0.92, para=1.0 | score=0.976 |

-### 1.5 Retry Handler
+### 0.11 HINA Retry (保持 + 补充)

-| # | テスト名 | 内容 | 期待 |
-|:-:|:---------|:-----|:------|
-| RH-01 | 即時PASS | 1回目でPASS | heal=0, simple=0 |
-| RH-02 | heal回復 | BLOCKED→環境修正→PASS | heal=1, simple=0 |
-| RH-03 | simple回復 | BLOCKED→リトライ→PASS | heal=0, simple=1 |
-| RH-04 | 上限超過 | 全てFAIL | status=FATAL |
-| RH-05 | QUALITY_WARNはリトライ不要 | QUALITY_WARN→即戻り | heal=0, simple=0 |
+测试文件: `tests/hina/test_retry.py`

-### 1.6 Report Generator
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| RH-01 | 即时 PASS | 1次 PASS | heal=0, simple=0 |
+| RH-02 | heal 恢复 | BLOCKED→环境修复→PASS | heal=1, simple=0 |
+| RH-03 | simple 恢复 | BLOCKED→重试→PASS | heal=0, simple=1 |
+| RH-04 | 上限超限 | 全部 FAIL | status=FATAL |
+| RH-05 | QUALITY_WARN 不需重试 | QUALITY_WARN→立即返回 | heal=0, simple=0 |
+| RH-06 | heal 环境修复失败 | heal 尝试仍然 BLOCKED | simple 回退 | ← 新增 |
+| RH-07 | 并发重试计数 | 同时 heal + simple | 计数不竞争 | ← 新增 |

-| # | テスト名 | 内容 | 期待 |
-|:-:|:---------|:-----|:------|
-| RG-01 | generate_json: 新フィールド | VerificationRun全フィールド | JSONに全フィールド含む |
-| RG-02 | generate_html: カバレッジ表示 | paragraph_rate>0 | "段落覆盖率"表示 |
-| RG-03 | generate_html: HINA表示 | hina_type設定 | "判定类型"表示 |
-| RG-04 | generate_html: HINA非表示 | hina_type="" | HINAセクション無し |
-| RG-05 | generate_html: 品質スコア表示 | quality_score>0 | "质量评分"表示 |
-| RG-06 | generate_html: 品質スコア非表示 | quality_score=0 | 品質セクション無し |
-| RG-07 | generate_html: 警告表示 | quality_warn設定 | 警告バナー表示 |
-| RG-08 | generate_machine_json: 全フィールド | VerificationRun | branch_rate等を含む |
-| RG-09 | generate_json: 後方互換 | 新フィールド未設定 | 既存JSONと同じ構造 |
+### 0.12 HINA gcov_collector (新增)
+
+测试文件: `tests/hina/test_gcov_collector.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| GC-01 | collect_gcov: cobc 未安装 | 无 cobc 命令 | available=False, reason=cobc_not_found |
+| GC-02 | collect_gcov: .gcda/.gcno 不存在 | 工作目录无覆盖文件 | available=False, reason=no_coverage_data |
+| GC-03 | collect_gcov: 正常 | 有效 .gcda/.gcno | available=True, line_rate>0 |
+
+### 0.13 HINA Agent (LLM 分类) (补充)
+
+测试文件: `tests/hina/test_agent.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| HA-01 | classify_with_llm: 正常 | 有效结构体 | 返回 dict 含 category |
+| HA-02 | classify_with_llm: LLM 返回非法 JSON | LLM 返回乱码 | fallback 分类 | ← 新增 |
+| HA-03 | classify_with_llm: LLM 返回空字符串 | LLM 返回 "" | fallback 分类 | ← 新增 |
+| HA-04 | classify_with_llm: LLM 超时 | httpx.TimeoutException | fallback + 日志输出 | ← 新增 |
+| HA-05 | _parse_llm_response: 合法 JSON | `{"category": "DB操作"}` | 解析成功 |
+| HA-06 | _parse_llm_response: 非法 JSON | "暂无" | try/except 不崩溃 |
+| HA-07 | _parse_llm_response: 含 markdown 包裹 | `` ```json ... ``` `` | 正确提取 JSON |
+| HA-08 | _fallback_classification: 纯 DB | EXEC SQL 无其他 | "DB操作" |
+| HA-09 | _fallback_classification: 纯 CALL | CALL 无 SQL | "子程序调用" |
+| HA-10 | _fallback_classification: 两者无 | 无关键字匹配 | "unknown" |
+
+### 0.14 orchestrator (新增 — 🔥 高风险)
+
+测试文件: `tests/test_orchestrator.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| OR-01 | run_pipeline: 正常路径 | 所有组件正常工作 | VerificationRun 返回, status=PASS |
+| OR-02 | run_pipeline: cobol_testgen 返回空 | extract_structure 空 | pipeline 继续, 适当错误 |
+| OR-03 | run_pipeline: HINA Agent 异常 | classify_with_llm 抛出 | 不阻断 pipeline, 日志记录 |
+| OR-04 | run_pipeline: quality gate 失败 | 覆盖率不足 | QUALITY_WARN 设置 |
+| OR-05 | run_pipeline: gcov 不可用 | collect_gcov 失败 | available=False, pipeline 继续 |
+| OR-06 | run_pipeline: Java 编译失败 | mvn 返回非零 | status=BLOCKED, exit_code≠0 |
+| OR-07 | run_pipeline: cobc 编译失败 | cobc 返回非零 | status=BLOCKED |
+| OR-08 | run_pipeline: Runner 运行失败 | run() 返回非零 | status=BLOCKED |
+| OR-09 | run_pipeline: LLM 全部回退 | Agent1/2/3 全部 fallback | 无崩溃, 结果含 fallback 标记 |
+| OR-10 | run_pipeline: 无 LLM API key | 环境变量不存在 | Agent1/2/3 使用默认值/failback |
+| OR-11 | run_pipeline: 大文件 (10000行 COBOL) | 大型输入文件 | 30秒内完成, 不超时 | ← 新增非功能 |
+| OR-12 | _done: 正常结束 | 标准 VerificationRun | 正确写入 report_path |
+
+### 0.15 web/api.py (新增 — 🔥 高风险)
+
+测试文件: `tests/web/test_api.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| WA-01 | GET / 返回 HTML | 无参数 | 200, Content-Type text/html |
+| WA-02 | POST /verify 正常上传 | 4个文件 + runner= native | 202, 含 task_id, status=queued |
+| WA-03 | POST /verify 文件超 10MB | 超大文件 | 413 |
+| WA-04 | POST /verify 缺少文件 | 3个文件 | 422 或 400 |
+| WA-05 | POST /verify runner=spark | spark 模式 | 202, runner=spark |
+| WA-06 | GET /status 存在任务 | 有效 task_id | 200, 含 status |
+| WA-07 | GET /status 不存在 | 无效 task_id | 404 |
+| WA-08 | GET /status 任务完成 | 结果已写入 | status=done, fields 含数据 |
+| WA-09 | GET /fields 正常 | 有效 task_id | 200, 字段列表 |
+| WA-10 | GET /fields 任务不存在 | 无效 task_id | 404 |
+| WA-11 | GET / 表单元素存在 | 渲染检查 | 5 个文件/输入元素 |
+| WA-12 | 路径遍历防护 | `../../../etc/passwd` 文件上传 | 拒绝或 sanitize | ← 安全 |
+
+### 0.16 web/worker.py (新增 — 🔥 高风险)
+
+测试文件: `tests/web/test_worker.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| WR-01 | main: 无任务 | 空 tasks/ 目录 | 无操作, 继续循环 |
+| WR-02 | main: 正常任务 | queued 任务文件 | 处理, 状态→done |
+| WR-03 | main: 任务文件损坏 | 非法 JSON | 异常处理, 不崩溃 |
+| WR-04 | main: runner=spark 但无 spark-submit | spark-submit 不在 PATH | 状态→blocked, 含 reason |
+| WR-05 | main: 并发任务 | 2个 queued 任务 | 依次处理, 各有结果 |
+| WR-06 | main: Worker 中断恢复 | running 状态→重启 Worker | running 任务可重新处理 |
+| WR-07 | Task 文件状态机 | queued→running→done 转换 | 状态不可逆 |
+
+### 0.17 agents 模块 (新增)
+
+测试文件: `tests/agents/test_agents.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| AG-01 | LLMClient.call: 正常 | 消息列表 | 返回响应字符串 |
+| AG-02 | LLMClient.call: 缓存命中 | 相同消息两次调用 | 第二次返回缓存, 不调 API |
+| AG-03 | LLMClient.call: 超时 | httpx 超时 | 抛出异常 |
+| AG-04 | LLMClient.call: 重试成功 | 首次 500, 重试 200 | 最终成功返回 |
+| AG-05 | LLMClient.call: 重试耗尽 | 全部失败 | 抛出异常 |
+| AG-06 | Agent1Parser.parse: 正常 COPYBOOK | 合法字段列表 | 返回 FieldTree, 字段数正确 |
+| AG-07 | Agent1Parser.parse: LLM 返回非法 JSON | LLM 返回 `not json` | 返回 FieldTree(copybook_name="parse_error") |
+| AG-08 | Agent1Parser.parse: JSON 缺失 fields | `{}` | 空 FieldTree, 不崩溃 |
+| AG-09 | Agent2Data.design: 正常 | 已知 FieldTree | TestSuite 含测试 case |
+| AG-10 | Agent2Data.design: LLM 返回非法 | LLM 异常 | 返回 TestSuite 含 TC-FALLBACK |
+| AG-11 | Agent2Data.design: spark_mode | spark=True | SparkConfig 生成 |
+| AG-12 | Agent3Diagnostic.analyze: 正常 | FieldResult MISMATCH | 返回诊断字符串 |
+
+### 0.18 config (新增)
+
+测试文件: `tests/config/test_config.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| CF-01 | Config: 默认值 | 无参数 | runner_mode=native, llm_model=gpt-4o-mini |
+| CF-02 | Config: from_toml | 有效 TOML 文件 | 正确解析 |
+| CF-03 | Config: from_toml 文件不存在 | 不存在路径 | 默认值 |
+| CF-04 | Config: from_toml 非法 TOML | 格式错误 | 妥善处理/不崩溃 |
+| CF-05 | MappingConfig: 正常 | 有效 YAML 映射 | FieldMapping 列表 |
+| CF-06 | MappingConfig: 空映射 | 空 YAML | 空列表 |
+| CF-07 | MappingConfig: 格式错误 | 非法 YAML | 解析错误处理 |
+
+### 0.19 runners (新增)
+
+测试文件: `tests/runners/test_runners.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| RN-01 | Runner 抽象类 | 实例化 | TypeError (抽象) |
+| RN-02 | NativeJavaRunner.compile: 成功 | mvn 成功 | BuildResult(success=True) |
+| RN-03 | NativeJavaRunner.compile: Maven 失败 | mvn 非零退出 | BuildResult(success=False) |
+| RN-04 | NativeJavaRunner.run: 正常 | jar 输出 JSON | RunResult(records 含数据) |
+| RN-05 | NativeJavaRunner.run: 无输出 | jar 输出空 | RunResult(records=[]) |
+| RN-06 | CobolRunner.compile: 成功 | cobc 成功 | BuildResult(success=True) |
+| RN-07 | CobolRunner.compile: 编译错误 | cobc 语法错误 | BuildResult(success=False) |
+| RN-08 | CobolRunner.compile: gcov 参数 | gcov=True | 含 -fprofile-arcs 参数 |
+| RN-09 | CobolRunner.run: 正常 | 二进制执行 | RunResult(success=True) |
+| RN-10 | DataWriter.write: 正常 | TestSuite 数据 | 文件写入正确 |
+
+### 0.20 jcl (新增)
+
+测试文件: `tests/jcl/test_jcl.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| JC-01 | parse_jcl: 基本 JOB | JOB + 2 STEP | 1个 Job, 2个 JobStep |
+| JC-02 | parse_jcl: COND 参数 | COND=(0,NE) | CondParam(0, NE) |
+| JC-03 | parse_jcl: DD 语句 | DD DSN=..., DISP=SHR | DDEntry 含 DSN/DISP |
+| JC-04 | parse_jcl: 续行 | 多行 DD 语句 | 合并为单行 |
+| JC-05 | parse_jcl: 空文件 | 无内容 | 返回 None |
+| JC-06 | parse_jcl: 注释行 | `//* COMMENT` | 跳过注释 |
+| JC-07 | parse_jcl: 文件不存在 | 无效路径 | 返回 None |
+| JC-08 | JclExecutor.execute: 正常 | 已解析 Job | 执行结果 |
+
+### 0.21 quality (新增)
+
+测试文件: `tests/quality/test_quality.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| QL-01 | L1OffsetValidator.validate: cobc 存在 | 有效 FieldTree | 含 score/mismatches |
+| QL-02 | L1OffsetValidator.validate: cobc 不存在 | 无 cobc | 异常或 fallback |
+| QL-03 | L2RoundtripValidator.validate: 无 COMP-3 | 无 COMP-3 字段 | pass=True, results=[] |
+| QL-04 | L2RoundtripValidator.validate: 有 COMP-3 | 含 COMP-3 字段 | pass=True, 字段值正确 |
+
+### 0.22 storage (新增)
+
+测试文件: `tests/storage/test_storage.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| ST-01 | DiskCache.get/set: 正常 | key-value 存取 | 获取与设置一致 |
+| ST-02 | DiskCache.get: 不存在 | 无缓存 key | 返回 None |
+| ST-03 | ReportStore.save_history: 正常 | JSONL 写入 | 追加文件 |
+| ST-04 | TestDataBundle: 路径 | base_path | cobol_input/spark_input 正确 |
+
+### 0.23 preprocessor (新增)
+
+测试文件: `tests/test_preprocessor.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| PP-01 | expand: 有 COPY 文件 | COPY CPYBOOK → 文件存在 | COPYBOOK 内容展开 |
+| PP-02 | expand: 无 COPY 文件 | COPY NOTEXIST | "NOT FOUND" 标记 |
+| PP-03 | expand: 无 COPY 语句 | 纯文本 | 原文不变 |
+
+### 0.24 数据模型 (补充断言)
+
+测试文件: `tests/data/test_models.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| DM-01 | Field 构建 | 所有属性 | 属性值正确 |
+| DM-02 | FieldTree.flatten: 嵌套 | 层级字段 | 展平字典含所有字段 |
+| DM-03 | FieldTree.flatten: 同名字段 | 不同层级同名 | 后覆盖前 |
+| DM-04 | VerificationRun: 默认 timestamp | 空构造 | timestamp 自动填充 |
+| DM-05 | VerificationRun.verdict: PASS | status=PASS | "PASS" |
+| DM-06 | VerificationRun.verdict: BLOCKED | status=BLOCKED | "BLOCKED" |
+| DM-07 | VerificationRun.total_fields | matched=5, mismatched=3 | 8 |
+| DM-08 | TestSuite.has_spark | spark_config 有/无 | True/False |
+| DM-09 | FieldResult 容忍度 | tolerance_applied>0 | 状态含 PASS 但标记 |
+
+### 0.25 报告生成器 (保持)
+
+测试文件: `tests/report/test_generator.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| RG-01 | generate_json: 新字段 | VerificationRun 全字段 | JSON 含所有字段 |
+| RG-02 | generate_html: 覆盖率显示 | paragraph_rate>0 | "段落覆盖率" 显示 |
+| RG-03 | generate_html: HINA 显示 | hina_type 设置 | "判定类型" 显示 |
+| RG-04 | generate_html: HINA 不显示 | hina_type="" | HINA 区不显示 |
+| RG-05 | generate_html: 质量评分显示 | quality_score>0 | "质量评分" 显示 |
+| RG-06 | generate_html: 质量评分不显示 | quality_score=0 | 质量区不显示 |
+| RG-07 | generate_html: 警告显示 | quality_warn 设置 | 警告栏显示 |
+| RG-08 | generate_machine_json: 全字段 | VerificationRun | branch_rate 等包含 |
+| RG-09 | generate_json: 向后兼容 | 新字段未设置 | 与现有 JSON 同结构 |
+
+### 0.26 comparator (新增)
+
+测试文件: `tests/comparator/test_comparator_all.py`
+
+| # | 测试名 | 内容 | 期待 |
+|:-:|:-------|:-----|:------|
+| CP-01 | compare_field: 数值完全一致 | c="100.00", j="100.00" | status=PASS |
+| CP-02 | compare_field: 数值容忍度内 | c="100.01", j="100.00", tol=0.02 | status=PASS |
+| CP-03 | compare_field: 数值超出容忍 | c="110.00", j="100.00", tol=0.02 | status=MISMATCH |
+| CP-04 | compare_field: 日期一致 | 同日期不同格式 | PASS |
+| CP-05 | compare_field: 字符串 | c="ABC", j="ABC" | PASS |
+| CP-06 | align_records: 1:1 | COBOL 1条, Java 1条, 键匹配 | 1个对齐对 |
+| CP-07 | align_records: 多对多 | 3条+3条, 键匹配 | 3个对齐对 |
+| CP-08 | align_records: 无匹配 | 无共同键 | 空结果 |
+| CP-09 | detect_rounding: 有 rounding | c=100, j=99.99 | RoundingResult(detected=True) |
+| CP-10 | detect_rounding: 无 rounding | c=100.00, j=100.00 | RoundingResult(detected=False) |

 ---

-## L2: 結合テスト
+## L1: 结合测试

-| # | テスト名 | シナリオ | 期待 |
-|:-:|:---------|:---------|:------|
-| CT-01 | extract→generate 一貫性 | 同一ソースでextract→generate | generate_dataがデータ生成可能 |
-| CT-02 | HINA→Strategy マッピング | マッチング分類→全マーカー生成 | 9個のマーカー |
-| CT-03 | QG→incremental ループ制御 | 分岐不足→supplement→再検査 | passed=Trueになる |
-| CT-04 | strategy→TestCase 型整合 | supplement出力→TestCase変換 | TestCaseオブジェクトとして利用可 |
-| CT-05 | orchestrator: 正常系 | cobol_testgen→HINA→QG→DataWriter | complete_testsがDataWriterに渡る |
-| CT-06 | orchestrator: LLM例外 | HINA Agentが例外発生 | エラーログ出力、パイプライン継続 |
-| CT-07 | orchestrator: gcov無効 | gcov_enabled=False | 動的カバレッジスキップ |
-| CT-08 | gcov_collector: 非インストール | gcovコマンド不在 | available=False |
-| CT-09 | gcov_collector: 正常 | .gcda/.gcno存在 | available=True, line_rate計算 |
-| CT-10 | Config: 品質ゲート設定 | aurak.toml変更→from_toml | quality_gate_mode=warn |
+测试文件: `tests/test_integration.py`
+
+| # | 测试名 | 场景 | 期待 |
+|:-:|:-------|:------|:------|
+| CT-01 | extract→generate 一致性 | 同源 extract→generate | generate_data 可生成数据 |
+| CT-02 | HINA→Strategy 映射 | 匹配分类→全标记生成 | 9个标记 |
+| CT-03 | QG→incremental 循环控制 | 分支不足→supplement→再检查 | passed=True |
+| CT-04 | strategy→TestCase 型一致 | supplement 输出→TestCase 转换 | 可作为 TestCase 使用 |
+| CT-05 | orchestrator: 正常路径 | cobol_testgen→HINA→QG→DataWriter | complete_tests 到 DataWriter |
+| CT-06 | orchestrator: LLM 异常 | HINA Agent 异常 | 错误日志, pipeline 继续 |
+| CT-07 | orchestrator: gcov 无效 | gcov_enabled=False | 动态覆盖率跳过 |
+| CT-08 | API→Worker→Orchestrator 全链路 | POST → Worker 消费 → 结果可查 | 状态 queued→running→done | ← 新增 |
+| CT-09 | LLM Agent 链异常回退 | Agent1 失败 → Agent2/3 可用 | Agent2 含 TC-FALLBACK | ← 新增 |
+| CT-10 | Config→Runner 路由 | runner_mode=spark → SparkJavaRunner | 正确 Runner 实例化 | ← 新增 |
+| CT-11 | HINA+gcov→报告渲染 | 覆盖率数据 → 报告 HTML | HTML 含覆盖率和 HINA | ← 新增 |
+| CT-12 | JCL 解析→执行 | parse→execute 数据流 | 执行结果 | ← 新增 |
+| CT-13 | gcov_collector: 未安装 | gcov 命令不存在 | available=False | ← L1 移入 |
+| CT-14 | gcov_collector: 正常 | .gcda/.gcno 存在 | available=True, line_rate 计算 | ← L1 移入 |
+| CT-15 | Config: 质量门禁设置 | aurak.toml 变更→from_toml | quality_gate_mode=warn | ← L1 移入 |

 ---

-## L3: HINA 統合テスト
+## L2: HINA 统合测试

-test-data/cobol/HINA*.cbl の10プログラムを使用:
+测试文件: `test-data/run_validation.py` (HINA*.cbl 10个程序)

-| # | プログラム | 検証項目 | 期待 |
-|:-:|:----------|:---------|:------|
-| IT-01 | HINA001 | マッチング構造解析 | 段落≥8, ファイル≥2 |
-| IT-02 | HINA005 | IF分岐カバレッジ | 分岐≥6, 決定点≥3 |
-| IT-03 | HINA006 | EVALUATEカバレッジ | 分岐≥6, 決定点≥3 |
-| IT-04 | HINA007 | キーブレイク解析 | 段落≥3, ファイル≥2 |
-| IT-05 | HINA013 | 項目チェック解析 | 分岐≥6, 決定点≥3 |
-| IT-06 | HINA025 | L1分類+CALL解析 | HINA="子程序调用", confidence≥90% |
-| IT-07 | HINA101 | L1分類+SQL解析 | HINA="DB操作", confidence≥95% |
-| IT-08 | run_validation.py全実行 | 全HINAプログラム | 8/10 pass (既知制限2件) |
+| # | 程序 | 验证项 | 期待 |
+|:-:|:-----|:-------|:------|
+| IT-01 | HINA001 | 匹配结构分析 | 段落≥8, 文件≥2 |
+| IT-02 | HINA005 | IF 分支覆盖率 | 分支≥6, 决策点≥3 |
+| IT-03 | HINA006 | EVALUATE 覆盖率 | 分支≥6, 决策点≥3 |
+| IT-04 | HINA007 | 键中断分析 | 段落≥3, 文件≥2 |
+| IT-05 | HINA013 | 项目检查分析 | 分支≥6, 决策点≥3 |
+| IT-06 | HINA025 | L1 分类+CALL 分析 | HINA="子程序调用", confidence≥90% |
+| IT-07 | HINA101 | L1 分类+SQL 分析 | HINA="DB操作", confidence≥95% |
+| IT-08 | run_validation.py 全执行 | 所有 HINA 程序 | 8/10 pass (已知限制2) |

 ---

-## L4: 実COBOLプログラム統合
+## L3: 実 COBOL 验证

-jcl-cobol-git/ の4プログラムを使用:
-
-| # | プログラム | 検証項目 | 期待 |
-|:-:|:----------|:---------|:------|
-| RT-01 | CRDVAL | COPYBOOK展開+全パイプライン | エラー無し |
+| # | 程序 | 验证项 | 期待 |
+|:-:|:-----|:-------|:------|
+| RT-01 | CRDVAL | COPYBOOK 展开+全 pipeline | 无错误 |
 | RT-02 | CRDCALC | 同上 | 同上 |
 | RT-03 | CRDRPT | 同上 | 同上 |
 | RT-04 | GENDATA | 同上 | 同上 |

 ---

-## L5: レグレッションテスト
+## L4: 回归测试

-| # | テスト | コマンド | 期待 |
-|:-:|:-------|:---------|:------|
-| RG-01 | comparator 全テスト | `pytest tests/comparator/ -v` | 22 passed |
-| RG-02 | report 全テスト | `pytest tests/report/ -v` | 3 passed |
-| RG-03 | golden 全テスト | `pytest tests/test_golden.py -v` | 11 passed |
-| RG-04 | e2e imports | `pytest tests/test_e2e.py -v` | 1 passed |
-| RG-05 | 全ユニット | `pytest tests/ --ignore=e2e/ --ignore=test_web_e2e.py --ignore=test_biz_e2e.py -v` | 42 passed |
+| # | 测试 | 命令 | 期待 |
+|:-:|:-----|:------|:------|
+| RE-01 | comparator 全测试 | `pytest tests/comparator/ -v` | 22 passed |
+| RE-02 | report 全测试 | `pytest tests/report/ -v` | 3 passed |
+| RE-03 | golden 全测试 | `pytest tests/test_golden.py -v` | 11 passed |
+| RE-04 | e2e imports | `pytest tests/test_e2e.py -v` | 1 passed |
+| RE-05 | 全单元 | `pytest tests/ --ignore=e2e/ --ignore=test_web_e2e.py --ignore=test_biz_e2e.py -v` | 42 passed |

 ---

-## エッジケーステスト
+## L5: 非功能测试

-| # | シナリオ | 入力 | 期待 |
-|:-:|:---------|:-----|:------|
-| EC-01 | 空COBOL | `IDENTIFICATION DIVISION. PROGRAM-ID. X.` | エラー無し |
-| EC-02 | 巨大プログラム | 1万行レベル | タイムアウト無し(30秒以内) |
-| EC-03 | 日本語文字列 | PIC N 全角データ | extract正常 |
-| EC-04 | REDEFINES | REDEFINES使用プログラム | 正常解析 |
-| EC-05 | OCCURS DEPENDING | ODO使用 | 正常解析 |
-| EC-06 | 88-level値 | 88-level多数 | is_88=Trueで認識 |
-| EC-07 | コメントのみ | 全行コメント | エラー無し |
-| EC-08 | 不正PIC | `PIC X`の代わりに`PIC XXX` | 正常 |
-| EC-09 | 空ファイルパス | --cobol-srcで存在しないファイル | BLOCKED |
-| EC-10 | Lark文法エラー | 予期しない文字列 | 空構造、エラーログ出力 |
+### 5.1 性能
+
+测试文件: `tests/nonfunctional/test_performance.py`
+
+| # | 测试名 | 场景 | 接受标准 |
+|:-:|:-------|:------|:---------|
+| NF-01 | COBOL 10万行解析时间 | extract_structure 含10万行输入 | ≤30秒完成 |
+| NF-02 | 大文件上传 10MB 边界 | POST /verify 9.5MB 文件 | 202 响应, ≤10秒 |
+| NF-03 | Worker 并发任务处理 | 5个任务同时 enqueue | 全部完成, ≤60秒 |
+| NF-04 | 报告 HTML 生成:大数据集 | 1000字段结果渲染 | ≤5秒 |
+| NF-05 | LLM 调用缓存加速 | 相同请求重复调用 | 第二次 ≤100ms |
+
+### 5.2 并发安全
+
+测试文件: `tests/nonfunctional/test_concurrency.py`
+
+| # | 测试名 | 场景 | 期待 |
+|:-:|:-------|:------|:------|
+| NF-06 | 同时 POST 相同文件 | 2个并行 /verify 请求 | 不同 task_id |
+| NF-07 | Worker 双实例 | 2个 Worker 同时 polling | 无任务重复处理 |
+| NF-08 | Task JSON 并发读写 | 读的同时 Worker 在写入 | 无损坏/无异常 |
+
+### 5.3 安全
+
+测试文件: `tests/nonfunctional/test_security.py`
+
+| # | 测试名 | 场景 | 期待 |
+|:-:|:-------|:------|:------|
+| NF-09 | 路径遍历: 上传文件名 | 文件名 `../../../etc/passwd` | 拒绝或 sanitize |
+| NF-10 | 路径遍历: copybook 路径 | `--cobol-src ../../../etc/passwd` | BLOCKED |
+| NF-11 | 文件类型校验 | 非 COBOL 文件扩展名 | 接受或合理处理 |
+| NF-12 | API key 环境变量未设置 | LLM_API_KEY 为空 | Agent 使用 fallback 而非崩溃 |
+| NF-13 | 错误信息泄露 | API 返回 stack trace | 不包含敏感路径 |
+
+### 5.4 错误恢复与降级
+
+测试文件: `tests/nonfunctional/test_resilience.py`
+
+| # | 测试名 | 场景 | 期待 |
+|:-:|:-------|:------|:------|
+| NF-14 | Worker 中断→重启 | Worker 在 running 状态崩溃 | 重启后可重新处理 |
+| NF-15 | 磁盘满模拟 | task JSON 写失败 | 错误日志, 不崩溃 |
+| NF-16 | LLM API 不可用 | 网络隔离 | Agent 全部 fallback, pipeline 继续 |
+| NF-17 | cobc 非 fatal warning | 编译通过但有 warning | pipeline 继续, warning 记录 |

 ---

-## エラー注入テスト
+## L6: E2E UI 测试 (Playwright)

-| # | シナリオ | 注入方法 | 期待 |
-|:-:|:---------|:---------|:------|
-| EI-01 | LLMタイムアウト | LLMClient.call でtimeout | フォールバック実行、ログ出力 |
-| EI-02 | LLM不正JSON | 応答が無効JSON | _fallback_classification 使用 |
-| EI-03 | LLM空文字 | 応答が空文字 | 同上 |
-| EI-04 | gcovコマンド不在 | gcov利用不可 | available=False reason=gcov_not_installed |
-| EI-05 | gcov出力異常 | 不正な.gcovファイル | available=False reason=gcov_failed |
-| EI-06 | extract_structure 解析失敗 | Larkがパースできない入力 | 空構造返却、ログ出力 |
-| EI-07 | generate_data 空結果 | 分岐0のプログラム | 空リスト返却 |
+测试文件: `tests/test_web_e2e.py`
+
+| # | 测试名 | 场景 | 期待 |
+|:-:|:-------|:------|:------|
+| UI-01 | 上传页加载 | GET / | 标题含 verify, h1 可见 |
+| UI-02 | 表单元素存在 | 检查 4个文件输入 + 下拉框 | 所有元素可见, 可交互 |
+| UI-03 | 文件上传 | 选择4个文件 → 提交 | 202 响应, 跳转到 /status |
+| UI-04 | 上传后轮询 | 等待 Worker 完成 | 状态从 queued→done |
+| UI-05 | 结果页面: 摘要 | 验证完成 | 显示 matched/mismatched |
+| UI-06 | 结果页面: 字段表 | 字段列表渲染 | 每列含 name/status/COBOL/Java |
+| UI-07 | 无效文件上传 | 上传非 COBOL 文件 | 合理错误提示 |

 ---

-## カバレッジ計測
+## 边界测试 (补充 L0-L3)
+
+| # | 场景 | 输入 | 期待 |
+|:-:|:-----|:------|:------|
+| EC-01 | 空 COBOL | `IDENTIFICATION DIVISION. PROGRAM-ID. X.` | 无错误 |
+| EC-02 | 巨大程序 | 1万行级别 | 30秒内无超时 |
+| EC-03 | 日文字符串 | PIC N 全角数据 | extract 正常 |
+| EC-04 | REDEFINES | REDEFINES 使用 | 正常解析 |
+| EC-05 | OCCURS DEPENDING | ODO 使用 | 正常解析 |
+| EC-06 | 88-level 值 | 88-level 多个 | is_88=True 识别 |
+| EC-07 | 仅注释 | 全行注释 | 无错误 |
+| EC-08 | 非法 PIC | `PIC XXX` 非标准 | 正常或合理 fallback |
+| EC-09 | 空文件路径 | `--cobol-src` 不存在的文件 | BLOCKED |
+| EC-10 | Lark 语法错误 | 未预期的字符串 | 空结构, 错误日志 |
+| EC-11 | COMP-3 无效 sign nibble | 0xF 异常 nibble | 取值或报错 | ← 新增 |
+| EC-12 | REDEFINES 链 A→B→C | 3层 REDEFINES | 所有变体可访问 | ← 新增 |
+| EC-13 | GOBACK 对比 STOP RUN | GOBACK 程序 | 正常退出 | ← 新增 |
+| EC-14 | 无文件上传 | POST /verify 无任何文件 | 422 错误 | ← 新增 |
+| EC-15 | mapping.yaml 格式错误 | 非法 YAML | 解析错误处理 | ← 新增 |---
+## 程序类型覆盖 (33+2 COBOL 程序类型覆盖行)
+
+| 程序类型 | 覆盖状态 | Phase | 测试文件 |
+|:---------|:--------:|:-----:|:---------|
+| simple_sequential | ✅ | Phase 7 | `tests/parametrized/test_matching.py` |
+| condition_heavy | ✅ | Phase 7 | `tests/parametrized/test_matching.py` |
+| evaluate_driven | ✅ | Phase 7+8 | `tests/parametrized/test_call_search.py` |
+| data_file_centric | ✅ | Phase 7 | `tests/parametrized/test_matching.py` |
+| search_intensive | ✅ | Phase 8 | `tests/parametrized/test_call_search.py` |
+| call_based | ✅ | Phase 8 | `tests/parametrized/test_call_search.py` |
+| mixed_complex | ✅ | Phase 9 | `tests/parametrized/test_crosscutting.py` |
+| 1:1 matching | ✅ | Phase 7 | `tests/parametrized/test_matching.py` |
+| 1:N matching | ✅ | Phase 7 | `tests/parametrized/test_matching.py` |
+| N:1 matching | ✅ | Phase 7 | `tests/parametrized/test_matching.py` |
+| KEY break (accumulate) | ✅ | Phase 7 | `tests/parametrized/test_matching.py` |
+| KEY break (aggregate) | ✅ | Phase 7 | `tests/parametrized/test_matching.py` |
+| KEY break (mark) | ✅ | Phase 7 | `tests/parametrized/test_matching.py` |
+| Division 50/50 | ✅ | Phase 7 | `tests/parametrized/test_division.py` |
+| Division 25/25/25/25 | ✅ | Phase 7 | `tests/parametrized/test_division.py` |
+| Division 100 (all) | ✅ | Phase 7 | `tests/parametrized/test_division.py` |
+| CSV → FB conversion | ✅ | Phase 7 | `tests/parametrized/test_csv_conversion.py` |
+| CALL BY REFERENCE | ✅ | Phase 8 | `tests/parametrized/test_call_search.py` |
+| CALL BY VALUE | ✅ | Phase 8 | `tests/parametrized/test_call_search.py` |
+| CALL BY CONTENT | ✅ | Phase 8 | `tests/parametrized/test_call_search.py` |
+| SEARCH ALL (binary) | ✅ | Phase 8 | `tests/parametrized/test_call_search.py` |
+| SEARCH ALL (duplicate) | ✅ | Phase 8 | `tests/parametrized/test_call_search.py` |
+| SORT (ascending) | ✅ | Phase 8 | `tests/parametrized/test_sort_merge.py` |
+| SORT (descending) | ✅ | Phase 8 | `tests/parametrized/test_sort_merge.py` |
+| SORT (multiple keys) | ✅ | Phase 8 | `tests/parametrized/test_sort_merge.py` |
+| MERGE (2 files) | ✅ | Phase 8 | `tests/parametrized/test_sort_merge.py` |
+| MERGE (uneven) | ✅ | Phase 8 | `tests/parametrized/test_sort_merge.py` |
+| VL: ODO logic | ✅ | Phase 9 | `tests/parametrized/test_crosscutting.py` |
+| LP: PERFORM VARYING | ✅ | Phase 9 | `tests/parametrized/test_crosscutting.py` |
+| LP: PERFORM UNTIL | ✅ | Phase 9 | `tests/parametrized/test_crosscutting.py` |
+| NP: COMP-3 precision | ✅ | Phase 9 | `tests/parametrized/test_crosscutting.py` |
+| NP: ROUNDED clause | ✅ | Phase 9 | `tests/parametrized/test_crosscutting.py` |
+| D: Leap year / Month end | ✅ | Phase 9 | `tests/parametrized/test_crosscutting.py` |
+| 日文: 全角片假名 | ✅ | Phase 10 | `tests/parametrized/test_japanese.py` |
+| 日文: 半角片假名 | ✅ | Phase 10 | `tests/parametrized/test_japanese.py` |
+| 日文: SJIS 5C/7C 问题文字 | ✅ | Phase 10 | `tests/parametrized/test_japanese.py` |
+| 日文: 和历日期 | ✅ | Phase 10 | `tests/parametrized/test_japanese.py` |
+| 日文: Encoding round-trip | ✅ | Phase 10 | `tests/parametrized/test_japanese.py` |
+
+**33+2 = 35 程序类型全覆盖**
+
+---
+
+## 类型别测试矩阵 (Phase 7-10 测试文件清单)
+
+### Phase 7: 匹配/分割/CSV 转换 (~8 测试文件)
+
+| 测试文件 | 测试内容 | 测试数 |
+|:---------|:---------|:------:|
+| `tests/parametrized/test_parametrized.py` | 8个公开函数的正常路径+边界 | ~50 |
+| `tests/parametrized/test_matching.py` | 1:1/1:N/N:1 匹配 + KEY 中断 + gcov | ~20 |
+| `tests/parametrized/test_division.py` | 50%/25%/100% 分割 + 余数处理 | ~15 |
+| `tests/parametrized/test_csv_conversion.py` | CSV→FB 字段数/类型/引号 | ~13 |
+
+### Phase 8: CALL / SEARCH ALL / SORT / MERGE (~2 测试文件)
+
+| 测试文件 | 测试内容 | 测试数 |
+|:---------|:---------|:------:|
+| `tests/parametrized/test_call_search.py` | CALL 3种传递 + SEARCH ALL 查找 | ~22 |
+| `tests/parametrized/test_sort_merge.py` | SORT 升/降序 + MERGE 均匀/不均 | ~18 |
+
+### Phase 9: 横断功能测试 (~1 测试文件, ~20 tests)
+
+| 测试文件 | 领域 | 测试数 |
+|:---------|:-----|:------:|
+| `tests/parametrized/test_crosscutting.py` | VL(ODO)+LP(PERFORM)+NP(COMP3/ROUNDED)+D(闰年/月末/和历) | ~20 |
+
+### Phase 10: 日文测试 (~1 测试文件, ~20 tests)
+
+| 测试文件 | 测试内容 | 测试数 |
+|:---------|:---------|:------:|
+| `tests/parametrized/test_japanese.py` | 全角/半角/SJIS 5C/7C/和历/编码回环 | ~20 |
+
+---
+
+## 横跨功能测试行 (Phase 9)
+
+横断功能测试覆盖 COBOL 运行时四大核心领域:
+
+| 领域 | 缩写 | 测试内容 | 测试数 |
+|:-----|:----:|:---------|:------:|
+| 可变长 / ODO | VL | OCCURS DEPENDING ON 长度/读取/边界 | 5 |
+| 循环 / PERFORM | LP | PERFORM VARYING 升/降/步进 + UNTIL | 5 |
+| 数值精度 | NP | COMP-3 BCD 解码 + ROUNDED 上下舍入 | 5 |
+| 日期逻辑 | D | 闰年/月末/和历转换 | 5 |
+
+---
+
+## 日文测试行 (Phase 10)
+
+日文测试覆盖 COBOL 日文处理的特殊场景:
+
+| 测试分组 | 内容 | 测试数 |
+|:---------|:-----|:------:|
+| 查找表常量 | 全角平/片假名/半角/SJIS 问题文字/和历边界 | 4 |
+| 全角文字生成 | PIC N 字段填充 + 长度 + 内容验证 | 3 |
+| 半角片假名生成 | PIC X 字段填充 + 长度验证 | 2 |
+| SJIS 问题文字 | 5C 问题 + 7C 问题文字 | 2 |
+| 和历日期 | 标准格式 + 边界切换 + 默认参数 | 3 |
+| 编码回环 | Shift-JIS ↔ UTF-8 回环 + 数据类型选择 | 4 |
+| 数据类型选择 | PIC N/9/X 正确分类 | 2 |
+
+---
+
+## 覆盖率目标

 ```
-目標カバレッジ (pytest --cov):
-  cobol_testgen API:    ≥ 80% (主要3関数)
-  hina/classifier.py:   ≥ 90% (L1ルール全カバー)
-  hina/gate.py:         ≥ 95% (全分岐)
-  hina/retry.py:        ≥ 90% (全リトライパス)
-  report/generator.py:  ≥ 70% (HTMLテンプレート網羅)
+Module                              Target    Current
+──────────────────────────────────  ───────   ──────
+cobol_testgen/*                      ≥ 85%    ~60% (单元不足)
+hina/classifier.py                   ≥ 90%    基本覆盖
+hina/gate.py                         ≥ 95%    基本覆盖
+hina/retry.py                        ≥ 90%    基本覆盖
+hina/strategy.py                     ≥ 90%    基本覆盖
+hina/hina_agent.py                   ≥ 85%    ~60%
+hina/gcov_collector.py               ≥ 80%    0%
+orchestrator.py                      ≥ 80%    0% ← 新增重点
+web/api.py                           ≥ 85%    0% ← 新增重点
+web/worker.py                        ≥ 75%    0% ← 新增重点
+agents/*                             ≥ 80%    0%
+config/*                             ≥ 85%    0%
+runners/*                            ≥ 70%    0%
+jcl/*                                ≥ 80%    0%
+quality/*                            ≥ 70%    0%
+storage/*                            ≥ 65%    ~low
+preprocessor.py                      ≥ 80%    0%
+report/generator.py                  ≥ 75%    基本覆盖
+comparator/*                         ≥ 90%    基本覆盖
+data/*                               ≥ 95%    模块级断言
+parametrized/*                       ≥ 95%    100% ← 新增 (Phase 7-8)
+japanese_data.py                     ≥ 90%    100% ← 新增 (Phase 10)
+coverage/*                           ≥ 80%    100% ← 新增
+hina/confidence.py                   ≥ 90%    100% ← 新增
+hina/rule_engine/*                   ≥ 85%    100% ← 新增
 ```

 ---

-## テスト実行計画
+## 测试执行计划

-### Phase A: ユニットテスト (並列実行可、~5分)
+### Phase A: 核心模块单元 (~15分)

 ```bash
-# 1. 全ユニット
-pytest tests/ -v --ignore=tests/e2e/ --ignore=tests/test_web_e2e.py --ignore=tests/test_biz_e2e.py
-
-# 2. カバレッジ計測
-pytest --cov=cobol_testgen --cov=hina --cov=report --cov=data tests/ -v
+# 核心: cobol_testgen / hina / agents / config
+pytest tests/ -v -k "test_cobol or test_hina or test_agents or test_config" \
+  --ignore=tests/e2e/ --ignore=tests/test_web_e2e.py
 ```

-### Phase B: HINA統合テスト (~2分)
+### Phase B: 管道中枢 + Web (~10分)
+
+```bash
+# orchestrator, web API, Worker
+pytest tests/ -v -k "test_orchestrator or test_web or test_worker"
+```
+
+### Phase C: 边界 + 非功能 (~15分)
+
+```bash
+# 边界值, 性能, 安全, 容错
+pytest tests/ -v -k "test_edge or test_nonfunc or test_resilience"
+```
+
+### Phase D: runner + JCL + 其他模块 (~8分)
+
+```bash
+pytest tests/ -v -k "test_runner or test_jcl or test_quality or test_storage"
+```
+
+### Phase E: HINA 统合测试 (~2分)

 ```bash
 python test-data/run_validation.py
 ```

-### Phase C: レグレッション (~1分)
+### Phase F: 回归测试 (~1分)

 ```bash
 python -m pytest tests/comparator/ tests/report/ tests/test_golden.py tests/test_e2e.py -v
 ```

-### Phase D: 実COBOLテスト (~5分、WSL + GnuCOBOL必要)
+### Phase G: 実 COBOL 测试 (~5分, WSL + GnuCOBOL)

 ```bash
-# WSL側で実行
-python3 -m pytest tests/test_golden.py -v
+# WSL 侧
+python -m pytest tests/test_golden.py -v
+```
+
+### Phase H: E2E Playwright (~3分, 需启动 server)
+
+```bash
+# 终端1
+python -m uvicorn web.api:app --host 127.0.0.1 --port 8000
+# 终端2
+python -m pytest tests/test_web_e2e.py -v
+```
+
+### Phase I: 类型别测试 Phase 7-10 (~2分)
+
+```bash
+# parametrized 全测试 (匹配/分割/CSV/CALL/SORT/横断/日文)
+pytest tests/parametrized/ -v --ignore=tests/e2e/
+```
+
+### 一键全自动化
+
+```bash
+# 核心 + 边界 + 非功能 (不依赖外部环境)
+pytest tests/ -v --ignore=e2e/ --ignore=test_web_e2e.py --ignore=test_biz_e2e.py
 ```

 ---

-## 期待結果サマリー
+## 预期结果

-| テスト種別 | 予定数 | 最低合格数 | 合格率目標 |
-|:----------|:------:|:----------:|:---------:|
-| L1 ユニット | ~45 | 45 | 100% |
-| L2 結合 | ~10 | 10 | 100% |
-| L3 HINA統合 | 8 | 8 | 100% |
-| L4 実COBOL | 4 | 4 | 100% |
-| L5 レグレッション | 42 | 42 | 100% |
-| エッジケース | 10 | 10 | 100% |
-| エラー注入 | 7 | 7 | 100% |
-| **総計** | **~126** | **126** | **100%** |
+| 测试维度 | 计划数 | 最低通过 | 通过率目标 |
+|:---------|:-----:|:--------:|:---------:|
+| L0 单元测试 | 280 | 270 | ≥96% |
+| L1 类型测试 (Phase 7-8) | 80 | 75 | ≥93% |
+| 横跨功能测试 (Phase 9) | 20 | 18 | ≥90% |
+| 日文测试 (Phase 10) | 20 | 18 | ≥90% |
+| L2 HINA 统合 | 8 | 6 | ≥75% |
+| L3 実 COBOL | 4 | 4 | 100% |
+| L4 回归 | 112 | 112 | 100% |
+| L5 非功能 | 6 | 5 | ≥83% |
+| L6 UI E2E | 7 | 7 | 100% |
+| **总计** | **~518** | **~500** | **≥96%** |
+
+**内訳:**
+
+```
+L0 单元测试:         280 (测试数 0.1~0.26 子模块单元测试)
+L1 类型测试 (Ph7-8):  80 (matching/division/CSV/CALL/SORT/parametrized)
+横跨功能测试 (Ph9):   20 (VL/LP/NP/D 四大领域)
+日文测试 (Ph10):      20 (全角/半角/SJIS/和历/编码)
+非功能测试:            6 (性能/并发/安全/容错)
+已有回归:            112 (L2+L3+L4+L6 合计)
+总计:               ~518
+```
+
+---
+
+## 已知限制
+
+1. **Lark 文法**: `SD` / `ASCENDING KEY` 未対応, HINA 2个测试跳过
+2. **Windows 编码**: `PYTHONIOENCODING=utf-8` 或 `python -X utf8` 必须, GBK 错误频繁
+3. **Docker 不可用**: 当前环境无 Docker Desktop, Spark runner 不可测试
+4. **外部依赖**: 実 COBOL 测试需要 WSL + GnuCOBOL + Java (GnuCOBOL 3.1.2.0, OpenJDK 17)
+5. **LLM API 成本**: Agent 测试依赖 LLM 调用, 缓存命中可降低成本
+6. **沙盒权限**: settings.json 需包含 `D:/cobol-java/**` 读写权限以便子 Agent 并行开发