From dbee3b7251733c308307efe757180370bf34918d Mon Sep 17 00:00:00 2001
From: NB-076 <nb-076@users.noreply.github.com>
Date: Sun, 21 Jun 2026 12:21:36 +0800
Subject: [PATCH] fix: Lark grammar + parse_file_section SD/ASCENDING KEY
 support
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Bug fixes found through statement benchmark testing:
1. grammar.lark: Add ASCENDING/DESCENDING KEY IS + INDEXED BY to
   occurs_clause — fixes HINA024 (SEARCH ALL) parsing crash
2. grammar.lark: Add SD (Sort Description) entry type to file_section
   — fixes HINA034 (SORT), ST01, ST02 parsing crashes
3. read.py parse_file_section(): Handle SD blocks alongside FD blocks
   — enables SORT/MERGE file structure extraction

4 previously crashing files now parse successfully:
- HINA024.cbl (SEARCH ALL): paras=3, files=0
- HINA034.cbl (SORT): paras=1, files=3
- ST01_SORT.cbl: paras=2, files=3
- ST02_MERGE.cbl: paras=1, files=4

Regression: 749 passed (unchanged — classify_program internally caught
the crashes, so tests already 'passed'; real improvement is in data
quality: structure extraction now works for these programs)
---
 cobol_testgen/grammar.lark |  7 +++++--
 cobol_testgen/read.py      | 13 +++++++------
 2 files changed, 12 insertions(+), 8 deletions(-)

diff --git a/cobol_testgen/grammar.lark b/cobol_testgen/grammar.lark
index e58af5a..b367c1c 100644
--- a/cobol_testgen/grammar.lark
+++ b/cobol_testgen/grammar.lark
@@ -1,7 +1,8 @@
 start: data_div_content
 data_div_content: (file_section | working_storage | linkage)*
-file_section: "FILE" "SECTION" DOT fd+
+file_section: "FILE" "SECTION" DOT (fd | sd)+
 fd: "FD" NAME FD_SUFFIX data_item+
+sd: "SD" NAME FD_SUFFIX data_item*
 FD_SUFFIX: /(?:"[^"]*"|'[^']*'|[^.])*\./
 working_storage: "WORKING-STORAGE" "SECTION" DOT data_item*
 linkage: "LINKAGE" "SECTION" DOT data_item*
@@ -21,7 +22,9 @@ value_literal: INT | SIGNED_NUMBER | STRING | SQSTRING
              | "LOW-VALUE" | "LOW-VALUES"
 SQSTRING: /'[^']*'/
 redefines_clause: "REDEFINES" NAME
-occurs_clause: "OCCURS" INT "TIMES"? ("DEPENDING" "ON" NAME)?
+occurs_clause: "OCCURS" INT "TIMES"? ("DEPENDING" "ON" NAME)? key_clause? indexed_clause?
+key_clause: ("ASCENDING" | "DESCENDING") "KEY" "IS"? NAME (","? NAME)*
+indexed_clause: "INDEXED" "BY" NAME (","? NAME)*
 usage_clause: USAGE_VAL
 USAGE_VAL: "COMP" | "COMP-3" | "COMP-5" | "BINARY" | "PACKED-DECIMAL" | "DISPLAY"
 LEVEL: /0[1-9]|[1-4][0-9]|49|77|88/
diff --git a/cobol_testgen/read.py b/cobol_testgen/read.py
index 04d9696..e3d4568 100644
--- a/cobol_testgen/read.py
+++ b/cobol_testgen/read.py
@@ -425,14 +425,15 @@ def parse_file_section(source: str) -> dict:
         return {}
     fs = m.group(1)
     result = {}
-    # ? FD ?????? FD ?
-    fd_blocks = re.split(r'\n\s*(?=FD\s+)', fs.strip())
-    for block in fd_blocks:
-        m = re.match(r'FD\s+(\w[\w-]*)', block, re.IGNORECASE)
+    # FD 和 SD 条目
+    blocks = re.split(r'\n\s*(?=(?:FD|SD)\s+)', fs.strip())
+    for block in blocks:
+        m = re.match(r'(FD|SD)\s+(\w[\w-]*)', block, re.IGNORECASE)
         if not m:
             continue
-        name = m.group(1).upper()
-        # ???????? 01 ????
+        entry_type = m.group(1).upper()  # "FD" or "SD"
+        name = m.group(2).upper()
+        # 找 01 层记录
         recs = re.findall(r'^\s*0{0,1}1\s+(\w[\w-]*)', block, re.MULTILINE)
         result[name] = [r.upper() for r in recs]
     return result