fix: Lark grammar + parse_file_section SD/ASCENDING KEY support

Bug fixes found through statement benchmark testing: 1. grammar.lark: Add ASCENDING/DESCENDING KEY IS + INDEXED BY to occurs_clause — fixes HINA024 (SEARCH ALL) parsing crash 2. grammar.lark: Add SD (Sort Description) entry type to file_section — fixes HINA034 (SORT), ST01, ST02 parsing crashes 3. read.py parse_file_section(): Handle SD blocks alongside FD blocks — enables SORT/MERGE file structure extraction 4 previously crashing files now parse successfully: - HINA024.cbl (SEARCH ALL): paras=3, files=0 - HINA034.cbl (SORT): paras=1, files=3 - ST01_SORT.cbl: paras=2, files=3 - ST02_MERGE.cbl: paras=1, files=4 Regression: 749 passed (unchanged — classify_program internally caught the crashes, so tests already 'passed'; real improvement is in data quality: structure extraction now works for these programs)
2026-06-21 12:21:36 +08:00
parent d12a305dc4
commit dbee3b7251
2 changed files with 12 additions and 8 deletions
@@ -425,14 +425,15 @@ def parse_file_section(source: str) -> dict:
        return {}
    fs = m.group(1)
    result = {}
-    # ? FD ?????? FD ?
-    fd_blocks = re.split(r'\n\s*(?=FD\s+)', fs.strip())
-    for block in fd_blocks:
-        m = re.match(r'FD\s+(\w[\w-]*)', block, re.IGNORECASE)
+    # FD 和 SD 条目
+    blocks = re.split(r'\n\s*(?=(?:FD|SD)\s+)', fs.strip())
+    for block in blocks:
+        m = re.match(r'(FD|SD)\s+(\w[\w-]*)', block, re.IGNORECASE)
        if not m:
            continue
-        name = m.group(1).upper()
-        # ???????? 01 ????
+        entry_type = m.group(1).upper()  # "FD" or "SD"
+        name = m.group(2).upper()
+        # 找 01 层记录
        recs = re.findall(r'^\s*0{0,1}1\s+(\w[\w-]*)', block, re.MULTILINE)
        result[name] = [r.upper() for r in recs]
    return result