表格与公式
对“可读的 Markdown”来说,最难的是两类内容:表格与公式。它们往往决定了文档是否真的可用于检索与下游处理。
表格:优先结构,再优先样式
Section titled “表格:优先结构,再优先样式”对 Markdown 来说,最稳定的目标是把表格还原成“行 × 列”的结构,避免错行、合并单元格丢失导致语义断裂。
当你发现表格错行时,先判断表格来源:
- 文本表格:通常结构更稳定
- 扫描表格:更依赖 OCR 与版面理解,错行概率更高
公式:优先可解析表达
Section titled “公式:优先可解析表达”公式的“正确”不只是外观相似,更关键是能否被下游系统复用(例如渲染、计算或检索)。
如果你的目标是检索与 RAG:
- 先保证公式文本存在(不要丢)
- 再考虑统一格式(例如保留 LaTeX 表达)
- 先做 10 份样本抽检,再决定默认模式
- 对“表格密集型 PDF”,建议单独做一条解析策略与后处理链路
- 把“错误样例 PDF”沉淀为回归样本,持续验证质量
延伸阅读: