扫描 PDF 与 OCR
扫描 PDF(或大量页面为图片的 PDF)通常没有可直接提取的文字层,必须依赖 OCR 才能得到可用文本。
什么时候需要 OCR
Section titled “什么时候需要 OCR”- 复制 PDF 内容时粘贴出来是空白或乱码
- 目录/正文看起来像“拍照/扫描”
- 页面里几乎都是图片或嵌入的栅格化内容
auto模式输出缺失大量正文
先用默认 auto(更通用),如果漏提取明显,再对该类文档切到 ocr。
parsers: [{ type: 'pdf', mode: 'ocr', maxPages: 50 }]maxPages 的策略
Section titled “maxPages 的策略”maxPages 用于控制最大处理页数,适合在你需要成本上限、或者先做抽样分析时使用。
parsers: [{ type: 'pdf', mode: 'auto', maxPages: 10 }]常见问题排查
Section titled “常见问题排查”- 输出只有少量标题/页眉:多半是 OCR 没有覆盖到正文区域,尝试
ocr或缩小页数抽样定位问题 - 表格大量错行:先确认 PDF 是否为扫描表格;扫描表格往往需要更强的版面/表格理解流程
延伸阅读: