跳转到内容

扫描 PDF 与 OCR

扫描 PDF（或大量页面为图片的 PDF）通常没有可直接提取的文字层，必须依赖 OCR 才能得到可用文本。

什么时候需要 OCR

复制 PDF 内容时粘贴出来是空白或乱码
目录/正文看起来像“拍照/扫描”
页面里几乎都是图片或嵌入的栅格化内容
auto 模式输出缺失大量正文

推荐用法

先用默认 auto（更通用），如果漏提取明显，再对该类文档切到 ocr。

parsers: [{ type: 'pdf', mode: 'ocr', maxPages: 50 }]

maxPages 的策略

maxPages 用于控制最大处理页数，适合在你需要成本上限、或者先做抽样分析时使用。

parsers: [{ type: 'pdf', mode: 'auto', maxPages: 10 }]

常见问题排查

输出只有少量标题/页眉：多半是 OCR 没有覆盖到正文区域，尝试 ocr 或缩小页数抽样定位问题
表格大量错行：先确认 PDF 是否为扫描表格；扫描表格往往需要更强的版面/表格理解流程

延伸阅读：