跳转到内容

扫描 PDF 与 OCR

扫描 PDF(或大量页面为图片的 PDF)通常没有可直接提取的文字层,必须依赖 OCR 才能得到可用文本。

  • 复制 PDF 内容时粘贴出来是空白或乱码
  • 目录/正文看起来像“拍照/扫描”
  • 页面里几乎都是图片或嵌入的栅格化内容
  • auto 模式输出缺失大量正文

先用默认 auto(更通用),如果漏提取明显,再对该类文档切到 ocr

parsers: [{ type: 'pdf', mode: 'ocr', maxPages: 50 }]

maxPages 用于控制最大处理页数,适合在你需要成本上限、或者先做抽样分析时使用。

parsers: [{ type: 'pdf', mode: 'auto', maxPages: 10 }]
  • 输出只有少量标题/页眉:多半是 OCR 没有覆盖到正文区域,尝试 ocr 或缩小页数抽样定位问题
  • 表格大量错行:先确认 PDF 是否为扫描表格;扫描表格往往需要更强的版面/表格理解流程

延伸阅读: