跳转到内容

PDF 解析模式

Firecrawl 的 PDF 解析支持 3 种模式，核心目标是把速度与准确性在不同 PDF 类型上做平衡。

三种模式怎么选

模式	适用场景	主要优点	主要代价
`fast`	文本 PDF（嵌入文本清晰）	速度快	无法从扫描页/图像页提取
`auto`	大多数情况默认选择	文本优先，必要时 OCR 兜底	在“混合 PDF”上更稳但更复杂
`ocr`	扫描件、拍照 PDF、`auto` 误判	最稳妥	成本与耗时更高

你可以把它理解为：fast 是“只读文字层”，ocr 是“每页都识别”，auto 是“先试文字层，不行再 OCR”。

示例：强制 OCR

parsers: [{ type: 'pdf', mode: 'ocr', maxPages: 20 }]

示例：默认策略

parsers: [{ type: 'pdf' }]

常见建议

不确定时先用 auto，只在命中失败/漏提取时再转 ocr
明确是文本 PDF 的场景，优先 fast
做批量任务时，先用小样本评估你的 PDF 分布，再决定默认模式

延伸阅读：