PDF 解析模式
Firecrawl 的 PDF 解析支持 3 种模式,核心目标是把速度与准确性在不同 PDF 类型上做平衡。
三种模式怎么选
Section titled “三种模式怎么选”| 模式 | 适用场景 | 主要优点 | 主要代价 |
|---|---|---|---|
fast | 文本 PDF(嵌入文本清晰) | 速度快 | 无法从扫描页/图像页提取 |
auto | 大多数情况默认选择 | 文本优先,必要时 OCR 兜底 | 在“混合 PDF”上更稳但更复杂 |
ocr | 扫描件、拍照 PDF、auto 误判 | 最稳妥 | 成本与耗时更高 |
你可以把它理解为:fast 是“只读文字层”,ocr 是“每页都识别”,auto 是“先试文字层,不行再 OCR”。
示例:强制 OCR
Section titled “示例:强制 OCR”parsers: [{ type: 'pdf', mode: 'ocr', maxPages: 20 }]示例:默认策略
Section titled “示例:默认策略”parsers: [{ type: 'pdf' }]- 不确定时先用
auto,只在命中失败/漏提取时再转ocr - 明确是文本 PDF 的场景,优先
fast - 做批量任务时,先用小样本评估你的 PDF 分布,再决定默认模式
延伸阅读: