跳转到内容

常见问题(FAQ)

Fire-PDF 和 Document Parsing 是什么关系?

Section titled “Fire-PDF 和 Document Parsing 是什么关系?”

Fire-PDF 是 PDF 解析引擎;Document Parsing 是 Firecrawl 对外提供的文档解析能力(包含 PDF/Word/Excel)并输出 Markdown。本文档站点把两者的使用方式与最佳实践整理在一起。

  • 明确是文本 PDF:优先 fast
  • 不确定或混合文档:优先 auto
  • 明显是扫描件:直接 ocr

参考:PDF 解析模式

常见原因是 PDF 没有文字层(扫描件/图片 PDF)。尝试切到 ocr 并用 maxPages 先抽样验证。

参考:扫描 PDF 与 OCR

先判断表格是否来自扫描页;扫描表格更难。建议单独建立策略并沉淀失败样例做回归。

参考:表格与公式

最直接的方法是设置 maxPages,并对不同类型文档建立分流策略。

参考:性能与成本