跳转到内容

文档解析(Document Parsing)

Firecrawl 提供强大的文档解析能力,可将多种文档格式转换为清晰、结构化的 Markdown,便于后续检索、存储与处理。

目前支持:

  • Excel 表格.xlsx, .xls
    • 每个工作表会被转换为 HTML 表格
    • 不同工作表会用以工作表名称为标题的二级标题(H2)分隔
    • 尽可能保留单元格格式与数据类型
  • Word 文档.docx, .doc, .odt, .rtf
    • 提取文本内容并保留文档结构
    • 保留标题、段落、列表与表格
    • 保留基础格式与样式
  • PDF 文档.pdf
    • 提取带布局信息的文本内容
    • 保留章节、段落等结构
    • 支持文本 PDF 与扫描 PDF(包含 OCR)
    • 支持通过 mode 控制解析策略:fast(仅文本)、auto(默认:文本优先 + OCR 兜底)、ocr(强制每页 OCR)
    • 计费为每页 1 credit(PDF → Markdown)

使用 parsers 选项控制 PDF 的处理方式:

模式说明
auto先尝试快速的文本提取,必要时回退到 OCR。默认模式。
fast仅做文本解析(嵌入文本)。最快,但无法从扫描页/图像密集页提取文本。
ocr强制每页 OCR。适用于扫描件或 auto 误判页面类型的情况。
parsers: [{ type: "pdf", mode: "ocr", maxPages: 20 }]
parsers: [{ type: "pdf" }]
parsers: ["pdf"]
parsers: []

当传入空数组 parsers: [] 时,会跳过 PDF 解析并返回 PDF 的 base64(整份 PDF 固定 1 credit)。

当你提供一个指向受支持文档类型的 URL 时,系统会自动进行解析。Firecrawl 会根据 URL 后缀或响应头中的 content-type 自动识别文件类型并选择对应解析器。

import Firecrawl from '@mendable/firecrawl-js';
const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });
const doc = await firecrawl.scrape('https://example.com/data.xlsx');
console.log(doc.markdown);
import Firecrawl from '@mendable/firecrawl-js';
const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });
const doc = await firecrawl.scrape('https://example.com/data.docx');
console.log(doc.markdown);

所有受支持的文档都会被转换成干净、结构化的 Markdown。例如,一个包含多工作表的 Excel 文件可能会被转换为:

## Sheet1
| Name | Value |
|-------|-------|
| Item 1 | 100 |
| Item 2 | 200 |
## Sheet2
| Date | Description |
|------------|--------------|
| 2023-01-01 | First quarter|