文档解析（Document Parsing）

Firecrawl 提供强大的文档解析能力，可将多种文档格式转换为清晰、结构化的 Markdown，便于后续检索、存储与处理。

支持的文档格式

目前支持：

Excel 表格（.xlsx, .xls）
- 每个工作表会被转换为 HTML 表格
- 不同工作表会用以工作表名称为标题的二级标题（H2）分隔
- 尽可能保留单元格格式与数据类型
Word 文档（.docx, .doc, .odt, .rtf）
- 提取文本内容并保留文档结构
- 保留标题、段落、列表与表格
- 保留基础格式与样式
PDF 文档（.pdf）
- 提取带布局信息的文本内容
- 保留章节、段落等结构
- 支持文本 PDF 与扫描 PDF（包含 OCR）
- 支持通过 mode 控制解析策略：fast（仅文本）、auto（默认：文本优先 + OCR 兜底）、ocr（强制每页 OCR）
- 计费为每页 1 credit（PDF → Markdown）

PDF 解析模式

使用 parsers 选项控制 PDF 的处理方式：

模式	说明
`auto`	先尝试快速的文本提取，必要时回退到 OCR。默认模式。
`fast`	仅做文本解析（嵌入文本）。最快，但无法从扫描页/图像密集页提取文本。
`ocr`	强制每页 OCR。适用于扫描件或 `auto` 误判页面类型的情况。

parsers: [{ type: "pdf", mode: "ocr", maxPages: 20 }]

parsers: [{ type: "pdf" }]

parsers: ["pdf"]

parsers: []

当传入空数组 parsers: [] 时，会跳过 PDF 解析并返回 PDF 的 base64（整份 PDF 固定 1 credit）。

如何使用文档解析

当你提供一个指向受支持文档类型的 URL 时，系统会自动进行解析。Firecrawl 会根据 URL 后缀或响应头中的 content-type 自动识别文件类型并选择对应解析器。

示例：解析 Excel

import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });

const doc = await firecrawl.scrape('https://example.com/data.xlsx');

console.log(doc.markdown);

示例：解析 Word

import Firecrawl from '@mendable/firecrawl-js';

const firecrawl = new Firecrawl({ apiKey: "fc-YOUR-API-KEY" });

const doc = await firecrawl.scrape('https://example.com/data.docx');

console.log(doc.markdown);

输出格式

所有受支持的文档都会被转换成干净、结构化的 Markdown。例如，一个包含多工作表的 Excel 文件可能会被转换为：

## Sheet1

| Name | Value |
|-------|-------|
| Item 1 | 100 |
| Item 2 | 200 |

## Sheet2

| Date | Description |
|------------|--------------|
| 2023-01-01 | First quarter|