跳转到内容

Scrape 请求字段

POST https://api.firecrawl.dev/v2/scrape

Header:

  • Authorization: Bearer <token>
  • Content-Type: application/json
字段类型必填默认值说明
urlstring (uri)-要解析/抓取的 URL
字段类型默认值说明
formatsarray["markdown"]输出格式数组,支持字符串或对象格式(详见 输出格式
onlyMainContentbooleantrue只返回正文,尽量去掉 header/nav/footer 等模板内容
includeTagsstring[]-只保留匹配的元素(HTML tag / class / id 选择器)
excludeTagsstring[]-排除匹配的元素(HTML tag / class / id 选择器)
removeBase64Imagesbooleantrue从 Markdown 输出中移除 base64 图片(保留 alt 文本,用占位符替换 URL)
字段类型默认值说明
maxAgenumber (ms)172800000缓存新鲜度窗口;命中缓存可加速但不降低 credit
minAgenumber (ms)-只查缓存且不触发新抓取;无缓存时返回 404 且 error code 为 SCRAPE_NO_CACHED_DATA
waitFornumber (ms)0额外等待时间(在 smart-wait 之外)
timeoutnumber (ms)60000超时,范围 1000..300000
字段类型默认值说明
headersobject-自定义请求头(cookie/user-agent 等);部分敏感参数可能强制 storeInCache=false
proxy"basic" | "enhanced" | "auto""auto"代理策略;enhanced 更稳但可能更贵
blockAdsbooleantrue启用广告拦截与 cookie 弹窗拦截
skipTlsVerificationbooleantrue跳过 TLS 证书校验
mobilebooleanfalse模拟移动端抓取
locationobject-位置与语言偏好(详见 country/languages
字段类型默认值说明
parsersarray["pdf"]控制文件解析;PDF 默认会被解析为 Markdown(按页计费)。传 [] 会跳过解析并返回 PDF base64(整份 PDF 固定 1 credit)

PDF parser 对象写法:

parsers: [{ type: 'pdf', mode: 'auto', maxPages: 20 }]

详见:PDF Parser 选项

字段类型默认值说明
actionsarray-抓取前执行浏览器动作(click/write/wait 等),详见 Actions 字段
profileobject-启用持久化浏览器状态(cookies/localStorage)用于 scrape + interact 共享会话
字段类型默认值说明
storeInCachebooleantrue是否把结果写入 Firecrawl 缓存与索引;使用 actions/headers 等敏感参数可能强制为 false
zeroDataRetentionbooleanfalse零数据保留模式(需要联系 Firecrawl 开通)