错误与排错
文档解析的失败通常来源于三类问题:输入文件不可访问、文档类型/结构复杂、以及调用参数与资源限制。
常见问题清单
Section titled “常见问题清单”1) 访问失败或权限问题
Section titled “1) 访问失败或权限问题”- URL 需要登录才能下载
- 站点对爬虫/机器人做了限制
- 链接临时失效或返回 4xx/5xx
处理建议:先在浏览器确认 URL 可直接下载;必要时更换可公开访问的源,或走你自己的代理下载后再处理。
1.5) Cache-only 查询导致 404
Section titled “1.5) Cache-only 查询导致 404”当你设置 minAge 时,系统只查缓存且不会触发新抓取。若缓存不存在,会返回 404,错误码为 SCRAPE_NO_CACHED_DATA。
2) 输出为空或缺失正文
Section titled “2) 输出为空或缺失正文”常见于扫描 PDF 或图像密集页:
- 先尝试把 PDF 模式切到
ocr - 或对前 5–10 页抽样验证,再扩大
maxPages
参考:扫描 PDF 与 OCR
3) 表格错行/列错位
Section titled “3) 表格错行/列错位”- 先判断是文本表格还是扫描表格
- 对表格密集文档建立单独策略,并保留回归样本持续迭代
参考:表格与公式
4) 402 / 429 / 500
Section titled “4) 402 / 429 / 500”- 402:通常表示 credits 不足或计费相关问题
- 429:触发限流(可以降低并发、增大超时或改用队列/批处理)
- 500:服务端错误或站点异常,建议缩小
maxPages抽样复现,再调整策略
推荐的排错流程
Section titled “推荐的排错流程”- 先用小页数抽样:
maxPages: 5 - 判断文档类型:文本 PDF vs 扫描 PDF
- 决定模式:
fast/auto/ocr - 固化为策略:把“文档特征 → 参数组合”记录下来,形成可复用规则