跳转到内容

性能与成本

对文档解析来说,性能与成本往往是同一个问题:你用什么模式、处理多少页、以及是否对不同类型文档做分流。

  • PDF 计费按页计算:每页 1 credit
  • fast/auto/ocr 会影响单页耗时与成功率
  • maxPages 是最直接的成本上限阀门
  1. 抽样 20 份 PDF
  2. 统计:文本 PDF 占比、扫描 PDF 占比、表格密集占比
  3. 为不同类型设置不同默认模式
  • 第一阶段:auto + maxPages: 5 做探测与预览
  • 第二阶段:对命中的“扫描/复杂文档”切到 ocr 或提高页数
  • 盲目全量 ocr:质量可能提升,但成本与耗时会被放大
  • 不保留失败样例:无法做回归,策略迭代变慢

延伸阅读: