性能与成本
对文档解析来说,性能与成本往往是同一个问题:你用什么模式、处理多少页、以及是否对不同类型文档做分流。
- PDF 计费按页计算:每页 1 credit
fast/auto/ocr会影响单页耗时与成功率maxPages是最直接的成本上限阀门
推荐策略:先分布、再默认
Section titled “推荐策略:先分布、再默认”- 抽样 20 份 PDF
- 统计:文本 PDF 占比、扫描 PDF 占比、表格密集占比
- 为不同类型设置不同默认模式
推荐策略:两阶段解析
Section titled “推荐策略:两阶段解析”- 第一阶段:
auto + maxPages: 5做探测与预览 - 第二阶段:对命中的“扫描/复杂文档”切到
ocr或提高页数
- 盲目全量
ocr:质量可能提升,但成本与耗时会被放大 - 不保留失败样例:无法做回归,策略迭代变慢
延伸阅读: