Fire-PDF 概览

Fire-PDF 是什么

Fire-PDF 是我们基于 Rust 开发的 PDF 解析引擎，用于把任何 PDF（扫描版、纯文本版、混合版）转换为结构化 Markdown。

它的目标不是“把字识别出来就算完成”，而是把内容以正确的阅读顺序、正确的结构输出出来：

相较于旧解析器，Fire-PDF 通常能带来 3.5–5.7 倍提速，平均每页不到 400ms。

核心原因是把 GPU 处理变成“按需分配”：

pdf-inspector 是我们开源的 Rust 库，通过分析 PDF 内部结构（字体编码、文本运算符、图像覆盖率等）在毫秒级对每页进行分类，无需渲染。

这让混合文档的成本与延迟都能显著下降：例如 150 页文本 + 60 页扫描的财报，只需要把扫描页送去 GPU。

Fire-PDF 使用神经文档布局模型，对每页内容进行区域级别的理解：文本块、表格、公式、图像、页眉/页脚会被分别检测与处理。

不同区域类型使用不同的预算与提示策略：