跳转到内容

输出 Markdown

文档解析的默认目标是输出“结构化且尽量干净”的 Markdown，适合：

搜索与检索（全文检索、向量检索）
RAG/知识库入库
进一步结构化（表格解析、章节分段、引用抽取）

Excel 输出

Excel 中每个工作表会被分成一个 H2 章节，并以表格的形式输出内容。

## Sheet1

| Name | Value |
|---|---|
| Item 1 | 100 |

Word 输出

Word 会尽量保留标题、段落、列表与表格的结构，使阅读顺序更自然。

PDF 输出

PDF 输出更依赖版面与阅读顺序推断，常见结构包括：

章节标题（h1/h2/h3）
段落与列表
表格（若能稳定识别）
公式（若能稳定表达）

面向检索的建议

以“章节”为切分单位，再做 chunk
保留来源 URL、页码/章节信息（如你的管道支持）
把“错误输出”样例纳入回归集合，持续改进策略

延伸阅读：