输出 Markdown
文档解析的默认目标是输出“结构化且尽量干净”的 Markdown,适合:
- 搜索与检索(全文检索、向量检索)
- RAG/知识库入库
- 进一步结构化(表格解析、章节分段、引用抽取)
Excel 输出
Section titled “Excel 输出”Excel 中每个工作表会被分成一个 H2 章节,并以表格的形式输出内容。
## Sheet1
| Name | Value ||---|---|| Item 1 | 100 |Word 输出
Section titled “Word 输出”Word 会尽量保留标题、段落、列表与表格的结构,使阅读顺序更自然。
PDF 输出
Section titled “PDF 输出”PDF 输出更依赖版面与阅读顺序推断,常见结构包括:
- 章节标题(h1/h2/h3)
- 段落与列表
- 表格(若能稳定识别)
- 公式(若能稳定表达)
面向检索的建议
Section titled “面向检索的建议”- 以“章节”为切分单位,再做 chunk
- 保留来源 URL、页码/章节信息(如你的管道支持)
- 把“错误输出”样例纳入回归集合,持续改进策略
延伸阅读: