跳转到内容

输出 Markdown

文档解析的默认目标是输出“结构化且尽量干净”的 Markdown,适合:

  • 搜索与检索(全文检索、向量检索)
  • RAG/知识库入库
  • 进一步结构化(表格解析、章节分段、引用抽取)

Excel 中每个工作表会被分成一个 H2 章节,并以表格的形式输出内容。

## Sheet1
| Name | Value |
|---|---|
| Item 1 | 100 |

Word 会尽量保留标题、段落、列表与表格的结构,使阅读顺序更自然。

PDF 输出更依赖版面与阅读顺序推断,常见结构包括:

  • 章节标题(h1/h2/h3)
  • 段落与列表
  • 表格(若能稳定识别)
  • 公式(若能稳定表达)
  • 以“章节”为切分单位,再做 chunk
  • 保留来源 URL、页码/章节信息(如你的管道支持)
  • 把“错误输出”样例纳入回归集合,持续改进策略

延伸阅读: