Skip to content

文件库

除了向量知识库,煎蛋平台还提供一种特殊的知识库类型:文件库。

区别于传统的向量知识库,煎蛋平台提供的文件库采用独特的知识管理方式。该类型知识库的核心特征是保持文档完整性,适用于需要完整上下文才能准确理解的内容。

机制对比说明

传统向量库文件库
使用专用嵌入模型(如text-embedding-3-small)生成向量直接调用大语言模型的自然语言理解能力
依赖余弦相似度等数学计算进行匹配通过语义相关性进行逻辑判断
必须对文档进行分块处理保持文档原始完整形态
召回分块内容召回整个文件

召回(检索)

文件库的检索机制完全依托于大语言模型的理解能力。系统通过以下两个层级的语义匹配实现精准定位:

  1. 知识库层面匹配:模型首先理解用户问题与知识库名称、描述之间的关联性(例如名为"家电维修手册"的知识库会自动关联设备故障类问题)
  2. 文件层面匹配:在确定相关知识库后,模型进一步分析文件名、文件描述与用户问题的语义相关性(如查询"X200型号打印机的卡纸处理"时,会自动匹配文件名包含"X200"和"故障处理"的文档)

生成

文件库采用全文档处理模式,可以充分发挥现代大语言模型超大上下文窗口的优势:

  • 完整上下文:直接提供未经切割的原始文档(例如完整的10页产品说明书)
  • 信息零损耗:避免传统向量化处理导致的格式丢失(特别适合表格、代码片段等结构化内容)

适合的场景

文件库特别适合以下类型的知识管理需求:

  1. 完整性敏感文档

    • 法律合同模板(需保持条款完整性)
    • 实验数据报告(含完整图表和分析)
    • 产品规格书(不同型号独立成文)
  2. 强关联性内容

    • 设备操作手册(前后章节存在逻辑依赖)
    • 技术白皮书(需跨章节综合理解)
    • 年度报告(数据间存在横向对比关系)
  3. 版本控制文档

    • 政策文件(不同生效日期版本)
    • 软件更新日志(按版本号区分)
    • 标准化流程(不同修订版)

Last updated: