文件库
除了向量知识库,煎蛋平台还提供一种特殊的知识库类型:文件库。
区别于传统的向量知识库,煎蛋平台提供的文件库采用独特的知识管理方式。该类型知识库的核心特征是保持文档完整性,适用于需要完整上下文才能准确理解的内容。
机制对比说明
传统向量库 | 文件库 |
---|---|
使用专用嵌入模型(如text-embedding-3-small)生成向量 | 直接调用大语言模型的自然语言理解能力 |
依赖余弦相似度等数学计算进行匹配 | 通过语义相关性进行逻辑判断 |
必须对文档进行分块处理 | 保持文档原始完整形态 |
召回分块内容 | 召回整个文件 |
召回(检索)
文件库的检索机制完全依托于大语言模型的理解能力。系统通过以下两个层级的语义匹配实现精准定位:
- 知识库层面匹配:模型首先理解用户问题与知识库名称、描述之间的关联性(例如名为"家电维修手册"的知识库会自动关联设备故障类问题)
- 文件层面匹配:在确定相关知识库后,模型进一步分析文件名、文件描述与用户问题的语义相关性(如查询"X200型号打印机的卡纸处理"时,会自动匹配文件名包含"X200"和"故障处理"的文档)
生成
文件库采用全文档处理模式,可以充分发挥现代大语言模型超大上下文窗口的优势:
- 完整上下文:直接提供未经切割的原始文档(例如完整的10页产品说明书)
- 信息零损耗:避免传统向量化处理导致的格式丢失(特别适合表格、代码片段等结构化内容)
适合的场景
文件库特别适合以下类型的知识管理需求:
完整性敏感文档
- 法律合同模板(需保持条款完整性)
- 实验数据报告(含完整图表和分析)
- 产品规格书(不同型号独立成文)
强关联性内容
- 设备操作手册(前后章节存在逻辑依赖)
- 技术白皮书(需跨章节综合理解)
- 年度报告(数据间存在横向对比关系)
版本控制文档
- 政策文件(不同生效日期版本)
- 软件更新日志(按版本号区分)
- 标准化流程(不同修订版)