知识库文档
支持的文档
知识库支持多种文档格式的文件上传,同时还支持添加网页。
添加文件:知识库支持以下格式的文档上传
- PDF: .pdf
- Excel: .xlsx
- Word: .docx
- Markdown: .md
- CSV: .csv
- HTML: .html
- JSON: .json
添加网页:支持添加网页URL,自动抓取网页内容放入知识库。
⚠️注意:对静态网页的支持最佳。如果网页的内容是动态生成的,可以勾选 包含动态内容 来尝试获取网页内容。但不是所有的动态网页内容能够成功抓取到。
你可以对每一个文档进行单独的设置,包括设定不同的向量化策略,以适应不同文档内容。
文件别名
文件别名是用来更好的识别文件,也会被显示在客户端参考原文的位置。如果没有设置文件别名,将会直接显示原文件名
文件说明
这是一个重要的设定,会用在两个地方:
- 当知识库类型为文件库时,用来找到合适的文件(这时文件说明替代了高维向量的角色,所以此时设定合适的文件说明非常重要。)
- 作为把文件片段提交给大语言模型时的元数据,可以让大语言模型更好的回答用户的问题。
💡小贴士:为了获得更好的RAG效果,建议总是设置文件说明。
向量化策略
你可以为单个文件设定单独的向量化策略,这对于某些文件的内容与知识库的向量化策略不匹配时,特别有效。修改单个文件的向量化策略将会重新向量化这个文件内容。