相似度推荐.md 3.4 KB

添加相似片段检索接口

1.新增一个接口,给用户推荐相似片段的内容,接口字段:一级标题、二级标题、当前章节id:chapter_id、方案id:project_id,用户输入的检索信息字段 2.一级标题和二级标题是存在chapter_title字段中,存储格式:第八章验收要求->8.3 验收内容 | 第八章验收要求->三、验收内容,因此标题需要模糊匹配 3.把用户输入的信息向量化 4.通过一级标题、二级标题区模糊查询chapter_title字段、在把向量化后的数据去表t_kngs_construction_plan_child中检索30条,把检索后的内容根据parent_id来排序,parent_id重复的多的排最前,最后通过paraent_id去父表t_kngs_construction_plan_parent检索5条,父表的text就是相似片段内容 5.最后把检索到的内容返回,返回字段:一级标题、二级标题、当前章节id:chapter_id、方案id:project_id,内容text,文件名称file_name,相似度百分比 下面是向量库的字段: 父表知识库(t_kngs_construction_plan_parent) 序号 名称 英文名称 类型 非空 自增列 备注 1 主键 pk int64 否 是 自增列 2 内容 text VarChar 是 否
3 向量列 dense floatveotor 否 否
4 关键字 sparse BM25 是 否 内容的BM25关键字检索 5 文档ID document_id VarChar 是 否 样本中心上传文档ID 6 父段ID parent_id VarChar 是 否
7 索引序号 index Int64 是 否
8 标签 tag_list VarChar 是 否
9 权限 permission JSON 是 否 后期扩展 10 元数据 metadata JSON 是 否
11 文件名称 file_name VarChar 是 否
12 施工方案工艺类型 plan_type VarChar 是 否 如:简支梁(T型梁或小箱梁)预制、运输及架桥机安装 13 文件URL file_url VarChar 是 否 上传OSS文件URL地址 14 章节标题 chapter_title VarChar 是 否
15 一级章节类型 chapter_level_1 VarChar 是 否 一级章节类型 16 二级章节类型 chapter_level_2 VarChar 是 否 二级章节类型 17 三级章节类型 chapter_level_3 VarChar 是 否 三级章节类型 18 删除标志 is_deleted bool 是 否
19 创建人 created_by VarChar 是 否
20 创建时间 created_time Int64 是 否
21 修改人 updated_by VarChar 是 否
22 修改时间 updated_time Int64 是 否

子表知识库(t_kngs_construction_plan_child) 序号 名称 英文名称 类型 非空 自增列 备注 1 主键 pk int64 否 是 自增列 2 内容 text VarChar 是 否
3 向量列 dense floatveotor 否 否
4 关键字 sparse BM25 是 否 内容的BM25关键字检索 5 文档ID document_id VarChar 是 否 样本中心上传文档ID 6 父段ID parent_id VarChar 是 否
7 索引序号 index Int64 是 否
8 标签 tag_list VarChar 是 否
9 权限 permission JSON 是 否 后期扩展 10 元数据 metadata JSON 是 否
11 文件名称 file_name VarChar 是 否
12 施工方案工艺类型 plan_type VarChar 是 否 如:简支梁(T型梁或小箱梁)预制、运输及架桥机安装 13 文件URL file_url VarChar 是 否 上传OSS文件URL地址 14 章节标题 chapter_title VarChar 是 否
15 一级章节类型 chapter_level_1 VarChar 是 否 一级章节类型 16 二级章节类型 chapter_level_2 VarChar 是 否 二级章节类型 17 三级章节类型 chapter_level_3 VarChar 是 否 三级章节类型 18 删除标志 is_deleted bool 是 否
19 创建人 created_by VarChar 是 否
20 创建时间 created_time Int64 是 否
21 修改人 updated_by VarChar 是 否
22 修改时间 updated_time Int64 是 否