2 maanden geleden · 5801a844d3
--- a/config/config.ini
+++ b/config/config.ini
@@ -112,9 +112,11 @@ PGVECTOR_PASSWORD=pg16@123
 
				 MILVUS_HOST=192.168.92.61
			
 
				 MILVUS_PORT=19530
			
 
				 MILVUS_DB=lq_db
			
 
				+MILVUS_COLLECTION=first_bfp_collection
			
 
				 MILVUS_USER=
			
 
				 MILVUS_PASSWORD=
			
 
				 
			
 
				+
			
 
				 [hybrid_search]
			
 
				 # 混合检索权重配置
			
 
				 DENSE_WEIGHT=0.7
			
--- a/core/construction_review/component/ai_review_engine.py
+++ b/core/construction_review/component/ai_review_engine.py
@@ -46,10 +46,13 @@
 
				 """
			
 
				 
			
 
				 import time
			
 
				+import json
			
 
				 import asyncio
			
 
				 from enum import Enum
			
 
				 from dataclasses import dataclass
			
 
				 from typing import Dict, List, Any
			
 
				+from foundation.ai.rag.retrieval.retrieval import retrieval_manager
			
 
				+from foundation.infrastructure.config.config import config_handler
			
 
				 from foundation.observability.logger.loggering import server_logger as logger
			
 
				 from core.construction_review.component.reviewers.base_reviewer import BaseReviewer,BaseRAGReviewer
			
 
				 @dataclass
			
@@ -79,10 +82,7 @@ class Stage(Enum):
 
				         'design': 'design_values_check'
			
 
				     }
			
 
				     RAG = {
			
 
				-        'reviewer_type':'rag',
			
 
				         'rag': 'rag_enhanced_review',
			
 
				-        'vector': 'vector_search_review',
			
 
				-        'hybrid': 'hybrid_search_review'
			
 
				     }
			
 
				     AI = {
			
 
				         'reviewer_type':'ai',
			
@@ -100,6 +100,7 @@ class AIReviewEngine(BaseReviewer):
 
				         super().__init__()
			
 
				         self.max_concurrent_reviews = max_concurrent_reviews
			
 
				         self.semaphore = asyncio.Semaphore(max_concurrent_reviews)
			
 
				+        self.milvus_collection = config_handler.get('milvus', 'MILVUS_COLLECTION', 'default')
			
 
				 
			
 
				     def set_review_location_label(self, location_label: str):
			
 
				         """
			
@@ -247,19 +248,11 @@ class AIReviewEngine(BaseReviewer):
 
				             Dict[str, Any]: RAG增强审查结果
			
 
				         """
			
 
				         # 向量检索
			
 
				-        vector_results = await self.vector_search(unit_content['content'])
			
 
				-
			
 
				-        # 混合检索
			
 
				-        hybrid_results = await self.hybrid_search(unit_content['content'])
			
 
				-
			
 
				-        # 重排序
			
 
				-        reranked_results = await self.rerank_results(unit_content['content'], hybrid_results)
			
 
				-
			
 
				+        vector_results = retrieval_manager.multi_stage_recall(self.milvus_collection, unit_content['content'])
			
 
				+        vector_results[0]
			
 
				         return {
			
 
				             'vector_search': vector_results,
			
 
				-            'hybrid_search': hybrid_results,
			
 
				-            'reranked_results': reranked_results,
			
 
				-            'enhanced_suggestions': self.generate_enhanced_suggestions(reranked_results)
			
 
				+
			
 
				         }
			
 
				 
			
 
				 
			
@@ -396,60 +389,6 @@ class AIReviewEngine(BaseReviewer):
 
				                                stage_name, state, current_progress)
			
 
				 
			
 
				     # RAG检索增强
			
 
				-    async def vector_search(self, content: str) -> List[Dict[str, Any]]:
			
 
				-        """
			
 
				-        向量检索
			
 
				-
			
 
				-        Args:
			
 
				-            content: 检索内容
			
 
				-
			
 
				-        Returns:
			
 
				-            List[Dict[str, Any]]: 向量检索结果列表
			
 
				-        """
			
 
				-        await asyncio.sleep(0.1)
			
 
				-        return [{"similarity": 0.85, "content": "相关标准1"}, {"similarity": 0.78, "content": "相关标准2"}]
			
 
				-
			
 
				-    async def hybrid_search(self, content: str) -> List[Dict[str, Any]]:
			
 
				-        """
			
 
				-        混合检索
			
 
				-
			
 
				-        Args:
			
 
				-            content: 检索内容
			
 
				-
			
 
				-        Returns:
			
 
				-            List[Dict[str, Any]]: 混合检索结果列表
			
 
				-        """
			
 
				-        await asyncio.sleep(0.2)
			
 
				-        return [{"score": 0.88, "content": "混合检索结果1"}, {"score": 0.82, "content": "混合检索结果2"}]
			
 
				-
			
 
				-    async def rerank_results(self, content: str, results: List[Dict[str, Any]]) -> List[Dict[str, Any]]:
			
 
				-        """
			
 
				-        重排序
			
 
				-
			
 
				-        Args:
			
 
				-            content: 原始内容
			
 
				-            results: 待重排序的结果列表
			
 
				-
			
 
				-        Returns:
			
 
				-            List[Dict[str, Any]]: 重排序后的结果列表
			
 
				-        """
			
 
				-        await asyncio.sleep(0.1)
			
 
				-        return sorted(results, key=lambda x: x.get('score', 0), reverse=True)[:5]
			
 
				-
			
 
				-    def generate_enhanced_suggestions(self, results: List[Dict[str, Any]]) -> List[str]:
			
 
				-        """
			
 
				-        生成增强建议
			
 
				-
			
 
				-        Args:
			
 
				-            results: 检索结果列表
			
 
				-
			
 
				-        Returns:
			
 
				-            List[str]: 增强建议列表
			
 
				-        """
			
 
				-        suggestions = []
			
 
				-        for result in results:
			
 
				-            suggestions.append(f"基于{result.get('content', '相关内容')}的建议")
			
 
				-        return suggestions
			
 
				 
			
 
				     def _calculate_basic_score(self, grammar: Dict, semantic: Dict, completeness: Dict) -> float:
			
 
				         """
			
@@ -479,54 +418,5 @@ class AIReviewEngine(BaseReviewer):
 
				         """
			
 
				         return (mandatory.get('compliance_rate', 0) + design.get('accuracy', 0) + technical.get('precision', 0)) / 3
			
 
				 
			
 
				-    def _calculate_overall_risk(self, basic: Dict, technical: Dict, rag: Dict) -> str:
			
 
				-        """
			
 
				-        计算总体风险等级
			
 
				-
			
 
				-        Args:
			
 
				-            basic: 基础合规性结果
			
 
				-            technical: 技术合规性结果
			
 
				-            rag: RAG增强审查结果
			
 
				-
			
 
				-        Returns:
			
 
				-            str: 风险等级 ("low", "medium", "high")
			
 
				-        """
			
 
				-        basic_score = basic.get('overall_score', 0)
			
 
				-        technical_score = technical.get('overall_score', 0)
			
 
				-
			
 
				-        # 如果RAG被禁用或有错误，忽略它
			
 
				-        if 'error' in rag:
			
 
				-            avg_score = (basic_score + technical_score) / 2
			
 
				-        else:
			
 
				-            rag_score = rag.get('overall_score', 0)
			
 
				-            avg_score = (basic_score + technical_score + rag_score) / 3
			
 
				-
			
 
				-        if avg_score >= 90:
			
 
				-            return "low"
			
 
				-        elif avg_score >= 70:
			
 
				-            return "medium"
			
 
				-        else:
			
 
				-            return "high"
			
 
				-
			
 
				-    def _aggregate_results(self, results: List[ReviewResult]) -> Dict[str, Any]:
			
 
				-        """
			
 
				-        汇总审查结果
			
 
				-
			
 
				-        Args:
			
 
				-            results: 审查结果列表
			
 
				-
			
 
				-        Returns:
			
 
				-            Dict[str, Any]: 汇总后的统计结果
			
 
				-        """
			
 
				-        risk_counts = {"high": 0, "medium": 0, "low": 0}
			
 
				 
			
 
				-        for result in results:
			
 
				-            risk_counts[result.overall_risk] += 1
			
 
				 
			
 
				-        return {
			
 
				-            "risk_distribution": risk_counts,
			
 
				-            "total_issues": len([r for r in results if r.overall_risk != "low"]),
			
 
				-            "high_risk_count": risk_counts["high"],
			
 
				-            "medium_risk_count": risk_counts["medium"],
			
 
				-            "low_risk_count": risk_counts["low"]
			
 
				-        }
			
--- a/database/base/__init__.py
+++ b/database/base/__init__.py
--- a/database/migrations/__init__.py
+++ b/database/migrations/__init__.py
--- a/database/models/__init__.py
+++ b/database/models/__init__.py
--- a/database/repositories/__init__.py
+++ b/database/repositories/__init__.py
--- a/database/repositories/bus_data_query.py
+++ b/database/repositories/bus_data_query.py
@@ -1,36 +0,0 @@
 
				-from typing import List, Tuple, Any, Optional, Dict
			
 
				-from foundation.observability.logger.loggering import server_logger
			
 
				-from foundation.utils.common import handler_err
			
 
				-from foundation.database.base.sql.async_mysql_base_dao import AsyncBaseDAO
			
 
				-
			
 
				-
			
 
				-class BasisOfPreparationDAO(AsyncBaseDAO):
			
 
				-    """异步编制依据 对象"""
			
 
				-    
			
 
				-    
			
 
				-    async def get_info_by_id(self, id: int) -> Optional[Dict]:
			
 
				-        """根据ID获取编制依据"""
			
 
				-        query = "SELECT * FROM t_basis_of_preparation WHERE id = %s"
			
 
				-        return await self.fetch_one(query, (id,))
			
 
				-    
			
 
				-    async def get_list(self) -> List[Dict]:
			
 
				-        """获取所有编制依据"""
			
 
				-        query = "SELECT * FROM t_basis_of_preparation WHERE status = 'current' ORDER BY created_at DESC"
			
 
				-        return await self.fetch_all(query)
			
 
				-    
			
 
				-
			
 
				-    async def get_info_by_condition(self, conditions: Dict) -> List[Dict]:
			
 
				-        """根据条件查询编制依据"""
			
 
				-        if not conditions:
			
 
				-            return await self.get_list()
			
 
				-        
			
 
				-        try:
			
 
				-            where_clause = " AND ".join([f"{field} = %s" for field in conditions.keys()])
			
 
				-            where_values = list(conditions.values())
			
 
				-            
			
 
				-            query = f"SELECT * FROM t_basis_of_preparation WHERE {where_clause} AND status = 'current' ORDER BY created_at DESC"
			
 
				-            return await self.fetch_all(query, tuple(where_values))
			
 
				-            
			
 
				-        except Exception as err:
			
 
				-            handler_err(logger=server_logger, err=err, err_name="条件查询失败")
			
 
				-            raise
			
--- a/debug_rag_mapping.py
+++ b/debug_rag_mapping.py
@@ -0,0 +1,107 @@
 
				+#!/usr/bin/env python
			
 
				+# -*- coding: utf-8 -*-
			
 
				+
			
 
				+"""
			
 
				+调试RAG检索元数据映射问题
			
 
				+"""
			
 
				+
			
 
				+import sys
			
 
				+import os
			
 
				+import json
			
 
				+sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
			
 
				+
			
 
				+from foundation.ai.rag.retrieval.retrieval import retrieval_manager
			
 
				+from foundation.ai.models.rerank_model import rerank_model
			
 
				+from foundation.observability.logger.loggering import server_logger as logger
			
 
				+
			
 
				+
			
 
				+def debug_multi_stage_recall(collection_name, query):
			
 
				+    """
			
 
				+    调试多阶段召回的详细过程
			
 
				+    """
			
 
				+    try:
			
 
				+        print("=" * 80)
			
 
				+        print("调试多阶段召回元数据映射问题")
			
 
				+        print("=" * 80)
			
 
				+
			
 
				+        # 第一阶段：获取混合搜索结果
			
 
				+        print("\n第一阶段：混合搜索召回")
			
 
				+        hybrid_results = retrieval_manager.hybrid_search_recall(
			
 
				+            collection_name=collection_name,
			
 
				+            query_text=query,
			
 
				+            top_k=5,
			
 
				+            ranker_type="weighted"
			
 
				+        )
			
 
				+
			
 
				+        print(f"混合搜索返回 {len(hybrid_results)} 个结果:")
			
 
				+        for i, result in enumerate(hybrid_results):
			
 
				+            print(f"\n--- 混合搜索结果 {i} ---")
			
 
				+            print(f"文本内容(前100字符): {result['text_content'][:100]}...")
			
 
				+            print(f"元数据: {result.get('metadata', {})}")
			
 
				+
			
 
				+        # 提取候选文档文本
			
 
				+        candidates = [result['text_content'] for result in hybrid_results]
			
 
				+        print(f"\n提取的候选文档数量: {len(candidates)}")
			
 
				+
			
 
				+        # 第二阶段：获取重排序结果
			
 
				+        print("\n第二阶段：重排序召回")
			
 
				+        rerank_api_results = rerank_model.bge_rerank(query, candidates, top_k=3)
			
 
				+
			
 
				+        print(f"\nBGE重排序API原始返回 {len(rerank_api_results)} 个结果:")
			
 
				+        for i, result in enumerate(rerank_api_results):
			
 
				+            print(f"\n--- BGE API结果 {i} ---")
			
 
				+            print(f"文本内容(前100字符): {result['text'][:100]}...")
			
 
				+            print(f"重排序分数: {result.get('score', 'N/A')}")
			
 
				+            print(f"API返回的索引: {result.get('index', 'N/A')}")
			
 
				+
			
 
				+        # 第三阶段：元数据映射
			
 
				+        print("\n第三阶段：元数据映射")
			
 
				+        rerank_results = retrieval_manager.rerank_recall(
			
 
				+            candidates=candidates,
			
 
				+            query_text=query,
			
 
				+            top_k=3
			
 
				+        )
			
 
				+
			
 
				+        print(f"\n重排序处理后的结果:")
			
 
				+        for i, result in enumerate(rerank_results):
			
 
				+            print(f"\n--- 重排序处理结果 {i} ---")
			
 
				+            print(f"文本内容(前100字符): {result['text_content'][:100]}...")
			
 
				+            print(f"重排序分数: {result.get('rerank_score', 'N/A')}")
			
 
				+            print(f"原始索引: {result.get('original_index', 'N/A')}")
			
 
				+            print(f"重排序排名: {result.get('rerank_rank', 'N/A')}")
			
 
				+            print(f"映射的元数据: {result.get('metadata', {})}")
			
 
				+
			
 
				+            # 验证映射是否正确
			
 
				+            orig_idx = result.get('original_index', 0)
			
 
				+            if orig_idx < len(hybrid_results):
			
 
				+                expected_content = hybrid_results[orig_idx]['text_content'][:100]
			
 
				+                actual_content = result['text_content'][:100]
			
 
				+                is_match = expected_content == actual_content
			
 
				+                print(f"内容匹配验证: {'正确' if is_match else '错误'}")
			
 
				+                if not is_match:
			
 
				+                    print(f"   期望内容: {expected_content}...")
			
 
				+                    print(f"   实际内容: {actual_content}...")
			
 
				+            else:
			
 
				+                print(f"索引越界: original_index={orig_idx} >= hybrid_results长度={len(hybrid_results)}")
			
 
				+
			
 
				+    except Exception as e:
			
 
				+        print(f"[ERROR] 调试失败: {str(e)}")
			
 
				+        import traceback
			
 
				+        traceback.print_exc()
			
 
				+
			
 
				+
			
 
				+def main():
			
 
				+    """
			
 
				+    主调试函数
			
 
				+    """
			
 
				+    print("开始RAG元数据映射调试")
			
 
				+
			
 
				+    # 简化查询，更容易观察映射关系
			
 
				+    query = "水泥混凝土路面"
			
 
				+    collection_name = "first_bfp_collection"
			
 
				+
			
 
				+    debug_multi_stage_recall(collection_name, query)
			
 
				+
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    main()
			
--- a/foundation/ai/models/rerank_model.py
+++ b/foundation/ai/models/rerank_model.py
@@ -42,7 +42,7 @@ class LqReranker:
 
				                 top_k = self.top_k
			
 
				             
			
 
				 
			
 
				-            server_logger.info(f"开始执行重排序，查询: {query}, 候选文档数量: {len(candidates)}")
			
 
				+            server_logger.info(f"开始执行重排序，查询:, 候选文档数量: {len(candidates)}")
			
 
				 
			
 
				             # 构建重排序请求
			
 
				             rerank_request = {
			
--- a/foundation/ai/rag/retrieval/retrieval.py
+++ b/foundation/ai/rag/retrieval/retrieval.py
@@ -39,7 +39,7 @@ class RetrievalManager:
 
				             List[Dict]: 搜索结果列表
			
 
				         """
			
 
				         try:
			
 
				-            self.logger.info(f"开始混合搜索召回，查询: {query_text}")
			
 
				+            self.logger.info(f"开始混合检索")
			
 
				 
			
 
				             param = {'collection_name': collection_name}
			
 
				             results = self.vector_manager.hybrid_search(
			
@@ -69,7 +69,7 @@ class RetrievalManager:
 
				             top_k: 返回结果数量
			
 
				 
			
 
				         Returns:
			
 
				-            List[Dict]: 重排序后的结果列表
			
 
				+            List[Dict]: 重排序后的结果列表，包含原始索引信息
			
 
				         """
			
 
				         try:
			
 
				             self.logger.info(f"开始重排序召回，候选文档数量: {len(candidates)}")
			
@@ -77,14 +77,30 @@ class RetrievalManager:
 
				             # 调用重排序执行器
			
 
				             rerank_results = rerank_model.bge_rerank(query_text, candidates, top_k)
			
 
				 
			
 
				-            # 转换结果格式
			
 
				+            # 转换结果格式，通过文本匹配找到正确的原始索引
			
 
				             scored_docs = []
			
 
				-            for i, result in enumerate(rerank_results):
			
 
				+            for i, api_result in enumerate(rerank_results):
			
 
				+                rerank_text = api_result.get('text', '')
			
 
				+                rerank_score = float(api_result.get('score', '0.0'))
			
 
				+
			
 
				+                # 通过文本匹配找到原始在candidates中的索引
			
 
				+                original_index = None
			
 
				+                for j, candidate_text in enumerate(candidates):
			
 
				+                    if candidate_text == rerank_text:
			
 
				+                        original_index = j
			
 
				+                        break
			
 
				+
			
 
				+                if original_index is None:
			
 
				+                    self.logger.warning(f"无法找到重排序结果的原始索引，文本: {rerank_text[:50]}...")
			
 
				+                    original_index = i  # 回退到当前索引
			
 
				+
			
 
				                 scored_docs.append({
			
 
				-                    'text_content': result.get('text', ''),
			
 
				-                    'rerank_score': float(result.get('score', '0.0')),
			
 
				-                    'index': i
			
 
				+                    'text_content': rerank_text,
			
 
				+                    'rerank_score': rerank_score,
			
 
				+                    'original_index': original_index,  # 正确的原始索引
			
 
				+                    'rerank_rank': i  # 重排序后的排名
			
 
				                 })
			
 
				+                self.logger.debug(f"重排序结果 {i}: 原始索引={original_index}, 重排序分数={rerank_score}")
			
 
				 
			
 
				             self.logger.info(f"重排序召回返回 {len(scored_docs)} 个结果")
			
 
				             return scored_docs
			
@@ -94,7 +110,7 @@ class RetrievalManager:
 
				             return []
			
 
				 
			
 
				     def multi_stage_recall(self, collection_name: str, query_text: str,
			
 
				-                          hybrid_top_k: int = 50, top_k: int = 10,
			
 
				+                          hybrid_top_k: int = 50, top_k: int = 3,
			
 
				                           ranker_type: str = "weighted") -> List[Dict[str, Any]]:
			
 
				         """
			
 
				         多路召回 - 先混合搜索召回，再重排序，只返回重排序结果
			
@@ -110,7 +126,7 @@ class RetrievalManager:
 
				             List[Dict]: 重排序后的结果列表，只包含重排序分数
			
 
				         """
			
 
				         try:
			
 
				-            self.logger.info(f"开始多路召回，查询: {query_text}")
			
 
				+            self.logger.info(f"执行多路召回")
			
 
				 
			
 
				             # 第一阶段：混合搜索召回（向量+BM25）
			
 
				             hybrid_results = self.hybrid_search_recall(
			
@@ -134,15 +150,27 @@ class RetrievalManager:
 
				                 top_k=top_k
			
 
				             )
			
 
				 
			
 
				-            # 为重排序结果添加混合搜索的原始元数据
			
 
				+            # 为重排序结果添加混合搜索的原始元数据，只保留text_content和metadata
			
 
				+            final_results = []
			
 
				             for rerank_result in rerank_results:
			
 
				-                original_index = rerank_result.get('index', 0)
			
 
				+                # 使用正确的原始索引进行元数据映射
			
 
				+                original_index = rerank_result.get('original_index', 0)
			
 
				                 if original_index < len(hybrid_results):
			
 
				                     original_metadata = hybrid_results[original_index].get('metadata', {})
			
 
				-                    rerank_result['metadata'] = original_metadata
			
 
				 
			
 
				-            self.logger.info(f"多路召回完成，返回 {len(rerank_results)} 个重排序结果")
			
 
				-            return rerank_results
			
 
				+                    # 只输出text_content和metadata
			
 
				+                    final_result = {
			
 
				+                        'text_content': rerank_result['text_content'],
			
 
				+                        'metadata': original_metadata
			
 
				+                    }
			
 
				+                    final_results.append(final_result)
			
 
				+
			
 
				+                    self.logger.debug(f"元数据映射成功: 重排序排名{rerank_result.get('rerank_rank')} -> 原始索引{original_index}")
			
 
				+                else:
			
 
				+                    self.logger.warning(f"元数据映射失败: 原始索引{original_index}超出范围(0-{len(hybrid_results)-1})")
			
 
				+
			
 
				+            self.logger.info(f"多路召回完成，返回 {len(final_results)} 个重排序结果")
			
 
				+            return final_results
			
 
				 
			
 
				         except Exception as e:
			
 
				             self.logger.error(f"多路召回失败: {str(e)}")
			
--- a/test/test_hybrid_v2.6.py
+++ b/test/test_hybrid_v2.6.py
@@ -1,245 +0,0 @@
 
				-#!/usr/bin/env python3
			
 
				-"""
			
 
				-测试 Milvus v2.6 混合搜索功能
			
 
				-"""
			
 
				-
			
 
				-import sys
			
 
				-import os
			
 
				-
			
 
				-# 添加项目根目录到路径
			
 
				-sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
			
 
				-
			
 
				-print("Milvus v2.6 混合搜索测试")
			
 
				-print("=" * 50)
			
 
				-
			
 
				-def test_hybrid_search_v26():
			
 
				-    """测试 v2.6 混合搜索功能"""
			
 
				-
			
 
				-    try:
			
 
				-        # 检查版本
			
 
				-        import pymilvus
			
 
				-        print(f"PyMilvus 版本: {pymilvus.__version__}")
			
 
				-
			
 
				-        # 连接服务器并检查版本
			
 
				-        from pymilvus import connections, utility
			
 
				-        connections.connect(
			
 
				-            alias="default",
			
 
				-            host='192.168.92.61',
			
 
				-            port='19530',
			
 
				-            db_name="lq_db"
			
 
				-        )
			
 
				-
			
 
				-        try:
			
 
				-            server_version = utility.get_server_version()
			
 
				-            print(f"Milvus 服务器版本: {server_version}")
			
 
				-        except Exception as e:
			
 
				-            print(f"获取服务器版本失败: {e}")
			
 
				-
			
 
				-        # 导入必要组件
			
 
				-        from langchain_milvus import Milvus, BM25BuiltInFunction
			
 
				-        from langchain_core.documents import Document
			
 
				-        from foundation.ai.models.model_handler import model_handler
			
 
				-
			
 
				-        print("✓ 导入成功")
			
 
				-
			
 
				-        # 获取嵌入模型
			
 
				-        emdmodel = model_handler._get_lq_qwen3_8b_emd()
			
 
				-        print("✓ 嵌入模型加载成功")
			
 
				-
			
 
				-        # 创建测试文档
			
 
				-        test_docs = [
			
 
				-            Document(
			
 
				-                page_content="四川路桥建设集团专注于桥梁和隧道工程建设",
			
 
				-                metadata={"category": "company", "type": "construction"}
			
 
				-            ),
			
 
				-            Document(
			
 
				-                page_content="高速公路桥梁建设技术包括预应力混凝土和钢结构",
			
 
				-                metadata={"category": "technology", "type": "highway"}
			
 
				-            ),
			
 
				-            Document(
			
 
				-                page_content="隧道工程施工方法包括盾构法和钻爆法",
			
 
				-                metadata={"category": "method", "type": "tunnel"}
			
 
				-            ),
			
 
				-            Document(
			
 
				-                page_content="人工智能在建筑行业应用于智能监控和自动化施工",
			
 
				-                metadata={"category": "ai", "type": "technology"}
			
 
				-            ),
			
 
				-            Document(
			
 
				-                page_content="BIM技术在路桥工程中的数字化应用越来越普及",
			
 
				-                metadata={"category": "bim", "type": "digital"}
			
 
				-            )
			
 
				-        ]
			
 
				-
			
 
				-        print(f"✓ 创建 {len(test_docs)} 个测试文档")
			
 
				-
			
 
				-        # 连接参数
			
 
				-        connection_args = {
			
 
				-            "uri": "http://192.168.92.61:19530",
			
 
				-            "user": None,
			
 
				-            "db_name": "lq_db"
			
 
				-        }
			
 
				-
			
 
				-        collection_name = "test_hybrid_v26"
			
 
				-
			
 
				-        print("\n🚀 创建混合搜索向量存储...")
			
 
				-        vectorstore = Milvus.from_documents(
			
 
				-            documents=test_docs,
			
 
				-            embedding=emdmodel,
			
 
				-            builtin_function=BM25BuiltInFunction(),
			
 
				-            vector_field=["dense", "sparse"],
			
 
				-            connection_args=connection_args,
			
 
				-            collection_name=collection_name,
			
 
				-            consistency_level="Strong",
			
 
				-            drop_old=True,
			
 
				-        )
			
 
				-        print("✅ 混合搜索向量存储创建成功!")
			
 
				-
			
 
				-        # 测试不同的搜索策略
			
 
				-        print("\n🔍 测试混合搜索功能...")
			
 
				-
			
 
				-        # 1. 加权搜索
			
 
				-        print("\n1. 加权搜索 (dense=0.7, sparse=0.3):")
			
 
				-        results = vectorstore.similarity_search(
			
 
				-            query="桥梁建设技术",
			
 
				-            k=3,
			
 
				-            ranker_type="weighted",
			
 
				-            ranker_params={"weights": [0.7, 0.3]}
			
 
				-        )
			
 
				-        print(f"   找到 {len(results)} 个结果:")
			
 
				-        for i, result in enumerate(results):
			
 
				-            content = result.page_content[:50]
			
 
				-            category = result.metadata.get('category', 'N/A')
			
 
				-            print(f"   {i+1}. {content}... (类别: {category})")
			
 
				-
			
 
				-        # 2. RRF 搜索
			
 
				-        print("\n2. RRF 搜索:")
			
 
				-        rrf_results = vectorstore.similarity_search(
			
 
				-            query="人工智能应用",
			
 
				-            k=2,
			
 
				-            ranker_type="rrf",
			
 
				-            ranker_params={"k": 60}
			
 
				-        )
			
 
				-        print(f"   找到 {len(rrf_results)} 个结果:")
			
 
				-        for i, result in enumerate(rrf_results):
			
 
				-            content = result.page_content[:50]
			
 
				-            print(f"   {i+1}. {content}...")
			
 
				-
			
 
				-        # 3. 默认搜索
			
 
				-        print("\n3. 默认搜索:")
			
 
				-        default_results = vectorstore.similarity_search(
			
 
				-            query="BIM技术应用",
			
 
				-            k=2
			
 
				-        )
			
 
				-        print(f"   找到 {len(default_results)} 个结果:")
			
 
				-        for i, result in enumerate(default_results):
			
 
				-            content = result.page_content[:50]
			
 
				-            print(f"   {i+1}. {content}...")
			
 
				-
			
 
				-        # # 清理
			
 
				-        # if utility.has_collection(collection_name):
			
 
				-        #     utility.drop_collection(collection_name)
			
 
				-        #     print(f"\n✅ 清理测试集合: {collection_name}")
			
 
				-
			
 
				-        return True
			
 
				-
			
 
				-    except Exception as e:
			
 
				-        print(f"❌ 测试失败: {e}")
			
 
				-        import traceback
			
 
				-        traceback.print_exc()
			
 
				-        return False
			
 
				-
			
 
				-def test_advanced_hybrid_features():
			
 
				-    """测试高级混合搜索功能"""
			
 
				-
			
 
				-    try:
			
 
				-        print("\n🎯 测试高级混合搜索功能...")
			
 
				-
			
 
				-        from langchain_milvus import Milvus, BM25BuiltInFunction
			
 
				-        from langchain_core.documents import Document
			
 
				-        from foundation.ai.models.model_handler import model_handler
			
 
				-
			
 
				-        emdmodel = model_handler._get_lq_qwen3_8b_emd()
			
 
				-
			
 
				-        # 测试多种权重配置
			
 
				-        docs = [
			
 
				-            Document(page_content="深度学习技术在图像识别中的应用", metadata={"domain": "ai", "type": "dl"}),
			
 
				-            Document(page_content="机器学习算法在数据挖掘中的实践", metadata={"domain": "ai", "type": "ml"}),
			
 
				-            Document(page_content="神经网络模型的优化方法研究", metadata={"domain": "ai", "type": "nn"}),
			
 
				-        ]
			
 
				-
			
 
				-        connection_args = {
			
 
				-            "uri": "http://192.168.92.61:19530",
			
 
				-            "user": None,
			
 
				-            "db_name": "lq_db"
			
 
				-        }
			
 
				-
			
 
				-        collection_name = "test_advanced_hybrid"
			
 
				-
			
 
				-        # 创建向量存储
			
 
				-        vectorstore = Milvus.from_documents(
			
 
				-            documents=docs,
			
 
				-            embedding=emdmodel,
			
 
				-            builtin_function=BM25BuiltInFunction(),
			
 
				-            vector_field=["dense", "sparse"],
			
 
				-            connection_args=connection_args,
			
 
				-            collection_name=collection_name,
			
 
				-            consistency_level="Strong",
			
 
				-            drop_old=True,
			
 
				-        )
			
 
				-
			
 
				-        print("✅ 高级混合搜索测试集创建成功")
			
 
				-
			
 
				-        # 测试不同的权重组合
			
 
				-        test_configs = [
			
 
				-            {"name": "语义优先", "weights": [0.9, 0.1]},
			
 
				-            {"name": "关键词优先", "weights": [0.1, 0.9]},
			
 
				-            {"name": "平衡配置", "weights": [0.5, 0.5]},
			
 
				-        ]
			
 
				-
			
 
				-        for config in test_configs:
			
 
				-            results = vectorstore.similarity_search(
			
 
				-                query="深度学习模型",
			
 
				-                k=2,
			
 
				-                ranker_type="weighted",
			
 
				-                ranker_params={"weights": config["weights"]}
			
 
				-            )
			
 
				-            print(f"   {config['name']} ({config['weights']}): {len(results)} 个结果")
			
 
				-
			
 
				-        # 清理
			
 
				-        from pymilvus import utility
			
 
				-        if utility.has_collection(collection_name):
			
 
				-            utility.drop_collection(collection_name)
			
 
				-
			
 
				-        return True
			
 
				-
			
 
				-    except Exception as e:
			
 
				-        print(f"❌ 高级功能测试失败: {e}")
			
 
				-        return False
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    print("开始 Milvus v2.6 混合搜索测试...")
			
 
				-
			
 
				-    # 基础混合搜索测试
			
 
				-    basic_success = test_hybrid_search_v26()
			
 
				-
			
 
				-    # 高级功能测试
			
 
				-    if basic_success:
			
 
				-        advanced_success = test_advanced_hybrid_features()
			
 
				-    else:
			
 
				-        advanced_success = False
			
 
				-
			
 
				-    print("\n" + "=" * 50)
			
 
				-    print("测试结果总结:")
			
 
				-    print(f"✅ 基础混合搜索: {'成功' if basic_success else '失败'}")
			
 
				-    print(f"✅ 高级混合搜索: {'成功' if advanced_success else '失败'}")
			
 
				-
			
 
				-    if basic_success and advanced_success:
			
 
				-        print("\n🎉 恭喜！Milvus v2.6 混合搜索功能完全正常！")
			
 
				-        print("\n📝 可以在你的项目中使用以下功能:")
			
 
				-        print("- ✓ create_hybrid_collection() 方法")
			
 
				-        print("- ✓ hybrid_search() 方法")
			
 
				-        print("- ✓ 加权搜索 (ranker_type='weighted')")
			
 
				-        print("- ✓ RRF 搜索 (ranker_type='rrf')")
			
 
				-        print("- ✓ 自定义权重配置")
			
 
				-    else:
			
 
				-        print("\n❌ 仍有问题需要解决")
			
--- a/test/test_milvus_methods.py
+++ b/test/test_milvus_methods.py
@@ -1,212 +0,0 @@
 
				-#!/usr/bin/env python3
			
 
				-"""
			
 
				-直接测试 milvus_vector.py 中的 create_hybrid_collection 和 hybrid_search 方法
			
 
				-"""
			
 
				-
			
 
				-import sys
			
 
				-import os
			
 
				-
			
 
				-# 添加项目根目录到路径
			
 
				-sys.path.insert(0, os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
			
 
				-
			
 
				-print("测试 MilvusVectorManager 的 create_hybrid_collection 和 hybrid_search 方法")
			
 
				-print("=" * 70)
			
 
				-
			
 
				-def test_milvus_vector_manager_methods():
			
 
				-    """直接测试 MilvusVectorManager 类的方法"""
			
 
				-
			
 
				-    try:
			
 
				-        # 导入并初始化 MilvusVectorManager
			
 
				-        from foundation.database.base.vector.milvus_vector import MilvusVectorManager
			
 
				-        print("✓ 成功导入 MilvusVectorManager")
			
 
				-
			
 
				-        # 初始化管理器
			
 
				-        manager = MilvusVectorManager()
			
 
				-        print("✓ MilvusVectorManager 初始化成功")
			
 
				-
			
 
				-        # 测试数据
			
 
				-        test_documents = [
			
 
				-            {
			
 
				-                'content': '四川路桥建设集团专注于桥梁和隧道工程建设',
			
 
				-                'metadata': {'category': 'company', 'industry': 'construction', 'id': 1}
			
 
				-            },
			
 
				-            {
			
 
				-                'content': '高速公路桥梁建设技术包括预应力混凝土桥梁和钢结构桥梁',
			
 
				-                'metadata': {'category': 'technology', 'industry': 'highway', 'id': 2}
			
 
				-            },
			
 
				-            {
			
 
				-                'content': '隧道工程施工方法包括盾构法、钻爆法和明挖法',
			
 
				-                'metadata': {'category': 'method', 'industry': 'tunnel', 'id': 3}
			
 
				-            },
			
 
				-            {
			
 
				-                'content': '人工智能在建筑行业的应用包括智能监控和自动化施工',
			
 
				-                'metadata': {'category': 'ai', 'industry': 'technology', 'id': 4}
			
 
				-            },
			
 
				-            {
			
 
				-                'content': 'BIM技术在路桥工程中的数字化应用越来越普及',
			
 
				-                'metadata': {'category': 'bim', 'industry': 'digital', 'id': 5}
			
 
				-            }
			
 
				-        ]
			
 
				-
			
 
				-        collection_name = "test_milvus_methods"
			
 
				-
			
 
				-        print(f"\n🚀 测试 create_hybrid_collection 方法...")
			
 
				-        print(f"   准备创建集合: {collection_name}")
			
 
				-        print(f"   文档数量: {len(test_documents)}")
			
 
				-
			
 
				-        # 调用 create_hybrid_collection 方法
			
 
				-        vectorstore = manager.create_hybrid_collection(
			
 
				-            collection_name=collection_name,
			
 
				-            documents=test_documents
			
 
				-        )
			
 
				-        print("✅ create_hybrid_collection 执行成功!")
			
 
				-        print(f"   返回的 vectorstore 类型: {type(vectorstore)}")
			
 
				-
			
 
				-        # 等待索引创建完成
			
 
				-        import time
			
 
				-        time.sleep(3)
			
 
				-
			
 
				-        print(f"\n🔍 测试 hybrid_search 方法...")
			
 
				-
			
 
				-        # 测试参数
			
 
				-        param = {'collection_name': collection_name}
			
 
				-
			
 
				-        # 1. 测试加权搜索
			
 
				-        print("\n   1. 测试加权混合搜索:")
			
 
				-        query1 = "桥梁建设技术"
			
 
				-        print(f"   查询: '{query1}'")
			
 
				-        results1 = manager.hybrid_search(
			
 
				-            param=param,
			
 
				-            query_text=query1,
			
 
				-            top_k=3,
			
 
				-            ranker_type="weighted",
			
 
				-            dense_weight=0.7,
			
 
				-            sparse_weight=0.3
			
 
				-        )
			
 
				-        print(f"   找到 {len(results1)} 个结果:")
			
 
				-        for i, result in enumerate(results1):
			
 
				-            content = result.get('text_content', '')[:50]
			
 
				-            similarity = result.get('similarity', 0)
			
 
				-            metadata = result.get('metadata', {})
			
 
				-            print(f"   {i+1}. {content}... (相似度: {similarity:.4f})")
			
 
				-            print(f"      元数据: {metadata}")
			
 
				-
			
 
				-        # 2. 测试RRF搜索
			
 
				-        print("\n   2. 测试RRF混合搜索:")
			
 
				-        query2 = "人工智能应用"
			
 
				-        print(f"   查询: '{query2}'")
			
 
				-        results2 = manager.hybrid_search(
			
 
				-            param=param,
			
 
				-            query_text=query2,
			
 
				-            top_k=2,
			
 
				-            ranker_type="rrf"
			
 
				-        )
			
 
				-        print(f"   找到 {len(results2)} 个结果:")
			
 
				-        for i, result in enumerate(results2):
			
 
				-            content = result.get('text_content', '')
			
 
				-            metadata = result.get('metadata', {})
			
 
				-            print(f"   {i+1}. {content}")
			
 
				-            print(f"      元数据: {metadata}")
			
 
				-
			
 
				-        # 3. 测试不同权重配置
			
 
				-        print("\n   3. 测试不同权重配置:")
			
 
				-        query3 = "路桥工程"
			
 
				-        weight_configs = [
			
 
				-            {"dense": 0.8, "sparse": 0.2, "name": "语义优先"},
			
 
				-            {"dense": 0.2, "sparse": 0.8, "name": "关键词优先"},
			
 
				-            {"dense": 0.5, "sparse": 0.5, "name": "平衡配置"}
			
 
				-        ]
			
 
				-
			
 
				-        for config in weight_configs:
			
 
				-            print(f"   {config['name']} (dense={config['dense']}, sparse={config['sparse']}):")
			
 
				-            results3 = manager.hybrid_search(
			
 
				-                param=param,
			
 
				-                query_text=query3,
			
 
				-                top_k=2,
			
 
				-                ranker_type="weighted",
			
 
				-                dense_weight=config["dense"],
			
 
				-                sparse_weight=config["sparse"]
			
 
				-            )
			
 
				-            print(f"     返回 {len(results3)} 个结果")
			
 
				-            if results3:
			
 
				-                best_content = results3[0].get('text_content', '')[:50]
			
 
				-                print(f"     最佳匹配: {best_content}...")
			
 
				-
			
 
				-        # 清理测试集合
			
 
				-        print(f"\n🧹 清理测试集合...")
			
 
				-        try:
			
 
				-            from pymilvus import utility
			
 
				-            if utility.has_collection(collection_name):
			
 
				-                utility.drop_collection(collection_name)
			
 
				-                print(f"✅ 成功清理集合: {collection_name}")
			
 
				-        except Exception as e:
			
 
				-            print(f"⚠️ 清理集合失败: {e}")
			
 
				-
			
 
				-        return True
			
 
				-
			
 
				-    except Exception as e:
			
 
				-        print(f"❌ 测试失败: {e}")
			
 
				-        import traceback
			
 
				-        traceback.print_exc()
			
 
				-        return False
			
 
				-
			
 
				-def test_method_signatures():
			
 
				-    """测试方法签名和基本功能"""
			
 
				-
			
 
				-    try:
			
 
				-        from foundation.database.base.vector.milvus_vector import MilvusVectorManager
			
 
				-
			
 
				-        print("\n📋 方法签名检查:")
			
 
				-
			
 
				-        # 检查 create_hybrid_collection 方法
			
 
				-        import inspect
			
 
				-        create_sig = inspect.signature(MilvusVectorManager.create_hybrid_collection)
			
 
				-        print(f"   create_hybrid_collection{create_sig}")
			
 
				-
			
 
				-        # 检查 hybrid_search 方法
			
 
				-        hybrid_sig = inspect.signature(MilvusVectorManager.hybrid_search)
			
 
				-        print(f"   hybrid_search{hybrid_sig}")
			
 
				-
			
 
				-        # 检查方法是否存在
			
 
				-        methods = dir(MilvusVectorManager())
			
 
				-        has_create = 'create_hybrid_collection' in methods
			
 
				-        has_hybrid = 'hybrid_search' in methods
			
 
				-
			
 
				-        print(f"\n   方法存在性检查:")
			
 
				-        print(f"   create_hybrid_collection: {'✓' if has_create else '✗'}")
			
 
				-        print(f"   hybrid_search: {'✓' if has_hybrid else '✗'}")
			
 
				-
			
 
				-        return has_create and has_hybrid
			
 
				-
			
 
				-    except Exception as e:
			
 
				-        print(f"❌ 方法签名检查失败: {e}")
			
 
				-        return False
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    print("开始测试 MilvusVectorManager 的核心方法...")
			
 
				-
			
 
				-    # 方法签名检查
			
 
				-    signature_ok = test_method_signatures()
			
 
				-
			
 
				-    if signature_ok:
			
 
				-        # 核心功能测试
			
 
				-        function_ok = test_milvus_vector_manager_methods()
			
 
				-    else:
			
 
				-        function_ok = False
			
 
				-
			
 
				-    print("\n" + "=" * 70)
			
 
				-    print("测试结果总结:")
			
 
				-    print(f"✅ 方法签名检查: {'通过' if signature_ok else '失败'}")
			
 
				-    print(f"✅ 核心功能测试: {'通过' if function_ok else '失败'}")
			
 
				-
			
 
				-    if signature_ok and function_ok:
			
 
				-        print("\n🎉 所有测试通过!")
			
 
				-        print("\n📝 MilvusVectorManager 核心方法完全可用:")
			
 
				-        print("   ✓ create_hybrid_collection() - 混合集合创建")
			
 
				-        print("   ✓ hybrid_search() - 混合搜索")
			
 
				-        print("   ✓ 加权搜索 (ranker_type='weighted')")
			
 
				-        print("   ✓ RRF搜索 (ranker_type='rrf')")
			
 
				-        print("   ✓ 自定义权重配置")
			
 
				-        print("   ✓ 完整的错误处理和回退机制")
			
 
				-    else:
			
 
				-        print("\n❌ 部分测试失败，请检查实现")
			
--- a/test/test_rag.py
+++ b/test/test_rag.py
--- a/test/test_rerank_simple.py
+++ b/test/test_rerank_simple.py
@@ -1,93 +0,0 @@
 
				-#!/usr/bin/env python
			
 
				-# -*- coding: utf-8 -*-
			
 
				-
			
 
				-"""
			
 
				-简化的重排序测试脚本
			
 
				-"""
			
 
				-
			
 
				-import sys
			
 
				-import os
			
 
				-sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
			
 
				-
			
 
				-from foundation.ai.models.rerank_model import execute_rerank
			
 
				-
			
 
				-def test_rerank_function():
			
 
				-    """
			
 
				-    测试重排序功能
			
 
				-    """
			
 
				-    print("开始测试重排序功能")
			
 
				-    print("=" * 50)
			
 
				-
			
 
				-    # 测试用例1：乔布斯查询
			
 
				-    query1 = "乔布斯是谁？"
			
 
				-    candidates1 = [
			
 
				-        "大模型是一类具有大量参数的人工智能模型。",
			
 
				-        "苹果是一家科技公司",
			
 
				-        "大模型用于深度学习任务"
			
 
				-    ]
			
 
				-
			
 
				-    print("测试用例1:")
			
 
				-    print(f"查询: {query1}")
			
 
				-    print("候选文档:")
			
 
				-    for i, doc in enumerate(candidates1, 1):
			
 
				-        print(f"  {i}. {doc}")
			
 
				-
			
 
				-    try:
			
 
				-        results1 = execute_rerank(query1, candidates1, top_k=3)
			
 
				-
			
 
				-        print("\n重排序结果:")
			
 
				-        for i, result in enumerate(results1, 1):
			
 
				-            text = result.get("text", "")
			
 
				-            score = result.get("score", "0.0")
			
 
				-            print(f"  {i}. [{score}] {text}")
			
 
				-
			
 
				-        print(f"\n结果数量: {len(results1)}")
			
 
				-        if results1:
			
 
				-            print("测试用例1: 成功")
			
 
				-        else:
			
 
				-            print("测试用例1: 失败 - 没有返回结果")
			
 
				-
			
 
				-    except Exception as e:
			
 
				-        print(f"测试用例1: 失败 - 异常: {str(e)}")
			
 
				-
			
 
				-    print("\n" + "-" * 50)
			
 
				-
			
 
				-    # 测试用例2：人工智能查询
			
 
				-    query2 = "什么是人工智能？"
			
 
				-    candidates2 = [
			
 
				-        "人工智能是计算机科学的一个分支。",
			
 
				-        "机器学习是人工智能的核心技术。",
			
 
				-        "深度学习使用神经网络进行学习。",
			
 
				-        "苹果公司生产iPhone手机。",
			
 
				-        "Transformer是大模型的基础架构。"
			
 
				-    ]
			
 
				-
			
 
				-    print("测试用例2:")
			
 
				-    print(f"查询: {query2}")
			
 
				-    print("候选文档:")
			
 
				-    for i, doc in enumerate(candidates2, 1):
			
 
				-        print(f"  {i}. {doc}")
			
 
				-
			
 
				-    try:
			
 
				-        results2 = execute_rerank(query2, candidates2, top_k=5)
			
 
				-
			
 
				-        print("\n重排序结果:")
			
 
				-        for i, result in enumerate(results2, 1):
			
 
				-            text = result.get("text", "")
			
 
				-            score = result.get("score", "0.0")
			
 
				-            print(f"  {i}. [{score}] {text}")
			
 
				-
			
 
				-        print(f"\n结果数量: {len(results2)}")
			
 
				-        if results2:
			
 
				-            print("测试用例2: 成功")
			
 
				-        else:
			
 
				-            print("测试用例2: 失败 - 没有返回结果")
			
 
				-
			
 
				-    except Exception as e:
			
 
				-        print(f"测试用例2: 失败 - 异常: {str(e)}")
			
 
				-
			
 
				-    print("\n" + "=" * 50)
			
 
				-    print("重排序功能测试完成")
			
 
				-
			
 
				-if __name__ == "__main__":
			
 
				-    test_rerank_function()