hai 5 meses · 239d2421a3
--- a/file_processors/pdf_processor.py
+++ b/file_processors/pdf_processor.py
@@ -20,7 +20,7 @@ class PDFProcessor:
 
				         self.directory = directory  # PDF 文件所在目录
			
 
				         self.file_group_num = kwargs.get('file_group_num', 20)  # 每组处理的文件数
			
 
				         self.batch_num = kwargs.get('batch_num', 6)  # 每次插入的批次数量
			
 
				-        self.chunksize = kwargs.get('chunksize', 500)  # 切分文本的大小
			
 
				+        self.chunksize = kwargs.get('chunksize', 1000)  # 切分文本的大小
			
 
				         self.overlap = kwargs.get('overlap', 100)  # 切分文本的重叠大小
			
 
				         self.file_suffix_list = kwargs.get('file_suffix_list', ['.pdf' , '.docx' , '.doc'])
			
 
				         server_logger.info(f"""
			
@@ -130,8 +130,16 @@ class PDFProcessor:
 
				             # 将文本切分成小段
			
 
				             docs = self.split_text(document_content)
			
 
				             pdf_contents.append(docs)
			
 
				+            server_logger.info(f"Documents pdf_file_name:{pdf_file_name}，docs:{len(docs)}")
			
 
				 
			
 
				         # TODO 切分的问题 可以增加metadata元数据信息 
			
 
				         server_logger.info(f"Processed Documents:{self.directory}，docs:{len(pdf_contents)}")
			
 
				         return pdf_contents
			
 
				         
			
 
				+
			
 
				+
			
 
				+
			
 
				+    def print_chunk_info(self, chunk):
			
 
				+        """打印切分文本的信息"""
			
 
				+        server_logger.info(f"Chunk: {chunk.page_content}")
			
 
				+        server_logger.info(f"Metadata: {chunk.metadata}")
			
--- a/views/test_views.py
+++ b/views/test_views.py
@@ -398,7 +398,7 @@ async def generate_chat_endpoint(
 
				         output = None
			
 
				         #output = test_generate_model_client.get_model_data_governance_invoke(trace_id , task_prompt_info, input_query, context)
			
 
				         # 直接执行
			
 
				-        server_logger.debug(trace_id=trace_id, msg=f"【result】: {output}", log_type="agent/chat")
			
 
				+        #server_logger.debug(trace_id=trace_id, msg=f"【result】: {output}", log_type="agent/chat")
			
 
				         # 返回字典格式的响应
			
 
				         return JSONResponse(
			
 
				             return_json(data={"output": output}, data_type="text", trace_id=trace_id))