lingmin_package@163.com hai 5 meses
pai
achega
239d2421a3
Modificáronse 2 ficheiros con 10 adicións e 2 borrados
  1. 9 1
      file_processors/pdf_processor.py
  2. 1 1
      views/test_views.py

+ 9 - 1
file_processors/pdf_processor.py

@@ -20,7 +20,7 @@ class PDFProcessor:
         self.directory = directory  # PDF 文件所在目录
         self.file_group_num = kwargs.get('file_group_num', 20)  # 每组处理的文件数
         self.batch_num = kwargs.get('batch_num', 6)  # 每次插入的批次数量
-        self.chunksize = kwargs.get('chunksize', 500)  # 切分文本的大小
+        self.chunksize = kwargs.get('chunksize', 1000)  # 切分文本的大小
         self.overlap = kwargs.get('overlap', 100)  # 切分文本的重叠大小
         self.file_suffix_list = kwargs.get('file_suffix_list', ['.pdf' , '.docx' , '.doc'])
         server_logger.info(f"""
@@ -130,8 +130,16 @@ class PDFProcessor:
             # 将文本切分成小段
             docs = self.split_text(document_content)
             pdf_contents.append(docs)
+            server_logger.info(f"Documents pdf_file_name:{pdf_file_name},docs:{len(docs)}")
 
         # TODO 切分的问题 可以增加metadata元数据信息 
         server_logger.info(f"Processed Documents:{self.directory},docs:{len(pdf_contents)}")
         return pdf_contents
         
+
+
+
+    def print_chunk_info(self, chunk):
+        """打印切分文本的信息"""
+        server_logger.info(f"Chunk: {chunk.page_content}")
+        server_logger.info(f"Metadata: {chunk.metadata}")

+ 1 - 1
views/test_views.py

@@ -398,7 +398,7 @@ async def generate_chat_endpoint(
         output = None
         #output = test_generate_model_client.get_model_data_governance_invoke(trace_id , task_prompt_info, input_query, context)
         # 直接执行
-        server_logger.debug(trace_id=trace_id, msg=f"【result】: {output}", log_type="agent/chat")
+        #server_logger.debug(trace_id=trace_id, msg=f"【result】: {output}", log_type="agent/chat")
         # 返回字典格式的响应
         return JSONResponse(
             return_json(data={"output": output}, data_type="text", trace_id=trace_id))