2 ماه پیش · 42d6d8a0b8
--- a/core/construction_review/component/doc_worker/pdf_worker/fulltext_extractor.py
+++ b/core/construction_review/component/doc_worker/pdf_worker/fulltext_extractor.py
@@ -5,6 +5,7 @@ PDF 全文提取实现
 
				 from __future__ import annotations
			
 
				 
			
 
				 import io
			
 
				+import re
			
 
				 from typing import Any, Dict, List, Tuple
			
 
				 
			
 
				 import fitz  # PyMuPDF
			
@@ -56,10 +57,11 @@ class PdfFullTextExtractor(FullTextExtractor):
 
				     def _filter_header_footer(self, text: str) -> str:
			
 
				         """
			
 
				         过滤页眉页脚
			
 
				-        
			
 
				+
			
 
				         过滤规则：
			
 
				         1. 页眉：检测连续空格，检测到就删掉这行
			
 
				-        2. 页脚：每页的最后一行，删掉每页的最后一行
			
 
				+        2. 页脚：智能判断最后一行是否为页脚（页码、固定模板、分隔线等），
			
 
				+           仅在符合页脚特征时才删除，避免误删正文内容
			
 
				         """
			
 
				         # 获取配置
			
 
				         header_space_threshold = self._cfg.get(
			
@@ -67,11 +69,11 @@ class PdfFullTextExtractor(FullTextExtractor):
 
				         )
			
 
				 
			
 
				         lines = text.split("\n")
			
 
				-        
			
 
				+
			
 
				         # 如果只有一行或没有行，直接返回
			
 
				         if len(lines) <= 1:
			
 
				             return text
			
 
				-        
			
 
				+
			
 
				         # 第一步：过滤页眉（连续空格超过阈值的行）
			
 
				         filtered_lines: List[str] = []
			
 
				         for line in lines:
			
@@ -84,20 +86,52 @@ class PdfFullTextExtractor(FullTextExtractor):
 
				                     max_consecutive_spaces = max(max_consecutive_spaces, current_spaces)
			
 
				                 else:
			
 
				                     current_spaces = 0
			
 
				-            
			
 
				+
			
 
				             # 如果连续空格数超过阈值，认为是页眉行，跳过
			
 
				             if max_consecutive_spaces >= header_space_threshold:
			
 
				                 continue
			
 
				-            
			
 
				+
			
 
				             # 保留非页眉行
			
 
				             filtered_lines.append(line)
			
 
				-        
			
 
				-        # 第二步：过滤页脚（删除最后一行）
			
 
				+
			
 
				+        # 第二步：智能过滤页脚（仅在最后一行看起来像页脚时才删除）
			
 
				         if len(filtered_lines) > 0:
			
 
				-            filtered_lines.pop()  # 删除最后一行
			
 
				+            last_line = filtered_lines[-1].strip()
			
 
				+            if self._is_likely_footer(last_line):
			
 
				+                filtered_lines.pop()
			
 
				 
			
 
				         return "\n".join(filtered_lines)
			
 
				 
			
 
				+    def _is_likely_footer(self, line: str) -> bool:
			
 
				+        """判断一行文本是否可能是页脚（页码、固定模板、分隔线等）"""
			
 
				+        if not line:
			
 
				+            return True
			
 
				+
			
 
				+        # 纯数字页码
			
 
				+        if line.isdigit():
			
 
				+            return True
			
 
				+
			
 
				+        # 常见页码格式：第X页、共X页、X / Y
			
 
				+        if re.match(r"^[第共]\s*\d+\s*[页页次]?$", line):
			
 
				+            return True
			
 
				+        if re.match(r"^\d+\s*/\s*\d+$", line):
			
 
				+            return True
			
 
				+
			
 
				+        # 日期或短标识（如 "2024年3月"、"2024-03"）
			
 
				+        if re.match(r"^\d{4}[-年/.]\d{1,2}", line):
			
 
				+            return True
			
 
				+
			
 
				+        # 很短且不含中文字符（通常是页码、英文标识等）
			
 
				+        chinese_chars = self._count_chinese_chars(line)
			
 
				+        if len(line) <= 8 and chinese_chars == 0:
			
 
				+            return True
			
 
				+
			
 
				+        # 全是特殊字符（横线、点、下划线等分隔线）
			
 
				+        if re.match(r"^[\-—_.·\s]+$", line):
			
 
				+            return True
			
 
				+
			
 
				+        return False
			
 
				+
			
 
				     def _count_chinese_chars(self, text: str) -> int:
			
 
				         """
			
 
				         统计文本中的中文字符数（不含转义字符）