feat: initial commit for post-ocr extraction pipeline

2026-02-12 14:20:33 +08:00
commit fe5a346fdd
7 changed files with 196 additions and 0 deletions
--- a/CLAUDE.md
+++ b/CLAUDE.md
@@ -0,0 +1,18 @@
+# Post-OCR Data Extraction Project
+
+## 项目愿景
+实现工厂环境下信封背面信息的自动化提取与结构化录入。
+
+## 技术栈
+- **OCR**: PaddleOCR (本地部署)
+- **数据处理**: Python, Pandas
+- **解析逻辑**: 正则表达式 + 语义校验
+
+## 目录结构
+- `data/input/`: 原始图片存放处
+- `data/output/`: 结果 Excel 及处理日志
+- `src/`: 源代码
+
+## 开发规范
+1. 错误处理：所有 OCR 失败或解析不完全的记录必须记录在 `data/output/error_log.csv` 中。
+2. 验证：在保存前进行邮编（6位）和电话（正则）的合法性校验。