feat: initial commit for post-ocr extraction pipeline
This commit is contained in:
18
CLAUDE.md
Normal file
18
CLAUDE.md
Normal file
@@ -0,0 +1,18 @@
|
||||
# Post-OCR Data Extraction Project
|
||||
|
||||
## 项目愿景
|
||||
实现工厂环境下信封背面信息的自动化提取与结构化录入。
|
||||
|
||||
## 技术栈
|
||||
- **OCR**: PaddleOCR (本地部署)
|
||||
- **数据处理**: Python, Pandas
|
||||
- **解析逻辑**: 正则表达式 + 语义校验
|
||||
|
||||
## 目录结构
|
||||
- `data/input/`: 原始图片存放处
|
||||
- `data/output/`: 结果 Excel 及处理日志
|
||||
- `src/`: 源代码
|
||||
|
||||
## 开发规范
|
||||
1. 错误处理:所有 OCR 失败或解析不完全的记录必须记录在 `data/output/error_log.csv` 中。
|
||||
2. 验证:在保存前进行邮编(6位)和电话(正则)的合法性校验。
|
||||
Reference in New Issue
Block a user