Files
post-ocr/CLAUDE.md

19 lines
609 B
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# Post-OCR Data Extraction Project
## 项目愿景
实现工厂环境下信封背面信息的自动化提取与结构化录入。
## 技术栈
- **OCR**: PaddleOCR (本地部署)
- **数据处理**: Python, Pandas
- **解析逻辑**: 正则表达式 + 语义校验
## 目录结构
- `data/input/`: 原始图片存放处
- `data/output/`: 结果 Excel 及处理日志
- `src/`: 源代码
## 开发规范
1. 错误处理:所有 OCR 失败或解析不完全的记录必须记录在 `data/output/error_log.csv` 中。
2. 验证在保存前进行邮编6位和电话正则的合法性校验。