S · SITUATION — 数仓交付缺少质量把关,同类问题反复出现
⚠️
字段类型错误
订单编号 → "1.5E+10"
数值型存储导致科学计数法,无法正确关联
🔀
品类脏数据
"Fan" / "fan" / "FAN " / "风扇"
大小写混乱、同义词未统一、含无效字符
无字段说明
stat_time_day = ?
dt_1d = ?
没有文档,每次接表靠"猜"字段含义
🔁 不是偶发问题 — 是数仓交付流程缺少质量把关环节导致的系统性风险
T · TASK — 两个层面
短期
减少接表排查成本,提升自己的开发效率
长期
推动数仓改进交付规范,从源头减少数据质量问题
A · ACTION
1 自建 Skill 工具 + 结构化反馈 短期 · 自己补位
数据字典 Skill
异常检测
结构化反馈
自动完成字段翻译、枚举值扫描、类型校验、异常值检测
输出结构化质量报告,直接发给数仓推动修复
表名 字段 问题 影响行数 期望值
dws_xxx order_id 科学计数法 1,200 VARCHAR
dim_yyy category 大小写混乱 340 统一枚举
2 向上推动流程规范化 长期 · 源头改进
周会提议
纳入协作规范
向领导提议:数仓交付应附带字段说明 + 基本质量校验
领导认可后纳入数仓与BI协作规范,后续交表质量明显提升
R · RESULT
短期效果
半天 → 几分钟   接表排查时间
Skill 内部分享,同事复用
长期效果
科学计数法 / 脏数据问题大幅减少
数仓交付开始附带字段说明
体现能力:跨团队协作 — 识别系统性风险,自建工具补位 + 推动上游流程规范化