核心職責:
1. 為調度系統構建數據預處理流水線,保障輸入數據質量
2. 開發自動化清洗工具,處理缺失/異常/重復數據,實施標準化
3. 設計數據質量監控規則(完整性/一致性校驗)
4. 集成調度系統(Airflow等),優化ETL流程銜接
5. 編寫技術文檔,支持跨團隊數據需求
6.本科及以上學歷, 3-5年工作經驗
必備技能:
1.熟悉Python(Pandas/NumPy)及SQL
2.數據清洗開發經驗,熟悉正則/字符串處理
3.了解數據治理框架(DAMA/DCMM)
4.掌握ETL工具(PySpark/Great Expectations)
5.熟悉Linux環境與基礎Shell腳本
加分項:
1.調度系統(Airflow)或云平臺(AWS/Azure)經驗
2.數據血緣追蹤/元數據管理實踐
3.大數據生態(Spark/Hive)基礎