崗位職責:
- 負責檔案數字化項目中的數據治理體系搭建,制定數據清洗、標準化及質量管控流程,保障檔案數據符合行業規范;
- 設計并優化數據清洗策略,針對OCR識別后的文本數據、結構化元數據等進行異常值處理、去重、格式統一及語義糾錯;
- 參與檔案數據資產管理,構建元數據目錄、數據血緣追蹤及數據安全分類分級機制,提升數據可追溯性與合規性;
- 開發自動化數據質檢工具,結合規則引擎與輕量級AI模型(如NLP文本分類),實現檔案數據質量動態監控與預警;
- 協同業務團隊完成檔案數據遷移、整合及歸檔,優化數據存儲結構,提升檢索效率與長期保存可靠性;
- 研究檔案行業數據標準(如《電子檔案管理規范》),推動數據治理方案在政府/國企項目中的落地應用。
崗位要求:
1.本科及以上學歷,計算機、數學、人工智能等相關專業,2-3年 數據治理經驗或者AI 研發經驗;
2.具備大規模數據處理能力,熟悉Spark、Hadoop、Flink 等大數據處理框架;
3具備計算機視覺(CV)、自然語言處理(NLP)、推薦系統等領域的工程實踐經驗;
4.熟悉圖像處理、文字識別(OCR) 相關核心算法,如 CNN、Transformers、OCR 識別算法(如 CRNN、CTC、Attention-based OCR);
5.熟練掌握 Python、C++、Java 等編程語言,具備 AI 模型優化及高效部署經驗;
6.有國產化相關經驗者優先,熟悉國產數據庫、中間件、操作系統等生態環境;
7.具有大型 G 端項目經驗者優先,了解政府、國企等行業的大型項目需求和系統架構特點;
8.具備良好的問題分析與解決能力,對 AI 技術落地有深入理解和實踐經驗。