崗位職責
1. 利用大數據技術,以醫療、基因檢測數據為源數據進行數倉開發;
2. 設計、開發和維護數據處理流程,包括數據的采集、清洗、轉換和加載,確保數據的準確性、完整性和一致性;
3. 設計和管理數據存儲結構,包括數據倉庫、數據湖等,優化數據的存儲和查詢性能;
4. 跟蹤和應用最新的數據技術和工具,持續改進數據開發流程和數據處理效率;
5. 編寫技術文檔。
任職要求
1. 本科學歷,計算機科學、數據科學、生物信息學等相關領域專業;
2. 經驗要求:具備3年以上大數據開發經驗;
3. 有扎實的SQL功底和調優能力,有Java、Python語言的編程能力、有Python 爬蟲經驗;
4. 有Hive數倉的開發經驗,掌握數據倉庫的經典建模方法,屬性數據倉庫各類建模理論;
5. 熟悉大數據存儲和計算引擎生態棧,熟悉Hadoop、Spark、阿里云DataWorks+MaxCompute等相關組件技術并有相關開發經驗;
6. 熟悉常用的關系型、非關系型數據庫,分布式存儲引擎,如Mysql、MongoDB、Doris等相關組件技術并有相關開發經驗;
7. 對數據同步工具如DataX、Sqoop等有一定的使用經驗;
8. 有半結構化及非結構化數據處理經驗。