崗位要求:
1、扎實的編程基礎:熟練掌握 Java 或 Scala 語言(至少精通一門),并能運用它們進行大規模數據處理開發(特別是 Spark 生態開發)。
2、大數據技術棧精通:深入理解 Hadoop 生態系統及其核心組件(HDFS, YARN, MapReduce, Hive, Spark, Flink, Kafka 等),并具備在實際項目中應用的經驗。
3、SQL專家:精通SQL,能夠編寫復雜高效的查詢,并深刻理解其執行計劃和性能優化。
4、MPP數據庫經驗:至少熟悉并實際使用過一種主流的 MPP 架構數據庫(如 Greenplum, Amazon Redshift, Doris, TiDB, ClickHouse 等),了解其架構特點、優化技巧和管理運維要點。
5、腳本語言能力:熟練掌握 Python,能夠使用 Python 進行數據處理、腳本編寫及自動化任務。
6、數據調優能力:具有數據調優的實戰經驗,能夠分析和優化 Spark/Hive 作業性能(資源分配、數據傾斜、代碼邏輯等);分析和優化 MPP 數據庫中的復雜 SQL 查詢性能(索引、統計信息、分區、SQL 改寫等);分析和優化 ETL 流程的吞吐量和時效性。
7、數據處理經驗:熟悉大規模數據處理的常見模式、挑戰和最佳實踐。
8、計算機基礎:良好的計算機科學基礎,理解數據結構、算法、操作系統、網絡等知識。
9、解決問題能力:具備優秀的邏輯思維能力、分析能力和解決問題的能力,能獨立承擔技術挑戰。
10、溝通協作:良好的溝通表達能力和團隊協作精神。