崗位要求:
1、扎實的編程基礎(chǔ):熟練掌握 Java 或 Scala 語言(至少精通一門),并能運用它們進行大規(guī)模數(shù)據(jù)處理開發(fā)(特別是 Spark 生態(tài)開發(fā))。
2、大數(shù)據(jù)技術(shù)棧精通:深入理解 Hadoop 生態(tài)系統(tǒng)及其核心組件(HDFS, YARN, MapReduce, Hive, Spark, Flink, Kafka 等),并具備在實際項目中應(yīng)用的經(jīng)驗。
3、SQL專家:精通SQL,能夠編寫復(fù)雜高效的查詢,并深刻理解其執(zhí)行計劃和性能優(yōu)化。
4、MPP數(shù)據(jù)庫經(jīng)驗:至少熟悉并實際使用過一種主流的 MPP 架構(gòu)數(shù)據(jù)庫(如 Greenplum, Amazon Redshift, Doris, TiDB, ClickHouse 等),了解其架構(gòu)特點、優(yōu)化技巧和管理運維要點。
5、腳本語言能力:熟練掌握 Python,能夠使用 Python 進行數(shù)據(jù)處理、腳本編寫及自動化任務(wù)。
6、數(shù)據(jù)調(diào)優(yōu)能力:具有數(shù)據(jù)調(diào)優(yōu)的實戰(zhàn)經(jīng)驗,能夠分析和優(yōu)化 Spark/Hive 作業(yè)性能(資源分配、數(shù)據(jù)傾斜、代碼邏輯等);分析和優(yōu)化 MPP 數(shù)據(jù)庫中的復(fù)雜 SQL 查詢性能(索引、統(tǒng)計信息、分區(qū)、SQL 改寫等);分析和優(yōu)化 ETL 流程的吞吐量和時效性。
7、數(shù)據(jù)處理經(jīng)驗:熟悉大規(guī)模數(shù)據(jù)處理的常見模式、挑戰(zhàn)和最佳實踐。
8、計算機基礎(chǔ):良好的計算機科學(xué)基礎(chǔ),理解數(shù)據(jù)結(jié)構(gòu)、算法、操作系統(tǒng)、網(wǎng)絡(luò)等知識。
9、解決問題能力:具備優(yōu)秀的邏輯思維能力、分析能力和解決問題的能力,能獨立承擔(dān)技術(shù)挑戰(zhàn)。
10、溝通協(xié)作:良好的溝通表達能力和團隊協(xié)作精神。