崗位職責:
1、負責英偉達服務(wù)器(H100/H200)故障排查與維修。?
2、對返修設(shè)備的故障進行總結(jié)分析,形成規(guī)范的故障報告。?
3、制定標準化運維流程(SOP),明確設(shè)備維護、故障處理等作業(yè)標準。?
4、搭建維修團隊,負責維修團隊 KPI 擬定與考評。?
5、建立備件管理制度,優(yōu)化備件供應(yīng)鏈體系,確保關(guān)鍵部件能夠快速替換。?
6、負責維修團隊的日常運營管理,組織專業(yè)技術(shù)培訓,不斷提升團隊技能水平。?
7、編制維修預(yù)算并進行管控,積極實施成本優(yōu)化措施。
8、擁有NVIDIA、Supermicro、ASUS、Gigabyte等行業(yè)資源,能夠與廠家對接解決問題。
任職要求:
1、計算機科學、電子工程、自動化等相關(guān)專業(yè)本科及以上學歷。?
2、擁有 5 年以上服務(wù)器 / GPU 運維經(jīng)驗,其中至少 2 年團隊管理經(jīng)驗。?
3、持有 NVIDIA/Tesla 認證工程師、Red Hat/Linux 認證等資質(zhì)者優(yōu)先考慮。?
4、精通NVIDIA H100/H200服務(wù)器及 GPU/TPU 硬件架構(gòu),具備復(fù)雜故障診斷與修復(fù)能力。
5、熟練使用nvidia-smi,IPMI,DCGM、Reafish等工具進行診斷;?
6、熟悉NVIDIAGPU架構(gòu)、NVLink/NVSwitch\PCle Gen4/Gen5等技術(shù)。?
7、具備優(yōu)秀的團隊領(lǐng)導(dǎo)與組織協(xié)調(diào)能力。能承擔高壓工作環(huán)境,具備快速響應(yīng)和應(yīng)急處理能力。
加入我們,盡享超值福利!
1、雙休:每周雙休,暢享愜意周末;
2、五險一金:入職即繳,給你全方位的社會保障;
3、年終獎:努力一整年,豐厚年終獎等您拿;
4、定期體檢:每年安排,為你的健康保駕護航;
5、帶薪假期:年假、病假等帶薪假期一應(yīng)俱全,安心休假無壓力;
6、發(fā)薪日:每月10日前發(fā)薪,告別薪資焦慮,安心規(guī)劃生活開銷;
7、關(guān)懷加倍:生日驚喜、節(jié)日福利從不缺席,讓你在特別的日子收獲滿滿溫暖。