崗位職責:
1. 負責高性能集群的運行和日常維護、按時完成日常巡檢工作;
2. 負責高性能集群的用戶技術支持和集群系統管理軟件的維護;
3. 管理高性能集群的計算資源和用戶,部署管理策略,監控運營環境;
4. 帶領團隊進行故障排查和應急相應,特別是在GPU密集型應用和高性能計算場景下,確保系統快速恢復正常運行;
5. 對運維風險進行識別、評估和控制,特別關注GPU資源的穩定性和性能,確保公司信息安全和業務連續性;
6. 負責運維團隊的技術培訓和能力提升,培養具備云計算、GPU運維和高性能計算專業技能的運維工程師;
7. 參與公司重大項目的技術支持與決策,特別是在云計算和算力平臺相關的項目中,為業務發展提供技術保障。
任職要求:
1. 本科或本科以上學歷,計算機、電子信息、通信、物理等相關專業;
2. 具有1-3年相關工作經驗,有大型超算中心實際運維經驗者優先考慮;
3. 最好熟悉高性能計算集群中服務器、網絡、存儲實現原理;
4. 熟悉Ansible, Puppet, Kubernetes等基礎系統軟件;
5. 熟悉Linux操作系統;
6. 至少會一門語言;
7. 更夠獨立完成監控,報警等運維系統得搭建部署與設計;
8. 具備較強服務意識和良好的溝通能力,能夠承受一定工作壓力。