任職要求:
①專業(yè)知識與技能
- 系統(tǒng)與網(wǎng)絡(luò):熟悉Linux系統(tǒng)管理,深入理解TCP/IP等網(wǎng)絡(luò)協(xié)議,能熟練運用常見運維工具,如Shell/Python腳本、Ansible等。
- 容器與云技術(shù):熟悉容器化技術(shù),如Docker、Kubernetes,了解云原生技術(shù)棧,有阿里云產(chǎn)品(如分布式消息隊列RocketMQ、分布式調(diào)度SchedulerX、全景業(yè)務(wù)監(jiān)控Sunfire、全局事務(wù)服務(wù)GTS等)使用及優(yōu)化經(jīng)驗。
- 監(jiān)控與日志:熟悉常用的開源監(jiān)控/日志分析系統(tǒng),如Prometheus、Zabbix、ELK。
- 數(shù)據(jù)庫與中間件:掌握主流數(shù)據(jù)庫(如MySQL)和中間件(如Nginx、Redis)的運維知識,熟悉其性能優(yōu)化和故障排查。
②要求:
- 1-3年阿里云運維經(jīng)驗,熟悉國網(wǎng)公司運維流程者優(yōu)先。
- 具備較強的問題分析與解決能力,能獨立處理突發(fā)故障,迅速定位問題根源并提出解決方案。
- 責(zé)任心強,工作細致,具備良好的溝通能力和團隊協(xié)作意識,能夠與不同部門的人員有效合作。
- 本科及以上,計算機相關(guān)專業(yè)。擁有阿里云相關(guān)認證(如ACP/ACE)、網(wǎng)絡(luò)相關(guān)認證(如CCIE、HCIE)者優(yōu)先。
崗位職責(zé):
負責(zé)阿里組件分布式消息隊列RocketMQ、分布式調(diào)度SchedulerX、全景業(yè)務(wù)監(jiān)控Sunfire、全局事務(wù)服務(wù)GTS的運維及運營工作,具體包含以下內(nèi)容:
1、集群部署與管理
負責(zé)部署、擴容、縮容及升級工作,確保集群的高可用性和可擴展性。
監(jiān)控集群狀態(tài),包括Broker節(jié)點健康狀態(tài)、消息堆積情況、網(wǎng)絡(luò)延遲等,及時發(fā)現(xiàn)并處理潛在問題。
2、性能優(yōu)化
根據(jù)業(yè)務(wù)需求調(diào)整配置參數(shù),如消息存儲策略、刷盤機制、同步/異步發(fā)送等,以優(yōu)化性能。
定期進行性能測試和調(diào)優(yōu),確保組件能夠滿足業(yè)務(wù)的高并發(fā)、低延遲需求。
3、故障處理
建立完善的故障應(yīng)急響應(yīng)機制,快速定位并解決運行中的故障,如宕機、節(jié)點失效等。
分析故障根因,制定預(yù)防措施,避免類似故障再次發(fā)生。
4、安全運維
負責(zé)組件的安全配置,如訪問控制、數(shù)據(jù)加密、審計日志等,確保消息傳輸和存儲的安全性。
定期進行安全漏洞掃描和修復(fù),防范潛在的安全風(fēng)險。并協(xié)助業(yè)務(wù)團隊開展檢修工作。