任職要求:
1、系統與網絡:熟悉Linux系統管理,深入理解TCP/IP等網絡協議,能熟練運用常見運維工具,如Shell/Python腳本、Ansible等。
2、 容器與云技術:熟悉容器化技術,如Docker、Kubernetes,了解云原生技術棧,有阿里云產品(如分布式消息隊列RocketMQ、分布式調度SchedulerX、全景業務監控Sunfire、全局事務服務GTS等)使用及優化經驗。
3、監控與日志:熟悉常用的開源監控/日志分析系統,如Prometheus、Zabbix、ELK。
4、數據庫與中間件:掌握主流數據庫(如MySQL)和中間件(如Nginx、Redis)的運維知識,熟悉其性能優化和故障排查。
工作經驗:
1、要求1 - 3年阿里云運維經驗,熟悉國網公司運維流程者優先。
問題處理與分析能力
2、具備較強的問題分析與解決能力,能獨立處理突發故障,迅速定位問題根源并提出解決方案。
崗位職責:
負責阿里組件分布式消息隊列RocketMQ、分布式調度SchedulerX、全景業務監控Sunfire、全局事務服務GTS的運維及運營工作,具體包含以下內容:
1、集群部署與管理
負責部署、擴容、縮容及升級工作,確保集群的高可用性和可擴展性。
監控集群狀態,包括Broker節點健康狀態、消息堆積情況、網絡延遲等,及時發現并處理潛在問題。
2、性能優化
根據業務需求調整配置參數,如消息存儲策略、刷盤機制、同步/異步發送等,以優化性能。
定期進行性能測試和調優,確保組件能夠滿足業務的高并發、低延遲需求。
3、故障處理
建立完善的故障應急響應機制,快速定位并解決運行中的故障,如宕機、節點失效等。
分析故障根因,制定預防措施,避免類似故障再次發生。
4、安全運維
負責組件的安全配置,如訪問控制、數據加密、審計日志等,確保消息傳輸和存儲的安全性。
定期進行安全漏洞掃描和修復,防范潛在的安全風險。并協助業務團隊開展檢修工作。