2年以上工作經驗;
本科及以上學歷,計算機相關專業
工作內容:
1. 負責公司智能代碼助手(大模型產品)的部署、實施和環境配置,保障系統穩定持續運行;
2. 搭建和維護基于 Kubernetes(K8s)和 Docker 的容器化部署環境,實現應用與模型服務的自動化部署和管理;
3. 參與部署流水線的設計與優化,提升產品交付效率和部署質量;
4. 負責應用服務器、數據庫、中間件及大模型相關服務(如推理服務、API服務等)的安裝、配置、升級與維護;
5. 協助開發、算法團隊定位和解決在部署、運行中出現的環境、網絡及模型服務相關問題;
6. 編寫和維護部署、運維相關的文檔及自動化腳本,持續改進運維流程,提升系統可維護性和自動化水平;
7. 負責系統安全、數據備份、服務監控等的配置與優化,確保大模型服務的高可用與安全合規;
8. 定期對系統進行巡檢,保障系統安全、穩定、高效運行。
崗位要求:
1. 本科及以上學歷,計算機相關專業優先,2年以上軟件部署實施或運維相關經驗;
2. 熟練掌握 Linux 操作系統,能夠獨立完成系統環境搭建及故障排查;
3. 精通 Docker、Kubernetes 等容器化技術,有實際生產環境部署及維護經驗;
4. 具備良好的網絡基礎知識,能夠排查和解決常見網絡故障,理解 TCP/IP、HTTP、DNS 等協議原理;
5. 熟練掌握 Shell 腳本,能用 Python 或 Java 編寫自動化腳本或工具者優先;
6. 熟悉常用中間件(如 Nginx、Redis、Kafka、MySQL 等)的安裝、配置和優化;
7. 具備良好的溝通能力、團隊協作意識和較強的責任心,能積極推動項目落地;
8. 具備較強的問題分析與解決能力,能承擔一定的工作壓力。
經驗要求:
1. 有大模型產品(如AIGC、智能代碼助手、LLM等)部署和運維經驗優先;
2. 有 GPU/AI 算力資源管理經驗,熟悉 CUDA、NVIDIA 驅動及 K8s 下 GPU 資源編排的優先;
3. 熟悉模型監控及日志收集方案(如 Prometheus、ELK 等)優先;
4. 有與 AI 算法、模型開發團隊協作的經驗,能理解產品迭代和上線流程;
5. 有 Helm等 K8s 生態工具使用經驗;