職位描述:
1.研發分布式訓練加速方案,優化并行策略方案例如:DP/TP/PP/MP/CP,提升千億參數模型訓練吞吐量;
2.設計混合精度訓練與顯存優化方案,開發自適應梯度壓縮、通信優化模塊,實現單卡訓練模型規模提升和降低分布式訓練通信開銷;
3.開發量化壓縮工具鏈(支持GPTQ/AWQ等算法),實現模型8/4-bit無損量化部署;
4.設計多GPU推理調度策略,優化顯存碎片管理與計算資源利用率;
5.跟進vLLM/TensorRT-LLM/SGLang等前沿框架,探索MoE架構/稀疏化訓練等新型范式,將最新學術成果快速落地到工程實踐。
職位要求:
1.計算機相關專業碩士及以上學歷,3+年LLM系統優化經驗;
2.精通PyTorch/TensorFlow框架底層機制,具備CUDA/C++內核開發能力;
3.掌握Megatron-LM/DeepSpeed/HuggingFace生態核心原理;
4.有千億參數模型訓練優化或百萬QPS推理服務落地經驗者優先;
5.熟悉NVIDIA GPU架構與性能分析工具;
6.熟悉大模型推理服務架構設計與微服務化部署。