一. 崗位職責
1. 大模型開發與優化:
- 設計、訓練和調優大規模語言模型(如LLaMA、GPT、PaLM等)或視覺多模態模型。
- 探索模型壓縮、分布式訓練、推理加速等技術(如LoRA、量化、模型并行)。
2. 算法研究與落地:
- 針對業務場景(如對話系統、內容生成、搜索推薦)優化模型效果。
- 解決長尾問題(如幻覺控制、多輪交互、低資源場景適配)。
3. 工程化支持:
- 與工程團隊協作部署模型,優化計算資源利用率(GPU/TPU集群)。
- 開發高效的數據處理流水線,提升訓練效率。
二. 核心能力要求**
1. 技術硬技能:
- 算法基礎:精通深度學習、Transformer架構、自監督學習、強化學習(RLHF)。
- 框架經驗:熟悉PyTorch、DeepSpeed、Megatron-LM、Hugging Face生態。
- 分布式訓練:掌握多機多卡訓練、混合精度訓練、顯存優化技術。
- 領域知識:了解大模型前沿技術(如MoE、Retrieval-Augmented Generation)。
2. 工程能力:
- 熟悉CUDA編程、模型量化(如AWQ、GPTQ)、推理框架(vLLM、TensorRT)。
- 具備高性能計算(HPC)或大規模數據處理經驗(TB級數據集)。
3. 軟技能:
- 能快速定位模型訓練中的問題(如梯度爆炸、收斂異常)。
- 具備跨團隊協作能力,能將學術成果轉化為工業級解決方案。
候選人背景
- 學歷:計算機科學、數學、統計學碩士/博士(頂尖候選人可能放寬至本科+突出項目經驗)。
- 經驗:
- 3年以上NLP/CV算法經驗,至少1年大模型相關項目經歷。
- 有論文發表(NeurIPS/ICML/ACL等)或開源項目貢獻(如參與Alpaca、Vicuna等社區項目)優先。
- 加分項:
- 熟悉模型合規性(如數據隱私、內容安全)。
- 有端到端產品落地經驗(如從0到1搭建大模型服務)