我們正在尋找一位具備大模型基礎知識,并精通 C++ 和 Python 的工程師,負責大語言模型(LLM)的微調、優化及 RAG(Retrieval-Augmented Generation)增強。您將參與 LoRA、量化、推理加速等優化工作,并探索高效檢索增強生成(RAG)方案,提升模型在長文本理解和知識問答方面的能力。
崗位職責:
1、負責大語言模型(LLM)的微調(Fine-tuning),包括 LoRA、全參數微調等;
2、研究并優化 RAG(檢索增強生成)方案,提升模型的上下文理解能力;
3、優化模型推理性能,研究并實現量化技術(如 GPTQ、AWQ);
4、結合 C++ 和 Python 進行高效實現,優化訓練和推理流程;
5、參與向量檢索、知識庫構建及索引優化,如 FAISS、HNSW、Milvus 等;
6、研究并落地高效 RAG 方案,結合分塊策略、召回排序、知識蒸餾等提升效果;
7、結合業務需求,推進大模型在智能問答、搜索增強等應用落地。
任職要求:
1、熟悉大模型的基礎知識,如 Transformer、注意力機制、參數高效微調(PEFT)等;
2、熟練掌握 C++ 和 Python,有扎實的編程能力和性能優化經驗;
3、具備模型微調(Fine-tuning)經驗,熟悉 LoRA、Adapter、QLoRA 等技術
4、了解 RAG 相關技術,如向量數據庫、檢索策略、知識增強等;
5、熟悉 PyTorch 或 TensorFlow,并具備實際項目經驗;
6、有模型量化(如 GPTQ、AWQ)的實踐經驗優先;
7、了解 CUDA、TensorRT、ONNX、Triton 等推理加速工具優先;
8、具備良好的團隊合作和溝通能力,能夠獨立分析和解決問題。
加分項:
1、有開源項目貢獻或論文發表
2、熟悉 FlashAttention、Fused Kernel 優化等高效計算庫;
3、了解分布式訓練(DeepSpeed、FSDP、Megatron-LM);
4、具備檢索-生成融合優化(如 Hybrid Search、跨模態檢索)的經驗。