崗位職責(zé):
1、模型架構(gòu)設(shè)計(jì)與搭建,針對(duì)大規(guī)模語(yǔ)言模型(LLM)項(xiàng)目,依據(jù)業(yè)務(wù)需求和技術(shù)發(fā)展趨勢(shì),主導(dǎo)設(shè)計(jì)高效且創(chuàng)新的模型架構(gòu)。結(jié)合 Transformer 等基礎(chǔ)架構(gòu),通過對(duì)網(wǎng)絡(luò)層數(shù)、神經(jīng)元數(shù)量、連接方式等關(guān)鍵要素的精心規(guī)劃,搭建初始模型框架,確保模型具備強(qiáng)大的表征學(xué)習(xí)能力,從架構(gòu)層面為模型性能奠定基礎(chǔ)。
2、預(yù)訓(xùn)練與微調(diào),負(fù)責(zé)組織和執(zhí)行大規(guī)模語(yǔ)言模型的預(yù)訓(xùn)練任務(wù),運(yùn)用海量文本數(shù)據(jù),在大規(guī)模分布式計(jì)算集群上開展訓(xùn)練工作。精細(xì)調(diào)整訓(xùn)練超參數(shù),如學(xué)習(xí)率、批量大小等,優(yōu)化訓(xùn)練流程,提升預(yù)訓(xùn)練效果。針對(duì)特定業(yè)務(wù)場(chǎng)景,開展模型微調(diào)工作,通過標(biāo)注數(shù)據(jù)和領(lǐng)域知識(shí),使模型能夠精準(zhǔn)適配實(shí)際應(yīng)用需求,有效提升模型在特定任務(wù)上的性能表現(xiàn)。
3、聚焦于模型性能優(yōu)化的核心工作,深入研究參數(shù)調(diào)優(yōu)策略,運(yùn)用智能優(yōu)化算法對(duì)模型參數(shù)進(jìn)行迭代優(yōu)化,以提高模型的準(zhǔn)確率和泛化能力。同時(shí),開展損失函數(shù)設(shè)計(jì)工作,結(jié)合模型任務(wù)特點(diǎn)和數(shù)據(jù)特性,構(gòu)建更具針對(duì)性的損失函數(shù),引導(dǎo)模型學(xué)習(xí)更有效的特征表示。積極探索注意力機(jī)制的改進(jìn)方法,通過優(yōu)化注意力計(jì)算方式和權(quán)重分配策略,提升模型對(duì)長(zhǎng)序列文本的處理能力,降低計(jì)算復(fù)雜度。
4、深入探索模型壓縮、量化、蒸餾等前沿技術(shù),致力于提升模型的推理效率及部署能力。通過模型壓縮技術(shù)減少模型參數(shù)量,在不顯著損失性能的前提下,降低模型存儲(chǔ)需求和計(jì)算成本。運(yùn)用量化技術(shù)將模型參數(shù)從高精度數(shù)據(jù)類型轉(zhuǎn)換為低精度,加速推理過程。開展模型蒸餾工作,將復(fù)雜大模型的知識(shí)遷移至輕量級(jí)小模型,實(shí)現(xiàn)模型在資源受限環(huán)境下的高效部署,如移動(dòng)端、邊緣設(shè)備等。
5、密切關(guān)注大規(guī)模語(yǔ)言模型領(lǐng)域的前沿研究動(dòng)態(tài)和技術(shù)發(fā)展趨勢(shì),積極探索新的模型架構(gòu)、訓(xùn)練算法和優(yōu)化技術(shù)在項(xiàng)目中的應(yīng)用可能性。與跨部門團(tuán)隊(duì)緊密協(xié)作,包括數(shù)據(jù)科學(xué)家、算法工程師、軟件工程師等,共同推動(dòng)模型從研發(fā)到上線的全生命周期管理,為業(yè)務(wù)發(fā)展提供強(qiáng)大的技術(shù)支持。
任職要求:
1、碩士及以上學(xué)歷,在計(jì)算機(jī)科學(xué)、人工智能、數(shù)學(xué)等相關(guān)領(lǐng)域接受過系統(tǒng)深入的教育,具備扎實(shí)的理論基礎(chǔ),能夠深入理解和研究復(fù)雜的大模型技術(shù)。
2、計(jì)算機(jī)科學(xué)、人工智能、數(shù)學(xué)、統(tǒng)計(jì)學(xué)等相關(guān)專業(yè)背景,擁有深厚的專業(yè)知識(shí)儲(chǔ)備,涵蓋算法設(shè)計(jì)、數(shù)據(jù)處理、數(shù)學(xué)建模等方面,為開展大模型研發(fā)工作提供有力支撐。
3、精通深度學(xué)習(xí)基本理論,對(duì)神經(jīng)網(wǎng)絡(luò)架構(gòu)、優(yōu)化算法、損失函數(shù)等有深入理解,能夠?qū)⒗碚撝R(shí)靈活應(yīng)用于大規(guī)模語(yǔ)言模型的研發(fā)實(shí)踐中。
4、熟練掌握 Python 編程語(yǔ)言,具備良好的編程習(xí)慣和代碼調(diào)試能力。精通至少一種主流深度學(xué)習(xí)框架,如 TensorFlow 或 PyTorch,能夠熟練運(yùn)用框架實(shí)現(xiàn)模型架構(gòu)設(shè)計(jì)、訓(xùn)練、優(yōu)化及部署等全流程操作。
5、深入理解大規(guī)模語(yǔ)言模型的架構(gòu)設(shè)計(jì)、預(yù)訓(xùn)練、微調(diào)等核心技術(shù),熟悉參數(shù)調(diào)優(yōu)、損失函數(shù)設(shè)計(jì)、注意力機(jī)制等關(guān)鍵環(huán)節(jié)的優(yōu)化方法。掌握模型壓縮、量化、蒸餾等技術(shù),能夠有效提升模型的推理效率和部署能力。
6、具備強(qiáng)大的數(shù)據(jù)處理能力,熟練掌握數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、數(shù)據(jù)增強(qiáng)等技術(shù),能夠處理大規(guī)模、高維度的文本數(shù)據(jù),為模型訓(xùn)練提供高質(zhì)量的數(shù)據(jù)支持。
擁有深厚的數(shù)學(xué)功底,精通線性代數(shù)、概率論、數(shù)理統(tǒng)計(jì)等數(shù)學(xué)知識(shí),能夠運(yùn)用數(shù)學(xué)方法解決模型訓(xùn)練和優(yōu)化過程中的復(fù)雜問題,如模型性能分析、參數(shù)估計(jì)等。
7、具有豐富的大規(guī)模語(yǔ)言模型研發(fā)項(xiàng)目經(jīng)驗(yàn),至少主導(dǎo)或參與過一個(gè)完整的大規(guī)模語(yǔ)言模型項(xiàng)目,在模型架構(gòu)設(shè)計(jì)、預(yù)訓(xùn)練、微調(diào)、性能優(yōu)化等方面取得過顯著成果。有成功應(yīng)用模型壓縮、量化、蒸餾等技術(shù)提升模型推理效率和部署能力的實(shí)踐經(jīng)驗(yàn),能夠?qū)⒛P陀行?yīng)用于實(shí)際業(yè)務(wù)場(chǎng)景,為企業(yè)創(chuàng)造價(jià)值。