職位描述
1.數(shù)據(jù)資產(chǎn)化頂層設(shè)計(jì)
構(gòu)建企業(yè)級語音數(shù)據(jù)資產(chǎn)化技術(shù)架構(gòu),設(shè)計(jì)可擴(kuò)展、高可用的數(shù)據(jù)存儲(chǔ)、處理及服務(wù)化體系
制定語音數(shù)據(jù)全生命周期管理規(guī)范,涵蓋采集、清洗、標(biāo)注、存儲(chǔ)、治理、應(yīng)用全鏈條
建立數(shù)據(jù)資產(chǎn)目錄與元數(shù)據(jù)管理體系,實(shí)現(xiàn)語音數(shù)據(jù)的標(biāo)準(zhǔn)化描述與價(jià)值量化評估
2.技術(shù)體系構(gòu)建
主導(dǎo)PB級語音數(shù)據(jù)分布式存儲(chǔ)架構(gòu)設(shè)計(jì),平衡冷熱數(shù)據(jù)分層存儲(chǔ)成本與訪問效率
搭建高性能語音數(shù)據(jù)處理流水線(特征提取/聲紋識(shí)別/語音轉(zhuǎn)寫等),優(yōu)化GPU資源利用率
構(gòu)建數(shù)據(jù)服務(wù)API平臺(tái),支持語音數(shù)據(jù)按需調(diào)用(如語料檢索、聲紋驗(yàn)證等場景)
3.數(shù)據(jù)治理與合規(guī)
建立數(shù)據(jù)安全防護(hù)體系,實(shí)現(xiàn)語音數(shù)據(jù)的脫敏處理、訪問權(quán)限控制及隱私合規(guī)審查
制定數(shù)據(jù)質(zhì)量評估標(biāo)準(zhǔn),建立自動(dòng)化異常檢測與修復(fù)機(jī)制
設(shè)計(jì)數(shù)據(jù)血緣追蹤系統(tǒng),滿足監(jiān)管審計(jì)要求
職位要求
1.硬性門檻
計(jì)算機(jī)相關(guān)碩士以上學(xué)歷,5年以上大數(shù)據(jù)架構(gòu)經(jīng)驗(yàn),主導(dǎo)過千萬小時(shí)級語音數(shù)據(jù)處理項(xiàng)目
精通Hadoop/Spark/Flink生態(tài)體系,具備Kubernetes云原生架構(gòu)設(shè)計(jì)經(jīng)驗(yàn)
深入理解語音數(shù)據(jù)處理技術(shù)棧(Kaldi/ESPnet等開源框架,聲學(xué)模型優(yōu)化經(jīng)驗(yàn))
持有CDMP/CISP數(shù)據(jù)治理認(rèn)證,熟悉GDPR/《數(shù)據(jù)安全法》等合規(guī)要求
2.差異化能力
具備語音數(shù)據(jù)特殊場景認(rèn)知:方言識(shí)別中的噪聲處理、多語種語料庫建設(shè)經(jīng)驗(yàn)
擁有數(shù)據(jù)資產(chǎn)商業(yè)化經(jīng)驗(yàn):主導(dǎo)過語音數(shù)據(jù)API服務(wù)變現(xiàn)或訓(xùn)練數(shù)據(jù)交易項(xiàng)目
技術(shù)前瞻性:熟悉聯(lián)邦學(xué)習(xí)在語音數(shù)據(jù)共享中的應(yīng)用,了解大模型時(shí)代的數(shù)據(jù)治理挑戰(zhàn)