崗位職責(zé):
1、負責(zé)AI訓(xùn)練數(shù)據(jù)的全流程管理:清洗、標(biāo)注、增強、版本控制及質(zhì)量評估;
2、負責(zé)多模態(tài)訓(xùn)練數(shù)據(jù)(文本、圖像、語音、視頻等)的采集、清洗與結(jié)構(gòu)化處理,制定數(shù)據(jù)質(zhì)量標(biāo)準,確保數(shù)據(jù)集的多樣性、代表性和合規(guī)性;
3、開發(fā)自動化工具或腳本(如Python/Pandas)處理大規(guī)模數(shù)據(jù),解決噪聲過濾、重復(fù)數(shù)據(jù)刪除、格式統(tǒng)一等問題;
4、設(shè)計數(shù)據(jù)標(biāo)注規(guī)則與流程,確保標(biāo)注結(jié)果的一致性與準確性(如實體識別、語義分割、意圖分類等任務(wù));
5、通過應(yīng)用數(shù)據(jù)增強技術(shù)(如文本擴寫、圖像變換、對抗生成)提升數(shù)據(jù)量級與多樣性,優(yōu)化模型泛化能力;
6、設(shè)計數(shù)據(jù)標(biāo)注規(guī)則與SOP,搭建自動化數(shù)據(jù)處理Pipeline;
7、開發(fā)數(shù)據(jù)合成工具(如基于Diffusion模型生成圖像數(shù)據(jù));
8、保障數(shù)據(jù)安全合規(guī),制定隱私脫敏與版權(quán)管理策略。
任職要求:
1、計算機/統(tǒng)計學(xué)相關(guān)專業(yè)本科以上學(xué)歷,2年以上數(shù)據(jù)工程經(jīng)驗;
2、精通Python/SQL,熟練使用數(shù)據(jù)處理庫(如Pandas、NumPy)及分布式計算工具(Spark、Dask)。
3、熟悉主流標(biāo)注工具(Label Studio/CVAT)及數(shù)據(jù)湖架構(gòu);
4、了解數(shù)據(jù)標(biāo)注行業(yè)生態(tài),熟悉GDPR/《個人信息保護法》等數(shù)據(jù)合規(guī)要求;
5、參與過大模型預(yù)訓(xùn)練數(shù)據(jù)建設(shè)(如RedPajama/The Pile);
6、熟悉房地產(chǎn)業(yè)務(wù)場景的數(shù)據(jù)特點與標(biāo)注規(guī)范者優(yōu)先。