崗位職責:
1.AI平臺架構設計
a.主導企業(yè)級AI訓練/推理軟件平臺的全棧架構設計,支持多模態(tài)大模型的云邊端高效部署
b.開發(fā)分布式訓練框架與推理服務中間件,實現(xiàn)計算資源動態(tài)調度與性能瓶頸突破
c.構建從數(shù)據(jù)預處理到模型服務的端到端自動化流水線
2.加速器深度優(yōu)化
a.針對GPU/NPU/ASIC等異構計算設備,設計算子級優(yōu)化方案(如Tensor Core適配、內存訪問優(yōu)化)
b.實現(xiàn)編譯時優(yōu)化與運行時優(yōu)化的協(xié)同加速
c.開發(fā)硬件感知的混合精度訓練策略,平衡計算效率與模型精度
3.系統(tǒng)性能工程
a.建立多維度性能評估體系(吞吐量、延遲、能耗比),主導Profiling驅動的持續(xù)優(yōu)化
b.解決跨節(jié)點通信瓶頸、內存碎片化等分布式系統(tǒng)級挑戰(zhàn)
c.設計容錯機制與彈性訓練方案保障系統(tǒng)穩(wěn)定性
d.對模型量化過程中出現(xiàn)的量化損失掉點過大問題,進行問題定位排查。
任職要求:
1. 5年以上AI系統(tǒng)開發(fā)經驗,主導過至少1個大規(guī)模AI平臺項目
2.熟悉ARM SVE,RVV,CUDA,ROCm,OpenCL等,有編譯器優(yōu)化或芯片級調優(yōu)經驗者優(yōu)先
3.發(fā)表過第一作者CCF-A類或中科院SCI 1區(qū)論文
4.具備技術路線規(guī)劃能力,能平衡短期落地與長期技術演進。
5.跨團隊協(xié)作經驗(算法/嵌入式/運維團隊)
6.熟悉常見模型量化方法,熟練使用模型量化工具。
7.對AI芯片架構演進有敏銳洞察力。
8.熟悉RISC-V等開源指令集擴展。
9.有AI編譯器(如XLA、TorchDynamo)開發(fā)經驗