崗位職責:
1、需求分析與建模
深入理解業(yè)務場景(如AI訓練、大數(shù)據(jù)分析、實時渲染等),量化算力需求(計算量、存儲量、網(wǎng)絡(luò)帶寬、延遲要求等)。
建立算力需求模型,預測短期與長期的資源消耗趨勢(如峰值負載、擴展周期)。
2、算力架構(gòu)設(shè)計與規(guī)劃
設(shè)計算力資源分配方案,包括本地服務器集群、云計算資源(公有云/混合云)、邊緣節(jié)點等混合架構(gòu)。
優(yōu)化算力資源的調(diào)度策略(如動態(tài)擴縮容、負載均衡、容災備份),提升資源利用率。
針對特定場景(如大模型訓練)優(yōu)化硬件選型(CPU/GPU/NPU比例、存儲類型、網(wǎng)絡(luò)拓撲)。
3、成本與性能優(yōu)化
平衡算力性能與成本,制定資源采購、租賃或混合部署方案(如冷熱數(shù)據(jù)分層存儲、競價實例使用策略)。
監(jiān)控算力使用效率,提出優(yōu)化建議(如資源回收、算法加速、代碼調(diào)優(yōu))。
4、技術(shù)研究與落地
跟進算力技術(shù)趨勢(如量子計算、存算一體、分布式訓練框架),推動新技術(shù)在業(yè)務中的試點與應用。
5、輸出技術(shù)文檔(如算力需求白皮書、資源使用規(guī)范)。
崗位要求:
1、計算機科學、電子工程、數(shù)學、統(tǒng)計學等相關(guān)專業(yè)。三年以上工作經(jīng)驗
2、熟悉主流算力硬件(如NVIDIA GPU、TPU、FPGA)及架構(gòu)特性(CUDA、RDMA網(wǎng)絡(luò))。
3、精通云計算平臺(AWS/Azure/阿里云)的算力服務(如彈性計算、容器服務、Serverless)。
4、掌握分布式系統(tǒng)原理,熟悉調(diào)度框架(Kubernetes、Slurm、Spark)。
5、具備性能調(diào)優(yōu)經(jīng)驗(如并行計算優(yōu)化、內(nèi)存/帶寬瓶頸分析)。
分析能力
6、溝通能力好,能將技術(shù)方案轉(zhuǎn)化為業(yè)務部門可理解的語言,協(xié)調(diào)多方資源推進項目。
7、有大規(guī)模算力集群(如超算中心、AI訓練平臺)規(guī)劃經(jīng)驗;
8、熟悉綠色算力(如液冷技術(shù)、PUE優(yōu)化)或政策合規(guī)要求(如數(shù)據(jù)安全、能效標準)。