具備AI訓(xùn)練集群、推理集群、AI存儲(chǔ)集群等核心AI基礎(chǔ)設(shè)施的高性能網(wǎng)絡(luò)通信架構(gòu)設(shè)計(jì)能力。
1、了解國內(nèi)外主流AI算力芯片性能、組網(wǎng)架構(gòu),了解國產(chǎn)化算力芯片與主流深度學(xué)習(xí)框架的適配性。能夠評(píng)估應(yīng)對(duì)不同業(yè)務(wù)的智算集群中,CPU、GPU、存儲(chǔ)、網(wǎng)絡(luò)帶寬等需求與配比,并進(jìn)行成本分析;
2、具有InfiniBand、RoCE(RDMA over Converged Ethernet)等高性能網(wǎng)絡(luò)設(shè)計(jì)經(jīng)驗(yàn)。
3、精通 TCP/IP、UDP等網(wǎng)絡(luò)協(xié)議,掌握主流智算/云計(jì)算集群架構(gòu)能力,最好有公有云或私有云大規(guī)模集群網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)經(jīng)驗(yàn),能夠?qū)W(wǎng)絡(luò)與通信優(yōu)化、能效與運(yùn)維成本、安全與合規(guī)性等方面給出解決方案。