日日噜夜夜草|一级黄色录像高清版|调教白富美加勒比久久|亚洲欧洲精品婷婷|日韩综合无码色色|日韩精品一区妖精视频|亚洲无码中文字幕hd|99亚洲思思丝袜|手机看片国产精品大胆亚洲|成人无码视频一区二区在线播放

更新于 9月12日

推理加速高級算法工程師

1-2萬
  • 天津南開區(qū)
  • 10年以上
  • 本科
  • 全職
  • 招1人

職位描述

RustSYCLTensorFlowGPU利用率分析算子耗時可視化OpenCL大模型實戰(zhàn)經驗硬件適配經驗
職位描述:
1. 引領大模型推理性能優(yōu)化:負責全球領先的大規(guī)模語言模型(LLM)推理性能優(yōu)化,挑戰(zhàn)世界級技術難題,顯著降低推理時延,提升吞吐量,并大幅降低推理成本,推動AI技術的邊界。
2. 深度參與前沿技術研發(fā):探索并實現(xiàn)推理優(yōu)化技術,如FlashAttention、PageAttention、Continuous Batching、Speculative Decoding等,確保我們的推理引擎在全球范圍內保持技術領先地位。
3. 跨硬件平臺的極致優(yōu)化:針對不同硬件架構(如GPU、TPU等),設計并實現(xiàn)高效的推理加速方案,結合剪枝、量化、分布式推理等技術,最大化硬件利用率,提升系統(tǒng)整體性能。
4. 推動AI推理引擎的創(chuàng)新:深入理解并優(yōu)化主流推理引擎(如vLLM、sglang),結合CUDA/Cutlass等底層開發(fā)工具,打造高性能、低延遲的推理框架,為全球用戶提供極致的推理體驗。
職位要求:
1. 深厚的模型架構理解:熟悉Transformer、LLaMA、DeepSeek等主流大模型架構,能夠深入理解并優(yōu)化其推理過程。
2. 前沿推理技術掌握:精通LLM推理引擎(如vLLM、sglang),熟悉MLA、FlashAttention、PageAttention、Continuous Batching、Speculative Decoding等推理優(yōu)化技術,具備實際應用經驗。
3. 豐富的推理優(yōu)化經驗:具備AI模型推理優(yōu)化的實戰(zhàn)經驗,熟悉剪枝、量化、分布式推理等加速技術,能夠根據(jù)不同場景和硬件平臺進行針對性優(yōu)化。
4. 硬件與底層開發(fā)能力:熟悉GPU硬件架構,具備CUDA/Cutlass開發(fā)與優(yōu)化經驗,能夠深入底層進行性能調優(yōu)。
5. 全球視野與創(chuàng)新精神:具備強烈的技術好奇心與創(chuàng)新意識,愿意挑戰(zhàn)世界級難題,推動AI推理技術的全球突破。

工作地點

天津市南開區(qū)研究院集群產業(yè)園

職位發(fā)布者

王彬杰/人事經理

昨日活躍
立即溝通
公司Logo安徽提爾液冷科技有限公司
安徽提爾液冷科技有限公司成立于2024年1月,公司致力于為全球用戶提供先進、低碳、綠色數(shù)字基礎設施及智算力運營。公司主要業(yè)務為單相浸沒液冷數(shù)據(jù)中心設備銷售、數(shù)據(jù)中心建設與算力運營。公司擁有的浸沒液冷全棧一體化解決方案可以通過儲能方式讓智算集群消納綠電并低成本回收余熱,實現(xiàn)數(shù)據(jù)中心的負碳運行。
公司主頁