< 返回版块

limingth 发表于 2025-05-07 17:26

Tags:AI ToolChain, vLLM, SGlang, CUDA, Triton, FlashAttention

Sunlune是3D计算芯片领域的全球领导者,其核心技术为基于逻辑-内存协同创新的晶圆对晶圆混合键合技术(realistic logic-to-memory wafer-on-wafer hybrid bonding)。

Sunlune自2019年起主导3D架构设计,并于2021年实现超10,000片3D晶圆的量产,当年总营收达1.7亿美元。通过3D设计,其芯片的片上共享内存带宽从2021年的1TB/s提升至2023年的12TB/s,并预计在2025年达到48TB/s。

2023年初,Sunlune意识到3D设计对大语言模型(LLM)计算至关重要,随即启动LLM专用芯片(ASIC)设计及极致架构优化。首款LLM推理芯片将于今年6月流片,采用台积电12nm工艺节点,在每百万token输出的能效和成本上,相较英伟达4nm工艺的H200 GPU实现3倍能效提升和3倍成本下降。围绕3D计算芯片,尤其是内存与逻辑的协同创新,Sunlune已开展大量研究,并坚信3D ASIC计算芯片将成为大语言模型AI时代真正的未来。

公司已做好充分准备,在这一新计算时代持续引领技术前沿,现需要招聘一名全职 TechLead/Manager-AIToolchain,工作地点在北京,新加坡,美国(可选)。

有意投简历的学员,可以在此申请 https://opencamp.cn/InfiniTensor/job/36

职责

• 负责开发AIToolchain,实现模型推理优化及与vLLM、SGlang等集成;
• 主导算子级别的性能优化,最大化硬件资源利用率;
• 设计和实施分布式推理系统方案(如多机多卡、流水线并行),优化资源调度策略,突破I/O瓶颈;
• 跟踪并落地最新的大模型推理优化技术,持续提升系统的技术领先性。

资格要求

• 人工智能或相关领域硕士/博士学历,或5年以上高并发系统架构与开发经验,或2年以上大模型推理优化经验;
• 精通C++与Python编程,熟练使用CUDA、Triton进行高性能算子开发和优化;
• 深入理解分布式系统架构,具备大规模GPU集群系统调优经验,熟悉NCCL、RDMA等通信优化技术;
• 精通大模型推理的核心优化方法,包括但不限于KVCache管理、显存优化、量化(INT8/FP8)、FlashAttention等技术

软性素质:

• 拥有强烈的技术热情与自驱力,善于独立解决复杂系统问题;
• 具备卓越的技术领导力,善于跨团队协作与沟通,能有效推动技术创新和落地实施;
• 拥有良好的团队管理能力和行业影响力,能激励并吸引优秀人才加入团队。

年薪: ¥300K-1.2M/year

( depending on the experience and skill level,also have the chance granted stock options )


Ext Link: https://opencamp.cn/InfiniTensor/job/36

评论区

写评论

还没有评论

1 共 0 条评论, 1 页