AI ToolChain 技术负责人/高级经理招聘

limingth 发表于 2025-05-07 17:26

Tags：AI ToolChain, vLLM, SGlang, CUDA, Triton, FlashAttention

Sunlune是3D计算芯片领域的全球领导者，其核心技术为基于逻辑-内存协同创新的晶圆对晶圆混合键合技术（realistic logic-to-memory wafer-on-wafer hybrid bonding）。

Sunlune自2019年起主导3D架构设计，并于2021年实现超10,000片3D晶圆的量产，当年总营收达1.7亿美元。通过3D设计，其芯片的片上共享内存带宽从2021年的1TB/s提升至2023年的12TB/s，并预计在2025年达到48TB/s。

2023年初，Sunlune意识到3D设计对大语言模型（LLM）计算至关重要，随即启动LLM专用芯片（ASIC）设计及极致架构优化。首款LLM推理芯片将于今年6月流片，采用台积电12nm工艺节点，在每百万token输出的能效和成本上，相较英伟达4nm工艺的H200 GPU实现3倍能效提升和3倍成本下降。围绕3D计算芯片，尤其是内存与逻辑的协同创新，Sunlune已开展大量研究，并坚信3D ASIC计算芯片将成为大语言模型AI时代真正的未来。

公司已做好充分准备，在这一新计算时代持续引领技术前沿，现需要招聘一名全职 TechLead/Manager-AIToolchain，工作地点在北京，新加坡，美国（可选）。

有意投简历的学员，可以在此申请 https://opencamp.cn/InfiniTensor/job/36

职责

• 负责开发AIToolchain,实现模型推理优化及与vLLM、SGlang等集成；
• 主导算子级别的性能优化，最大化硬件资源利用率；
• 设计和实施分布式推理系统方案（如多机多卡、流水线并行），优化资源调度策略，突破I/O瓶颈；
• 跟踪并落地最新的大模型推理优化技术，持续提升系统的技术领先性。

资格要求

• 人工智能或相关领域硕士/博士学历，或5年以上高并发系统架构与开发经验，或2年以上大模型推理优化经验；
• 精通C++与Python编程，熟练使用CUDA、Triton进行高性能算子开发和优化；
• 深入理解分布式系统架构，具备大规模GPU集群系统调优经验，熟悉NCCL、RDMA等通信优化技术；
• 精通大模型推理的核心优化方法，包括但不限于KVCache管理、显存优化、量化(INT8/FP8)、FlashAttention等技术

软性素质：

• 拥有强烈的技术热情与自驱力，善于独立解决复杂系统问题；
• 具备卓越的技术领导力，善于跨团队协作与沟通，能有效推动技术创新和落地实施；
• 拥有良好的团队管理能力和行业影响力，能激励并吸引优秀人才加入团队。

年薪： ¥300K-1.2M/year

（ depending on the experience and skill level，also have the chance granted stock options ）

Ext Link: https://opencamp.cn/InfiniTensor/job/36

评论区

写评论

还没有评论

1 共 0 条评论, 1 页