< 返回版块

Mike Tang 发表于 2026-05-08 09:09

Burn 0.21.0 发布:框架开销降低最高达8倍

Burn 0.21.0 带来了一轮比较扎实的性能与可靠性更新,覆盖分布式训练、后端调度、CPU 后端和内核调优等多个方向。对关注 Rust AI / ML 框架的人来说,这次更新信息量不小。

  • 分布式训练提速明显:基于可微分集合操作重做分布式计算架构,在 4 张 CUDA GPU 上,设备传输速度提升 16-21 倍,all_reduce 速度提升约 6 倍
  • 框架开销继续下压:重构设备句柄,官方给出的结论是部分场景下框架开销最高可下降 8 倍
  • 内核可靠性增强:改进自动调优和微基准测试策略,并加入 CubeCL 内核验证层,用于识别越界内存访问等问题
  • 工程化能力更完整:新增 burn.toml 项目级配置文件,引入 burn-dispatch crate,同时推出面向 WebAssembly / 嵌入式目标的轻量 CPU 后端 Burn Flex

原文链接:https://burn.dev/blog/release-0.21.0/

CUDA-Oxide:用纯 Rust 编写 GPU 内核的编译器后端

CUDA-Oxide 是 NVlabs 放出的实验性项目,目标是把“用纯 Rust 写 CUDA 内核”这件事做成一条完整编译链,而不是再包一层 DSL 或外部语言绑定。

  • 单源代码工作流:主机端与设备端代码可以放在同一份 Rust 源文件里,通过 cargo oxide build 一次构建
  • 直接走 Rust 编译后端路线:把带 #[kernel] 标注的函数编译为 PTX,编译流程为 Rust → MIR → Pliron IR → LLVM IR → PTX
  • 设备端抽象比较完整:覆盖共享内存、原子操作、屏障、warp / cluster 等 CUDA 常见能力
  • 异步模型也在考虑范围内:支持返回惰性 DeviceOperation,既能 .sync() 也能 .await

虽然项目目前还是 Alpha 阶段,但如果你关心 Rust 在 GPU 编程上的边界,这个方向很值得继续盯。

原文链接:https://github.com/NVlabs/cuda-oxide

servo-fetch:将 Servo 浏览器引擎嵌入为库

servo-fetch 想解决的是另一类很现实的问题:很多抓取、提取和网页理解任务,其实并不想背着一整个 Chrome 进程跑。这个项目把 Servo 浏览器引擎直接嵌进 Rust 库和 CLI 里,走的是更轻、更原生的路线。

  • 进程内完成抓取与渲染:支持抓 URL、执行 JavaScript、计算 CSS 布局,并提取干净的 Markdown 内容
  • 资源占用更克制:相较常见的无头 Chrome / Playwright 方案,项目重点强调更低的运行时开销和更简单的部署结构
  • 适合代理和自动化场景:对 AI 代理、网页采集、内容提取工具链都很友好
  • 项目仍处早期:当前版本为 v0.8.1,1.0 之前 API 仍可能继续调整

如果 Servo 生态后面能把这条链路继续磨顺,Rust 原生网页抓取这块会更有意思。

原文链接:https://github.com/konippi/servo-fetch

Rust 最快的哈希表?ProbeMap

ProbeMap 是一个基于 SwissTable 思路实现的哈希表项目,主打“稳定版 Rust + 直接 SIMD 指令 + 更激进的性能表现”。

  • 直接使用 SSE2 SIMD 指令:在 x86_64 上走直接 intrinsics,其他架构则回退到标量实现
  • 针对查找与插删场景优化明显:项目给出的基准里,随机查找提升约 31%,顺序查找提升约 34%,插入删除提升约 35%
  • 接口设计也考虑工程实用性:支持自定义分配器、可插拔哈希器,以及“键嵌在值里”的 KeyExtract 模式
  • 目标不是花哨,而是更扁平的数据路径:作者把性能优势主要归因于单态化比较、更前向的槽位布局和更轻的结构抽象

它现在还很新,但如果后续 benchmark 和真实 workload 都能站住脚,值得继续观察。

原文链接:https://github.com/NikoMalik/probemap

评论区

写评论

还没有评论

1 共 0 条评论, 1 页