干翻CUDA！Rust实现“代码统一”，NVIDIA的开发者要“叛逃”了？

386次阅读

共计 2505 个字符，预计需要花费 7 分钟才能阅读完成。

https://mp.weixin.qq.com/

2025-08-11 16:16

干翻 CUDA！Rust 实现“代码统一”，NVIDIA 的开发者要“叛逃”了？

想象一下，用同一种语言编写的代码，既能在 NVIDIA 的 CUDA 上飞驰，也能在 AMD、Intel 的 Vulkan 上运行，还能无缝部署到苹果的 Metal、Windows 的 DirectX 乃至 Web 浏览器。这听起来像遥不可及的梦想，但 Rust 社区正将它变为现实。最近的一项技术演示，成功实现了单一 Rust 代码库驱动所有主流 GPU 平台，这不仅是 Rust 生态的里程碑，更是对当前碎片化、厂商锁定的 GPU 编程现状的一次有力挑战。本文将深入剖析这一突破背后的技术原理、Rust 语言的独特优势，以及它将如何重塑我们对高性能计算的认知，尽管前路依然充满挑战。

在高性能计算领域，GPU 编程长期以来是一个被碎片化和厂商锁定所困扰的“巴别塔”。开发者们不得不在 CUDA、WGSL、Metal、HLSL 等多种专用语言之间切换，为主流硬件平台（NVIDIA、AMD、Apple 等）维护不同的代码分支，这不仅增加了开发复杂性，也阻碍了技术的自由流通。然而，Rust 社区最近取得的一项惊人突破，正预示着这场“分裂”的终结——一个单一、共享的 Rust 代码库，现已能够驱动所有主流 GPU 平台。

这项由 Rust 社区多位贡献者共同努力完成的演示项目^[1]，成功实现了在 CUDA、Vulkan（覆盖 AMD、Intel、NVIDIA）、Metal、DirectX 12、WebGPU 乃至 CPU 回退方案上的统一计算。这不仅是 Rust 生态的一个光辉里程碑，更是对未来计算范式的一次大胆探索。

长久以来，想让程序充分利用 GPU 的强大算力，开发者就必须投身于一个由硬件厂商主导的、语言各异的生态系统中。为 NVIDIA 写 CUDA，为 Vulkan 生态写 GLSL/SPIR-V，为苹果写 MSL，为 Windows 写 HLSL。这导致了逻辑在 CPU 和 GPU 代码间的重复，以及跨平台部署时巨大的维护成本。

正如一位 Hacker News 用户所言，这种对底层 API 的过度抽象常常引发不信任，因为“每个目标的差异都是有意义的”，忽视这些细节可能导致“错误和性能损失”。而厂商们各自为政，NVIDIA 凭借 CUDA 建立起了难以逾越的“护城河”，让真正的开放标准迟迟无法落地。开发者们就像身处巴别塔下，语言不通，协作困难。

这次的突破性演示，巧妙地整合了 Rust 社区已有的三大支柱项目：

‍

Rust GPU (rustc_codegen_spirv)

: 将标准 Rust 代码编译为 SPIR-V，这是 Vulkan、WebGPU 等现代图形 API 通用的二进制格式。

‍

Rust CUDA (rustc_codegen_nvvm)

: 将 Rust 代码编译成 NVVM IR，使其能在 NVIDIA GPU 上通过 CUDA 运行时执行。

3.Naga: 一个由 wgpu 团队开发的 GPU 语言翻译层，它能在 SPIR-V、MSL、HLSL 等多种着色器语言之间进行转换，是实现跨平台兼容性的关键桥梁。

通过 Cargo 的特性标志（feature flags）和条件编译，开发者可以轻松选择目标后端。例如，cargo run --features wgpu会利用 Naga 将编译好的 SPIR- V 在运行时翻译成目标平台所需的语言（如在 macOS 上转为 Metal 的 MSL），而 cargo run --features cuda 则会直接调用 CUDA 后端。整个过程被巧妙地封装在 build.rs 构建脚本中，对开发者而言，体验几乎与普通 Rust 项目无异。

为什么 Rust 能担此重任？答案在于其语言设计的核心哲学——零成本抽象，以及一系列为系统级编程量身定制的强大特性。

•

no_std与生态系统

：GPU 上没有操作系统，这正是 Rust no_std环境大展拳脚的地方。开发者可以利用海量的、无需标准库支持的第三方 crate，实现代码在 CPU 和 GPU 上的复用。

•强大的元编程与类型系统 ：通过 Newtype 模式、带#[repr(C)] 的枚举和结构体，Rust 能在编译期就消除大量潜在的逻辑错误和内存布局问题，这在调试困难的 GPU 环境中尤为宝贵。

•Traits 与泛型 ：允许开发者编写通用的、可跨数据类型复用的高性能算法。代码在编译时会被“单态化”（Monomorphization），生成为特定类型高度优化的机器码，性能与手写版本无异。• 统一的现代化工具链 ：从rustfmt 格式化、clippy代码检查到 cargo test 单元测试，所有在 CPU 开发中熟悉的工具都能无缝应用于 GPU 内核代码。尤其革命性的一点是，GPU 内核的逻辑可以在 CPU 上进行单元测试和调试，这极大地简化了开发流程，告别了过去“编译、上传、运行、崩溃、猜测”的痛苦循环。

尽管前景光明，但这条统一之路并非坦途。项目维护者坦言，目前仍存在许多“粗糙的边缘”。编译器后端尚未正式集成进rustc，需要依赖特定版本的 nightly toolchain。对 NVIDIA 工具链的依赖也带来了部署上的不便。此外，不同后端 API 的不一致性、困难的编译过程调试，都是亟待解决的问题。

更深层次的挑战来自行业本身。正如 Hacker News 上的讨论指出的，要实现真正的性能最大化，开发者最终可能还是需要编写部分厂商特定的代码。而让 NVIDIA 这样依靠 CUDA 生态获利的巨头完全开放底层，更是“等到地狱结冰”般的奢望。

尽管如此，这次的演示已经点燃了希望的火种。它证明了，一个由社区驱动、以先进语言为核心的生态，有能力打破看似坚不可摧的壁垒。Rust 的目标，正如项目维护者所说，就是“颠覆现状”，为 GPU 编程带来比肩 CPU 的、现代化的开发体验。

[1]

演示项目: https://rust-gpu.github.io/blog/2025/07/25/rust-on-every-gpu/

正文完

发表至：程式軟體@ 算法計算機科學與技術

2025-08-11

0