- 一篇分析指出,英伟达(NVIDIA)最大的竞争优势不在于GPU硬件,而在于CUDA——一个为AI优化并行处理的软件平台。
- CUDA全称为“统一计算设备架构”(Compute Unified Device Architecture),它允许GPU同时处理海量计算,这是训练大规模AI模型的关键因素。
- 文章举例说明,GPU可以将一个9×9的乘法表分配给多个处理核心同时计算,而不是按顺序计算,从而使速度提升数倍并大幅降低AI训练成本。
- CUDA最初源于Ian Buck的想法,他意识到游戏GPU除了图形处理外,还可以用于高性能计算。
- 文章认为,现代GPU就像一个拥有数十个烹饪区域的“工业厨房”,而CUDA则扮演“行政总厨”的角色,协调处理核心之间的所有工作。
- CUDA不仅是一个单一框架,还是一个深度优化的AI库生态系统,它在矩阵运算中节省每一个纳秒——这在一次AI训练可能耗资1亿美元的情况下至关重要。
- DeepSeek被提及为极少数能够直接在PTX层(英伟达GPU的汇编级)进行优化的初创公司案例,从而挖掘比普通CUDA更深层的性能。
- 作者表示,在PyTorch中仅需3行代码的简单矩阵乘法,用CUDA编写时却需要50多行代码,这显示了GPU优化的极端复杂性。
- CUDA产生了“锁定效应”,因为大多数现代机器学习框架都构建在CUDA之上,并且仅在英伟达GPU上运行最为出色。
- 这导致AMD的GPU即使拥有更多的核心或显存,在实际AI性能上通常仍逊于英伟达。
- OpenCL、ROCm或英特尔的oneAPI等竞争对手都难以与CUDA生态系统抗衡。
- 文章认为,英伟达更像苹果(Apple),而不是英特尔(Intel)或AMD:其优势不仅在于硬件,还在于整个软件生态系统和开发者社区。
- 另一个关键因素是,英伟达雇佣的软件工程师多于硬件工程师——这对于一家传统芯片公司来说非常罕见。
- 文章称,擅长优化GPU内核的工程师数量非常稀缺,且其中许多人都在英伟达工作,这形成了一道几乎无法逾越的“护城河”。
📌 英伟达真正的实力不在于H100 GPU或昂贵的AI硬件,而在于CUDA——这个构建多年的并行处理优化软件生态。CUDA在整个AI行业产生了锁定效应,几乎所有的机器学习框架都依赖于它。尽管AMD、英特尔或OpenCL等对手试图竞争,但在生态系统、内核工程师和软件优化方面的差距,使得英伟达目前更像是AI时代的苹果,而非普通的芯片销售商。

