WebNN 是一个供 Web 开发者部署 AI 模型的API,旨在允许 Web 应用程序和框架在客户端利用硬件来加速深度神经网络的推理,该 API 现可通过 DirectML 实现 RTX 加速此外,PyTorch 将支持 DirectML 作为运行后端,使 Windows 开发者能在本地 Windows 上原生的训练和推理复杂的 AI 模型。NVIDIA 与 Microsoft 正在合作,在 RTX GPU 上进一步提升性能。
NVIDIA 先进的 AI 平台可为全球超过 1 亿台 RTX AI PC 和工作站上的 500 多款应用和游戏提供加速支持。
RTX AI PC:游戏玩家、创作者和开发者可获得更强 AI 性能。
未来几个月内,搭载 RTX GPU 的 Windows 11 AI PC 将与大家见面,支持 Microsoft 提供的全新功能,为游戏玩家、创作者、发烧友和开发者提供更强性能,以应对要求严苛的本地 AI工作负载。
对于内容创作者而言,RTX 可为 Adobe Premiere、Blackmagic Design DaVinci Resolve 和 Blender 等应用中的 AI 辅助生产工作流提供支持,以自动执行繁琐的任务并简化工作流。从 3D 降噪和加速渲染到文本生成图像及视频,这些工具可帮助艺术家将自己的构想变为现实。
由 RTX GPU 提供支持的 LLM 可以加快 AI 助手的执行速度,还可以同时处理多个请求,进而提高生产力。
强大的AI 功能和出色的加速性能,两者结合可为游戏玩家、创作者和开发者带来卓越的体验。
面向 Web 开发者的 LLM 加速和全新功能
ORT 通过 DirectML 执行后端为 Windows AI 开发者提供了一个开发 AI 能力的快捷途径,同时还能为广泛 Windows PC 生态提供稳定的生产级别支持NVIDIA 为 ORT 的生成式 AI 扩展程序推出了多种优化,现已通过 R555 Game Ready、Studio 和 NVIDIA RTX Enterprise 驱动提供。相较于以前的驱动,这些优化可帮助开发者获得高达 3 倍的性能提升。

三款 LLM 的推理性能对比图:在使用 ONNX Runtime 和 DirectML 的运行方案下,比较最新的 R555 GeForce 驱动与以前的 R550 驱动的表现。INSEQ=2000 用来表示文档摘要类的工作负载。所有数据均取自于 GeForce RTX 4090 GPU,batch size= 1。将生成式 AI 扩展程序对 INT4 量化的支持与 NVIDIA 优化结合使用后,LLM 可获得高达 3 倍的性能提升。
提供 DQ-GEMM 内核支持,以便处理 LLM 的 INT4 Weight-only 量化
支持全新的 RMSNorm 归一化方法,用于加速 Meta AI 的 Llama 2、Llama 3、Mistral 和 Phi-3 等大型语言模型的推理过程
针对 Mistral 模型,通过注意力机制优化 (GQA/MQA) 和滑动窗口技术,实现了高效、快速的推理能力。
为提升注意力机制计算性能引入 In-place KV 更新机制
高效处理非对齐 (非 8 的倍数)张量的 GEMM 运算,进一步加速了大型语言模型在上下文整合阶段的计算
此外,NVIDIA 还针对 WebNN 提供了优化的 AI 工作流,可直接在浏览器中提供 RTX GPU 强大性能。WebNN 是一个能帮助 Web 应用开发者使用端侧的 AI 加速器 (如:Tensor Cores) 加速深度学习模型的 API。
WebNN 现已推出开发者预览版。通过使用 DirectML 和 ORT Web (用于在浏览器内执行模型的 Javascript 库),WebNN 可使 AI 应用在多个平台上变得更易于访问。通过这种加速,Stable Diffusion、SD Turbo 和 Whisper 等热门模型在 WebNN 上的运行速度最高可相较 WebGPU 提升 4 倍,现已向开发者开放。