日本推出全球首个全自动CUDA内核发现和优化的综合智能体框架,将PyTorch提速百倍

日本推出全球首个全自动CUDA内核发现和优化的综合智能体框架,将PyTorch提速百倍

220日,日本人工智能初创公司Sakana AI发布全球首个“AI CUDA工程师”,能将PyTorch代码自动转换为高度优化的CUDA内核,速度比PyTorch原生实现快10-100倍。

AI CUDA工程师利用大模型驱动的进化代码优化技术,能自动生成高度优化的CUDA内核,通过进化算法优化 CUDA内核的执行效率,实现多个运算操作的融合,其性能不仅比PyTorch中常见的机器学习操作快10-100倍,而且也比生产中广泛使用的CUDA内核快最高5倍。研究团队指出,该技术能将加快大语言模型或其他生成式人工智能模型等基础模型的训练和运行(推理),最终使人工智能模型在英伟达(NVIDIA)硬件上运行得更快。

© 版权声明

相关文章

学术会议云

暂无评论

none
暂无评论...