日本推出全球首个全自动CUDA内核发现和优化的综合智能体框架,将PyTorch提速百倍
2月20日,日本人工智能初创公司Sakana AI发布全球首个“AI CUDA工程师”,能将PyTorch代码自动转换为高度优化的CUDA内核,速度比PyTorch原生实现快10-100倍。
AI CUDA工程师利用大模型驱动的进化代码优化技术,能自动生成高度优化的CUDA内核,通过进化算法优化 CUDA内核的执行效率,实现多个运算操作的融合,其性能不仅比PyTorch中常见的机器学习操作快10-100倍,而且也比生产中广泛使用的CUDA内核快最高5倍。研究团队指出,该技术能将加快大语言模型或其他生成式人工智能模型等基础模型的训练和运行(推理),最终使人工智能模型在英伟达(NVIDIA)硬件上运行得更快。
© 版权声明
本文由分享者转载或发布,内容仅供学习和交流,版权归原文作者所有。如有侵权,请留言联系更正或删除。
相关文章
暂无评论...