美国普林斯顿大学和斯坦福大学开发能够精简大型语言模型的新压缩算法CALDERA

科研动态3个月前更新 0f6ec722422f273c

272 0 0

艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重

文章导读

当ChatGPT的请求拖慢你的手机、耗尽电量又泄露隐私，你是否想过LLM也能轻盈如飞？普林斯顿与斯坦福团队重磅推出CALDERA算法，首次融合“低精度”与“低排序”双杀技，为大模型精准“瘦身”——它不仅削减冗余数据、降低比特存储，更让压缩后的模型在手机端保持近乎原版的性能！无需云端依赖，本地微调即刻保护敏感信息，省电省钱还推动AI普及到每台设备。这场颠覆性突破，正将臃肿AI拉进你的口袋。

— 内容由好学术AI分析文章内容生成，仅供参考。

美国普林斯顿大学和斯坦福大学开发能够精简大型语言模型的新压缩算法CALDERA

11月3日，美国普林斯顿大学和斯坦福大学联合团队在“ArXiv”平台发文，开发出一种新压缩算法CALDERA，能精简大型语言模型（LLM）的海量数据，为LLM“瘦身”。这项算法不仅有助于保护数据隐私、节约能源、降低成本，还能推动LLM在手机和笔记本电脑上的高效使用。

当人们使用ChatGPT时，请求会被发送到OpenAI公司的后端服务器进行处理。这一过程成本高昂、能耗巨大、耗时过长，如果用户想要使用消费级图形处理单元运行LLM，就需要对这些LLM进行压缩。CALDERA算法通过减少LLM冗余并降低信息层的精度来发挥作用。虽然CALDERA并非首个压缩LLM的算法，但其独特之处在于兼具“低精度”和“低排序”两种特性。其中，“低精度”减少了比特数，加快了数据存储和处理速度；而“低排序”则降低了LLM数据中的冗余。团队表示，使用CALDERA压缩的LLM可能适用于那些对精度要求不是非常高的场景。“瘦身”后的LLM更加精简，可在手机或笔记本电脑等设备上存储和访问，同时提供了与未压缩版本几乎一样良好的性能。此外，用户可在智能手机或笔记本电脑等设备上对压缩后的LLM进行微调，即CALDERA无需与第三方共享敏感数据就能根据特定需求来调整模型，这大大增强了对用户隐私的保护。