清华大学计算机系孙茂松团队提出“密度法则”揭示大模型高效化发展内在趋势

科研动态6天前更新清华大学新闻网

300 2 0

文章导读

清华大学孙茂松团队揭示大模型"密度法则"：大模型最大"能力密度"每3.5个月翻一番，意味着每隔3.5个月，仅需一半参数量就能实现当前最优性能。这一发现犹如AI领域的"摩尔定律"，不仅解释了大模型高效化发展的内在趋势，更预示着终端智能的巨大潜力，或将彻底改变我们对大模型发展的认知。

— 内容由好学术AI分析文章内容生成，仅供参考。

近日，清华大学计算机系教授孙茂松、副教授刘知远、助理研究员韩旭指导的研究团队与大模型开源社区OpenBMB合作，提出大模型“密度法则”概念，指出大模型的最大“能力密度”随时间呈指数级增长：2023年2月至2025年4月，大模型最大“能力密度”约每3.5个月翻一番。这意味着每隔3.5个月，即可用一半参数量的模型实现当前最优性能。这一发现为理解大模型发展规律提供了新的视角，揭示了大模型高效化发展的内在趋势。

自2020年以来，大模型在尺度定律（Scaling Law）的指导下，不断增加训练数据和模型参数的规模，在自然语言理解、生成和推理任务上取得了显著的能力提升。这推动了一系列参数量超过千亿的超大规模模型的涌现。然而，随着训练规模的膨胀，大模型训练和推理成本急剧上升。一方面，公开可用数据的增长难以匹配模型需求的指数级扩张；另一方面，计算资源和能源消耗成为大模型训练与部署的瓶颈。为应对这些挑战，研究者亟需探索大模型的可持续发展路径。

针对这一关键发展诉求，研究团队从“摩尔定律”的密度提升规律中获得启发，基于“采用相同制造工艺、经过充分训练的不同尺寸模型，其‘能力密度’应当相同”的核心假设，提出大模型“能力密度”（Capability Density）概念，用于评估大模型单位参数内蕴含的智能水平。

为了量化“能力密度”，研究团队设计了相对“能力密度”的评估框架。首先选取一系列基准模型，通过拟合这些模型在不同参数规模下的性能表现，建立参数量与性能之间的映射关系。在此基础上，研究团队设定基准模型的“能力密度”为1，作为衡量其他模型“能力密度”的基线。给定目标模型的“能力密度”被定义为“同能力的基准模型参数量与目标模型参数量的比值”。

清华大学计算机系孙茂松团队提出“密度法则”揭示大模型高效化发展内在趋势

图1.“能力密度”计算方法示意图

团队对51个近年来发布的开源大模型进行了密度分析。结果显示，这些模型的最大“能力密度”随时间呈指数增长趋势，大约每过3.5个月，参数量减半的模型就能达到当前最先进模型的性能水平。这一规律揭示了大模型技术的飞速进展，以及在算力和算法的协同作用下，大模型能力的持续提升。

清华大学计算机系孙茂松团队提出“密度法则”揭示大模型高效化发展内在趋势

图2.开源大模型“能力密度”的变化趋势图

基于“密度法则”，研究团队得出了多项推论。首先，实现相同性能的大模型所需参数量和推理成本呈指数级下降，例如GPT-3.5级别的大模型每百万词元推理价格2022年年底为20美元，到2024年8月已经降至此前的266分之一。其次，自ChatGPT发布后，“能力密度”增长显著加速，越来越多的高效开源大模型进入大众视野。再次，“密度法则”与“摩尔定律”结合，揭示了终端智能的巨大潜力——芯片计算能力与大模型“能力密度”均呈指数级增长，终端设备将能够运行更高性能的大模型，推动边缘计算的普及。

该研究强调密度优化是大模型发展的关键路径，源于架构、算法和数据处理的进步。团队已发布了MiniCPM、MiniCPM-V/o、VoxCPM等一系列端侧高“能力密度”模型。系列模型获得学术和产业界广泛认可，相关技术论文发表于《自然·通讯》（Nature Communications）、《自然·机器智能》（Nature Machine Intelligence）等刊物。开源模型的10次发布，全部登顶HuggingFace、GitHub国际关注榜单，并入选HuggingFace 2024年度全球最受欢迎和下载开源模型榜单。

研究成果以“大模型密度法则”（Densing Law of LLMs）为题，于11月20日作为封面文章，发表于《自然》（Nature）子刊《自然·机器智能》（Nature Machine Intelligence）。

清华大学计算机系孙茂松团队提出“密度法则”揭示大模型高效化发展内在趋势