清华系初创企业无问芯穹发布全球首个端侧全模态理解开源AI模型

科研动态12个月前更新 0f6ec722422f273c

1,495 0 0

文章导读

你是否想过，手机不联网也能实时“听懂”语音、“看懂”图片、“读懂”文字？全球首个端侧全模态理解开源模型来了！清华系初创企业无问芯穹发布Megrez-3B-Omni，仅30亿参数却集文本、音频、图像三模态于一身，压缩自14B大模型，效率飙升。支持中英文语音多轮对话、图文语音自由交互，OCR与场景理解一并搞定。同步开源的Megrez-3B-Instruct推理速度领先同类300%，自带AI搜索。未来只需一句话，手机就能自动完成设置与操作。端侧智能的革命，正在悄然开启。

— 内容由好学术AI分析文章内容生成，仅供参考。

清华系初创企业无问芯穹发布全球首个端侧全模态理解开源AI模型

12月16日，无问芯穹智能科技有限公司宣布开源其“端模型+端软件+端IP”端上智能一体化解决方案中的小模型，即全球首个端侧全模态理解开源模型Megrez-3B-Omni，并同步开源了纯语言版本模型Megrez-3B-Instruct。无问芯穹技术团队源起于清华大学电子工程系NICS-EFC实验室，在模型压缩、推理加速及硬件能耗优化等领域拥有深入的学术研究和深厚的工程实践经验。

Megrez-3B-Omni是一个为端而生的全模态理解模型，选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸。作为一个全模态模型，Megrez-3B-Omni同时具备文本、音频、图像三种模态数据的处理能力。在文本理解方面，Megrez-3B-Omni将上一代14B大模型压缩至3B规模，降低了计算成本，提升了计算效率；在语音理解方面，该模型支持中英文语音输入，能够处理复杂多轮对话场景，支持对输入图片或文字的语音提问，能够在不同模态间自由切换；在图像理解方面，该模型在场景理解、OCR（光学字符识别）等任务上可识别并提取文本信息。同步开源的纯语言版本模型Megrez-3B-Instruct为单模态模型，最大推理速度领先同精度模型300%，具备AI搜索功能。无问芯穹表示，接下来还将持续迭代Megrez系列，让用户只需要给出简单的语音指令，就可完成端设备的设置或应用操作，并将它作为“端模型+端软件+端IP”端上智能一体化解决方案的重要构成推向市场。