清华系初创企业无问芯穹发布全球首个端侧全模态理解开源AI模型

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重
文章导读
你是否想过,手机不联网也能实时“听懂”语音、“看懂”图片、“读懂”文字?全球首个端侧全模态理解开源模型来了!清华系初创企业无问芯穹发布Megrez-3B-Omni,仅30亿参数却集文本、音频、图像三模态于一身,压缩自14B大模型,效率飙升。支持中英文语音多轮对话、图文语音自由交互,OCR与场景理解一并搞定。同步开源的Megrez-3B-Instruct推理速度领先同类300%,自带AI搜索。未来只需一句话,手机就能自动完成设置与操作。端侧智能的革命,正在悄然开启。
— 内容由好学术AI分析文章内容生成,仅供参考。

清华系初创企业无问芯穹发布全球首个端侧全模态理解开源AI模型

1216日,无问芯穹智能科技有限公司宣布开源其“端模型+端软件+IP”端上智能一体化解决方案中的小模型,即全球首个端侧全模态理解开源模型Megrez-3B-Omni,并同步开源了纯语言版本模型Megrez-3B-Instruct。无问芯穹技术团队源起于清华大学电子工程系NICS-EFC实验室,在模型压缩、推理加速及硬件能耗优化等领域拥有深入的学术研究和深厚的工程实践经验。

Megrez-3B-Omni是一个为端而生的全模态理解模型,选择了最适合手机、平板等端侧设备的30亿参数黄金尺寸。作为一个全模态模型,Megrez-3B-Omni同时具备文本、音频、图像三种模态数据的处理能力。在文本理解方面,Megrez-3B-Omni将上一代14B大模型压缩至3B规模,降低了计算成本,提升了计算效率;在语音理解方面,该模型支持中英文语音输入,能够处理复杂多轮对话场景,支持对输入图片或文字的语音提问,能够在不同模态间自由切换;在图像理解方面,该模型在场景理解、OCR(光学字符识别)等任务上可识别并提取文本信息。同步开源的纯语言版本模型Megrez-3B-Instruct为单模态模型,最大推理速度领先同精度模型300%,具备AI搜索功能。无问芯穹表示,接下来还将持续迭代Megrez系列,让用户只需要给出简单的语音指令,就可完成端设备的设置或应用操作,并将它作为“端模型+端软件+IP”端上智能一体化解决方案的重要构成推向市场。

© 版权声明
2025年第四届算法、数据挖掘与信息技术国际会议(ADMIT 2025)
2025年第八届机器学习和自然语言处理国际会议(MLNLP 2025)
2025年第八届数据科学和信息技术国际会议(DSIT 2025)
2025年数据科学与智能系统国际会议(DSIS 2025)
第二届大数据分析与人工智能应用学术会议(BDAIA2025)
2025年第四届先进的电子、电气和绿色能源国际会议 (AEEGE 2025)
2025年第二届亚太计算技术、通信和网络会议(CTCNet 2025)
艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
艾思科蓝 | 学术会议 | 学术期刊 | 论文辅导 | 论文编译 | 发表支持 | 论文查重

暂无评论

none
暂无评论...