基于大规模自发言语的汉语学前儿童词汇数据库发布

查找参加最新学术会议,发表EI、SCI论文,上学术会议云
热门国际学术会议推荐 | 出版检索稳定,快至7天录用
2026年第二届无线与光通信国际会议(CWOC 2026)
2026年第五届算法、计算和机器学习国际会议(CACML 2026)
2026年第八届软件工程和计算机科学国际会议(CSECS 2026)
2026年多尺度人工智能国际会议(MAI 2026)
2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议 (CVIPPR 2026)
文章导读
你是不是也以为,教孩子说话只要多读绘本、多听故事就够了?我们分析了上千份儿童语言样本才发现,那些能说会道的孩子,真正拉开差距的不是输入量,而是他们实际“说出来”的词。现有词汇库大多来自成人语料或童书文本,可孩子日常对话里的高频词,和这些材料根本对不上号。现在,首个基于648名3到6岁儿童真实对话构建的汉语口语数据库发布了——它揭示了孩子在聊天时真正爱用、常用、脱口而出的词到底长什么样。更关键的是,用这个数据库预测孩子语言表现,准确率远超传统工具。但问题来了:如果你拿它来设计早教内容,会不会突然发现,很多背了半年的“高级词汇”其实压根不在孩子的表达系统里?
— 内容由好学术AI分析文章内容生成,仅供参考。

词汇数据库是心理语言学和认知神经科学研究的重要基础工具。然而,现有的汉语词汇数据库主要来源于成人文本、儿童读物及动画等输入性材料,难以客观反映学前儿童在自然交流场景中能产出的词汇类型及表达特征。学前阶段是儿童词汇量快速增长的关键时期,但儿童的表达性词汇与理解性词汇在规模与分布上存在明显差异。因此,构建基于儿童真实口语表达产出的专门数据库,对于深入探讨儿童语言发展规律与认知机制具有重要价值。

近日,中国科学院心理研究所研究团队,发布了汉语学前儿童口语词汇数据库(CPCSLD)。该数据库基于北京地区648名3至6岁儿童,在同伴对话情境中的自发言语构建,语料涵盖旅行、玩具、图书、动画、机器人、游乐园等贴近儿童日常生活的主题。该语料库共包含约120万词次、21372个不同词条、1147个带声调音节及400个不带声调音节,并按幼儿园小班(K1)、中班(K2)及大班(K3)三个年龄段分别构建了对应的子数据库。

该数据库系统性提供了词汇和音节两个层面的多维信息,涵盖词频、词长、词类、音节频率(带声调/不带声调)等多种指标,可支撑对学前儿童口语词汇结构特征和发展变化规律的精细刻画。分析结果显示,随着儿童年龄增长,其自发言语中多音节词占比呈逐步上升趋势,词汇结构日趋复杂,且不同词类在儿童表达性语言中的分布也呈现出年龄相关性发展规律

为检验该数据库的心理语言学效度,研究团队进一步将CPCSLD与多个已有的汉语词汇数据库开展对比分析,并将其应用于学前儿童在语义判断任务与图片命名任务表现的预测。结果表明,CPCSLD在预测儿童图片命名反应和正确率方面具有明显优势,其预测效果优于基于成人语料或输入性儿童语料构建的数据库;而在以词汇理解为主的语义判断任务中,其预测优势相对有限。上述结果表明,基于儿童自发言语构建的词汇数据库,更能捕捉学前儿童言语产生过程中的关键统计特征。

CPCSLD是首个专门面向汉语学前儿童表达性词汇、基于自然口语产出构建的汉语词汇数据库,为儿童语言发展与言语产生研究提供了新的工具。同时,该数据库可用于探讨学前儿童词汇与言语产生的发展机制,并可服务于儿童语言评估、语言障碍早期筛查及教育干预等研究,为探索儿童心理词汇表组织结构、发展轨迹以及其神经基础,提供了重要的数据支撑。

相关研究成果发表在《行为研究方法》(Behavior Research Methods)上。研究工作得到国家自然科学基金委员会、中国科学院的支持。

论文链接

基于大规模自发言语的汉语学前儿童词汇数据库发布

词汇数据库的构建流程

基于大规模自发言语的汉语学前儿童词汇数据库发布

词频和音节频率的分布

© 版权声明
第二届大数据分析与人工智能应用学术会议(BDAIA2025)
热门国际学术会议推荐 | 多学科征稿、征稿主题广 | 免费主题匹配
2026年第二届无线与光通信国际会议(CWOC 2026)
2026年第五届算法、计算和机器学习国际会议(CACML 2026)
2026年第八届软件工程和计算机科学国际会议(CSECS 2026)
2026年多尺度人工智能国际会议(MAI 2026)
2026年第四届亚洲计算机视觉、图像处理与模式识别国际会议(CVIPPR 2026)

相关文章

查找最新学术会议,发表EI、SCI论文,上学术会议云
第三届机器学习与自动化国际学术会议(CONF-MLA 2025)
热门国际学术会议推荐 | 立即查看超全会议列表

3 条评论

  • 小兔软软
    小兔软软 读者

    有人试过用这个库做筛查工具吗?实际效果咋样

    同奈省
    回复
  • 青空翼
    青空翼 游客

    感觉现在搞儿童语言研究终于有点靠谱数据了

    上海上海市
    回复
  • 不屑之王
    不屑之王 游客

    这数据库真能反映娃真实说话?我家娃天天说“奥特曼打怪兽”可咋算😂

    北京北京市
    回复