中国每年有1800万新生儿,声联网想让机器听懂新生儿的语言
2018-01-24 07:41:00     [查看原文]

原标题:中国每年有1800万新生儿,声联网想让机器听懂新生儿的语言

婴幼儿哭闹怎么办? 宝宝啼哭不止是病了么?婴幼儿啼哭要不要抱? ……这些在搜索引擎、母婴社区十分常见问题背后,正是一个明显的市场需求——父母希望有效发现婴幼儿啼哭等声音,并了解背后的含义,同时获得相应的应对方法。不过,现实当中,还很难有产品能够自动化的解决这问题,婴儿啼哭发现主要依赖于人工陪护,啼哭的解读主要依赖于经验。

我们近期接触的初创公司声联网(深圳声联网科技有限公司)则希望利用技术自动解决上述难题,公司主要从事婴幼童音视频的行为分析和情感计算,目前已经研发了基于人工智能技术的婴幼儿音频行为监护平台(BabyABAM),通过芯片和云后台,可以实现实时精确监测婴幼儿发出的啼哭等声音,并已经与国内一些合作伙伴达成了合作及合作意向,有望在软硬件终端产品中迅速落地这一技术。

婴儿啼哭的监测与识别,在学术界早有研究。随着人工神经网络技术的出现,也使得准确率进一步提升。近年来,也有一些针对婴儿啼哭的软件开始问世,如西班牙的why cry等, 此前也有一些摄像头及音频类产品,主打婴幼儿哭声识别,但在识别的准确性及稳定性方面依然不高。

声联网分析,之所以出现这一现象,有几方面的原因,一是因为以往的一些方案,主要通过识别环境音中的异常响声,只要满足一定分贝就识别,因此很可能会误识;二是一般识别过程中会出现成人与婴幼儿声音的普遍混音现象,识别难度增加;三是目前市面上还缺少准确有效的婴幼儿啼哭的高精度的数据。

为此,声联网自研了一套算法方案,增加了更多如音高、音强、音色等各种特征维度在内的分析维度,提升识别的准确性。精准标注的训练数据是提升识别准确率的一个重要因素。团队表示,公司用来训练的婴儿音频数据超过了1000GB,上万小时的录音文档;采用了统计建模和神经网络建模的算法,目前的错误率可以低至5%以内,是国内可量产方案中最低的。

本栏目中的所有页面均系自动生成,自动分类排列,采用联索网络信息采集、网页信息提取、语义计算等智能搜索技术。内容源于公开的媒体报道,包括但不限于新闻网站、电子报刊、行业门户、客户网站等。使用本栏目前必读