近两年,以智能家居为主题的消费电子展越来越多,拥有声控功能的电视机、空调、电饭煲、电脑、手机等电器开始引领潮流,逐步取代了触摸式按键的领先操作方式。这种机器愈发聪明,我们通过声音即可进行在一定距离范围内的操作,便捷而人性化,让人感受到“科技以人为本”的时代曙光。在不久的将来,电器会更像人类,它们也会有视觉与听觉,靠语音识别、监控感知即可实现简单的人机交互。那么,以语音识别为基础的声控是个什么原理?难道智能电器都长有耳朵吗?
其实,语音识别只是电器感知模式识别的一个分支,它从属于信号处理科学领域,同时与语音学、语言学、数理统计及神经生物学等学科有非常密切的关系。语音识别的目的就是让机器能够“听懂”人类口述的语言,这其中包括了两方面的含义:其一是逐字逐句听懂非转化成书面语言文字;其二是对口述语言中所包含的要求或询问加以理解,做出正确响应,而不拘泥于所有词的正确转换。
自动语音识别技术有三个基本原理:首先,语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码;其次,语音是可以阅读的,即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下,用数十个具有区别性的、离散的符号来表示;再次,语音交互是一个认知过程,因而不能与语言的语法、语义和语用结构割裂开来。
而对于语音识别的预处理,则包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的选取和端点检测问题。在之后的特征提取过程,就是用于提取语音中反映本质特征的声学参数,如平均能量、平均跨零率、共振峰等。
然后是训练阶段,即在识别之前通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。最后是模式匹配,这是整个语音识别系统的核心,它根据一定规则(如某种距离测度)以及专家知识(如构词规则、语法规则、语义规则等),计算输入特征与库存模式之间的相似度(如匹配距离、似然概率),判断出输入语音的语意信息。
除此之外,语音识别技术还基于对语音的物理属性、生理属性和社会属性3个基本属性的分析。
1、语音的物理属性
所谓物理属性,主要包括音高、音长、音强和音色4个要素。音高是指声音的高低,主要决定于发音体振动速度的快慢;音长是指声音的长短,主要决定于发音体振动时间的久暂;音强是指声音的强弱,主要决定于发音体振动幅度的大小;音色是指声音的特色,主要决定于发音物体振动所形成的音波波纹曲折形式不同。
2、语音的生理属性
所谓生理属性,主要指发音器官对语音的影响,包括肺和气管、候头和声带以及口腔、鼻腔和咽腔等发音气官。
3、语音的社会属性
所谓社会属性,主要表现在3个方面,一是语音与意义之间并无必然联系,它们的对应关系是社会成员约定俗成的;二是各种语言或方言都有自己的语音系统;三是语音具有区别意义的作用。
语音识别的基本过程根据实际中的应用不同,语音识别系统可以分为:特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。但无论那种语音识别系统,其基本原理和处理方法都大体类似。
最后,智能电器通过语音识别的一系列过程做出相应的预设反应,这样就被人类声控了,所以这看似简单快捷的操控方式其实很复杂。如此,操控电器会变得非常简单,不用像现在这样,先看完枯燥乏味的说明书,或边看操作步骤边操控电器了。