合成语音的生产

演讲的本质及其人工再创造几个世纪,科学家们就对。尽管一些早期的机器说话代表简单的马戏技巧或普通诈骗,一位奥地利业余语言学者,在1791年,出版了一本描述pneumomechanical设备生产的人工语音。

大量的电子语音合成器建立了在不同语音实验室在20世纪的下半叶。这些命名的“编码”,“语音合成器,”和“声码器”,这名字缩写较长(例如,“语音合成器”代表声音操作演示)。在本质上,他们是电类似物人类声道。适当安排电路产生voicelike语气调制器的谐波分量的基本基调,嘶嘶声发生器产生咝咝作声的和其他无声的辅音的声音。产生共鸣的某些频率区域内电路提供能量浓度模拟每一个语音的共振峰特征声音。结果speechlike听起来是高度可控的和令人惊讶的是自然,只要他们生产连续音。例如,它可以模仿各种亚型的艰难的美国对R的声音(如“汽车”)通过移动几个杠杆或旋钮。困难变得更大,许多其他属性的流利的语音模仿,如协同发音的相邻声音,特性和脉动鼻音化和其他部分瞬变连接的清晰度。语音合成器,然而,做了一个贡献的各种物理特性的研究对语音的感知和识别。

相对应的语音合成器是语音识别器,一种设备,接收语音信号通过麦克风或phono-optical装置,分析了声学元件,将信号转换为图形符号输入他们在纸上。现代模型可能包含电脑存储的一些信息,允许设备直接从听写输入。早期模型有很大困难同音的单词的正确拼写(那些听起来相似但不同的拼写和意义),如“,,两个”或“扔,通过,通过。“人类的誊写通常没有困难这些区别,因为他们听句子的主要部分认识每个单词的上下文和一般情况。电脑机器在1970年代开发的,但是,必须被编程为每个具体的方面语音识别人们通常通过多年的学习教育和专业培训。此外,机器可以有效的只有非常有限的词汇表和需要进行调整,以每个演讲者。

戈弗雷爱德华·阿诺德