[科普中国]-语音应用编程接口-

简介

语音识别和语音技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话和听懂人说话的能力。

语音应用编程接口是指开发与语音有关应用程序或功能的编程接口。这些接口一般都是从事语音技术研究的公司和研究机构提供的，主要语音有关技术入门门槛较高，开发周期长，开发者一般都使用第三方提供的接口。常见的语音应用编程接口有讯飞语音应用编程接口、百度语音编程接口和微软语音编程接口等。

语音技术语音技术在计算机领域中的关键技术有语音处理、自动语音识别技术（ASR）和语音合成技术（TTS）。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式，语音比其他的交互方式有更多的优势。

语音合成语音合成的主要功能是：根据韵律建模的效果，从原始语音库中取出相应的语音基元，利用特定的语音合成技术对语音基元进行韵律特性的调整和整改，最终合成符合要求的语音。

语音合成技术经历了一个逐步发展的过程，从参数合成到拼接合成再到两者得的逐步结合，其不断发展主要是人们认知水平以及要求的不断提高的结果。目前，常用的语音合成技术主要有：共振峰合成技术、LPC合成技术、PSOLA拼接合成和LMA声道模型技术。各种合成技术各有自己的优缺点，人们在应用的过程中往往将多种技术有机的结合在一起，或者将一种技术的优点应用到另一种技术上，以克服另一种技术的不足。2

语音识别语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合，可以构建出更加复杂的应用，例如语音到语音的翻译。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，例如在翼卡车联网中，只需按一键通客服人员口述即可设置目的地直接导航，安全、便捷。

语音处理音处理(speech signal processing)用以研究语音发声过程、语音信号的统计特性、语音的自动识别、机器合成以及语音感知等各种处理技术的总称。由于现代的进音处理技术都以数字计算为基础，并借助微处理器、信号处理器或通用计算机加以实现，因此也称数字语音信号处理。语音处理主要有两个目的：减少信号噪声，做出想要的信号模组。进行语音辨识，使人可以利用语言与电脑沟通。

API概述应用程序接口（Application Programming Interface，API），又称为应用编程接口，就是软件系统不同组成部分衔接的约定。API（Application Programming Interface,应用程序编程接口）是一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力，而又无需访问源码，或理解内部工作机制的细节。由于近年来软件的规模日益庞大，常常需要把复杂的系统划分成小的组成部分，编程接口的设计十分重要。程序设计的实践中，编程接口的设计首先要使软件系统的职责得到合理划分。良好的接口设计可以降低系统各部分的相互依赖，提高组成单元的内聚性，降低组成单元间的耦合程度，从而提高系统的维护性和扩展性。

API又分为（Windows、Linux、Unix等系统的）系统级API，及非操作系统级的自定义API。作为一种有效的代码封装模式，微软Windows的API开发模式已经为许多商业应用开发的公司所借鉴，并开发出某些商业应用系统的API函数予以发布，方便第三方进行功能扩展。

程序功能远程过程调用（RPC）：通过作用在共享数据缓存器上的过程（或任务）实现程序间的通信。

标准查询语言（SQL）：是标准的访问数据的查询语言，通过通用数据库实现应用程序间的数据共享。

文件传输：文件传输通过发送格式化文件实现应用程序间数据共享。

信息交付：指松耦合或紧耦合应用程序间的小型格式化信息，通过程序间的直接通信实现数据共享。

Windows语音Windows语音识别（英语：Windows Speech Recognition）是一个语音识别应用程序，Windows允许用户通过语音指令控制电脑。程序还可以听写文本，使用户可以通过语音输入文本。

程序内包含了简单的指令教程以帮助用户熟悉。还提供训练功能，可提高识别准确性。目前，该应用程序支持多种语言，包括英语（美国和英国），西班牙语，德语，法语，日语和中文（简体和繁体）。3

1993年，微软聘请卡内基梅隆大学的黄学东主导语音识别项目。微软参与了语音识别和语音合成的研究。公司研发了微软语音应用程序接口。语音识别技术已经被应用在微软的一些产品，包括Microsoft Dictation（一个研究原型，运行在Windows 9x）。它还内置在Office XP和Office 2003，Microsoft Plus! XP版本，Windows XP Tablet PC Edition和Windows Mobile（作为微软语音指令）。然而，在Windows Vista之前，语音识别不是主流。对此，Windows语音识别是捆绑在Windows Vista于2006年发布的，使得Vista成为Windows第一个提供完全集成的语音识别支持的主流版本。

[科普中国]-语音应用编程接口

微信扫一扫：分享