[科普中国]-语音可扩展标记语言-

语音可扩展标记语言是于交互式语音回应应用程序创建音频对话的标准，用于开发音频及声音回应应用程序，例如银行系统及自动客户服务。来自网页服务器的超文本标记语言（HTML）被网页浏览器接收后，网页浏览器能对其进行解析并视觉呈现出来，VoiceXML应用程序的开发及部署也类似这方式。VoiceXML文档由语音浏览器解析。于一般的部署架构之下，用户通常经由公共交换电话网（PSTN）跟语音浏览器交互。VoiceXML文档以XML为基础，是由万维网联盟（W3C）开发的标准。

简介背景随着互联网技术的迅猛发展!互联网所存储的信息和提供的服务与日俱增，改变了人们的生活及工作方式" 然而，互联网长期以来与拥有众多用户的公用电话网脱离，使中国数倍于计算机用户的电话用户不能利用电话享受到互联网提供的丰富多彩的信息和服务。虽然计算机的拥有量在不断地增加，但是在相当长的时间内，计算机用户的数量不会接近电话用户的数量。如何使如此庞大的电话用户群也能访问互联网，是一个摆在相关行业营运商，内容提供商、以及服务商面前的一个挑战和商机。VoiceXML语音扩展描述语言的问世，给互联网与公用电话网的融合带来希望，使互联网信息能够以语音的方式流向电话网，使互联网服务能够延伸到电话用户。

发展VoiceXML是由VoiceXML论坛制定的通过电话访问Internet网络的标准。1993年3月，由Motorola、Lucent和IBM等私家公司四家公司联合发起成立了VoiceXML论坛，其目的在于为电话和移动设备提供一种便捷的访问 Internet网络,获取服务和信息手段。2000年3月，VoiceXML论坛发布了VoiceXML1.0标准。5月，W3C接受了VoiceXML1.0。当前国内外共有150多家公司支持VoiceXML，Motorola等公司以开发出了基于VoiceXML的产品。

目的VoiceXML的主要目标是希望通过交互式语音界面应用Web上已经有的大量信息，同时VoiceXML希望能够将开发人员从最低级的编程和资源处理工作中解放出来。VoiceXML能够利用人们已经非常熟悉的客户机、服务器方式，将语音服务和数据服务融合起来。

特点VoiceXML作为一种通过每一文件里指定的多重的交互作用，最小化客户机/服务器之间的交互工作。

实现应用开发者与低层的软件和系统平台上的软、硬件细节无关。

将用户交互作用的代码（在VoiceXML中）从服务逻辑（CGI脚本）中分离出来。

要使提供的服务能随处可得，要求这些服务能够跨越不同的执行平台。对于内容服务商、工具提供商和平台提供商来说VoiceXML是一个公共语言。

使简单的交互作用非常易于使用，要求所提供的语音界面能支持复杂的对话。

国际互联网联盟又于2004年宣布，两种计算机语音互动规范将被列为国际标准开始实施。VoiceXML是上述标准之一，目的是要提高网络内容面向互动语音应用程序的提供及开发。另外一个是语音识别语法标准（SRGS），是对VoiceXML的补充，用于语音识别，还可以将终端用户的回应转换成话音提示。VoiceXML主要用在使用语音指令代替按键输入的过程中，可以自动对商务电话进行回复，不但能够提高通话质量，还能进行信息搜集和恢复等。这一标准可以在网上使用，也可离线使用。

应用VoiceXML主要应用于电话语音系统的开发，其典型的应用可以包括以下三类：

信息的获取与电子交易，如股票信息查询和股票的交易。股民只需对着电话简单地说出所要查找的股票代码，即可获得所需的信息。股市是随时动态变化的，对用户的查询信息通过网关实时到证券所数据库取得相关信息，送往TTS文件转换模块转换为语音文件，通过IVR播放给用户。

电信领域的服务，如用电话发E-mail业务是指用户通过电话接入系统，用户打电话告知系统所要发信的目的IP地址。由ASR 自动识别系统内已定义好的IP地址，通过IVR节点录音的语音文件以附件的方式生成E-mail,通过 Internet发送到对方的E-mail信箱中。

语音门户。它是一个访问其他语音信息的统一入口，还可以提供一些公共的服务，如新闻、天气等的信息服务。1

使用方法VoiceXML应用程序于各行业及商业领域广泛使用，包括订单查询、包裹追踪、驾驶方向、紧急通知、唤醒、航班跟踪、语音访问电子邮件、客户关系管理、还按原方抓药、音频新闻杂志、语音拨号、房地产信息和国家目录援助等。 VoiceXML的标签能指示语音浏览器提供语音合成、自动语音识别、对话管理和音频播放。下面是一个VoiceXML文档的例子：

Hello world! 当一个VoiceXML解析器解析该文档时，“Hello world”字句将以语音合成方式读出。

通常情况下，HTTP被用作获取VoiceXML页面的发送协议。一些应用程序可能使用静态的VoiceXML页面，而依靠动态的VoiceXML作页面生成的应用程序则需使用应用程序服务器，例如Tomcat、WebLogic、IIS或WebSphere。

从历史上看，VoiceXML的平台供应商以各种不同方式运行其标准，并添加专有产品特点。但是，VoiceXML 2.0标准于2004年3月16日被采纳为W3C推荐标准，阐明了大部分的差异之处。VoiceXML论坛为推广标准用途的产业群，它提供了一个一致性测试过程，以证明供应商的运行方式的一致性。

将来发展VoiceXML3.0将会是VoiceXML的下一个主要发行版，包含新的主要特点。它包含一个新的XML状态图描述语言，名为SCXML。

本词条内容贡献者为:

王沛 - 副教授、副研究员 - 中国科学院工程热物理研究所