[科普中国]-声音检索型业务-

声音检索型业务的概念

声音检索型业务（sound retrieval service）是指按需求(由用户启动)检索音乐节目和其他音频信息的一种业务。

多媒体检索技术是把文字、声音、图像（形）等多种信息的传播载体通过计算机进行数字化加工处理的一种综合技术。在现阶段，多媒体检索业务按检索内容可分为三类：图像检索、视频检索及声音检索。

基于内容的声音检索包括用序号查找一般声音和以匹配方式检索给定样值的声音。提出基于内容的声音检索的常用方法有：特征描述法，其中又包括自然语言描述法与声音解释法；内容检索法，其中又包括赋值检索，示例匹配检索，浏览检索、语言识别与合成方式的检索。

以前的许多研究工作涉及到语音信号的处理，如语音识别。机器容易自动识别孤立的字词，如用在专用的听写和电话应用方面，而对连续的语音识别则较困难，错误较多，但目前在这方面已经取得了突破性的进展，同时还研究了辨别说话人的技术。这些研究成果将为音频信息的检索提供很大帮助。

作为一种信息载体，音频可以分为三种类型。

波形声音，对模拟声音数字化而得到的数字音频信号。它可以代表语音、音乐、自然界和合成的声响。

语音，具有字词、语法等语素，是一种高度抽象的概念交流媒体。语音经过识别可以转换为文本。文本是语音的一种脚本形式。

音乐，具有节奏、旋律或和声等要素，是人声或/和乐器音响等配合所构成的一种声音。音乐可以用乐谱来表示。

声音检索型业务的工作原理不同的类型将具有不同的内在内容。但从整体看，音频内容分为三个级别：最低层的物理样本级、中间层的声学特征级和最高层的语义级。从低级到高级，其内容逐级抽象，内容的表示逐级概括。在物理样本级，音频内容呈现的是流媒体形式，用户可以通过时间刻度，检索或调用音频的样本数据。如现在常见的音频录放程序接口。中间层是声学特征级。声学特征是从音频数据中自动抽取的。一些听觉特征表达用户对音频的感知，可以直接用于检索；一些特征用于语音的识别或检测，支持更高层的内容表示。最高层是语义级，是音频内容、音频对象的概念级描述。具体来说，在这个级别上，音频的内容是语音识别、检测、辨别的结果，音乐旋律和叙事的说明，以及音频对象和概念的描述。后两层是基于内容的音频检索技术。在这两个层次上，用户可以提交概念查询或按照听觉感知来查询。音频的听觉特性决定其查询方式不同于常规的信息检索系统。基于内容的查询是一种相似查询，它实际上是检索出与用户指定的要求非常相似的所有声音。查询中可以指定返回的声音数或相似度的大小。另外，可以强调或关闭（忽略）某些特征成分，甚至可以施加逻辑“非”（或模糊的Less匹配关系）来指定检索条件，检索那些不具有或少有某种特征成分（如指定没有“尖锐”或少有“尖锐”）的声音。另外，还可以对给定的一组声音，按照声学特征进行排序，如按声音的嘈杂程度排序等。

在查询接口上，用户可以采用以下形式提高查询：

示例方法。用户选择一个声音例子表达其查询要求，查找出与该声音在某些特征方面相似的所有声音。如查询与飞机的轰鸣声相似的所有声音。

直喻方法。通过选择一些声学/感知物理特性来描述查询要求，如亮度、音调和音量等。这种方式与可视查询中的描绘查询相似。

拟声方法。发出与要查找的声音性质相似的声音来表达查询要求。如用户可以发出嗡嗡声来查找蜜蜂或电气嘈杂声。

主观特征法。用个人的描述语言来描述声音。这需要训练系统理解这些描述术语的含义，如用户可能要寻找“欢快”的声音。

浏览法。这是信息发现的一种重要手段，尤其是对于音频这种时基媒体。根据对音频媒体的划分可以知道，语音、音乐和其他声响具有显著不同的特性，因而目前的处理方法可以分为相应的三种：处理包含语音的音频和不包含语音的音频，后者又把音乐单独划分出来。换句话说，第一种是利用自动语音识别技术，后两种是利用更一般性的音频分析，以适合更广泛的音频媒体，如音乐和声音效果，当然也包含数字化语音信号。

通常认为音频信息检索分为基于语音技术的检索、音频检索和音乐检索。

语音检索示以语音为中心的检索，采用语音识别等处理技术。基于语音技术的检索又包括利用大词汇语音识别技术进行检索，这种方法是利用动语音识别（ASR）技术把语音转换为文本，从而可以采用文本检索方法进行检索。虽然好的连续语音识别系统在小心地操作下可以达到90%以上的词语正确度，但在实际应用中，如电话和新闻广播等，识别率并不高。

基于分词单元进行检索：当语音识别系统处理各方面无限制主题的大范围语音资料时，识别性能会变差，尤其当一些专业词汇（如人名、地点）不在系统词库中时。一种变通的方法是利用粉刺索引单元，当执行查询时，用户的查询首先被分解为子词单元，然后将这些单元的特征与库中预先计算好的特征进行匹配。

基于识别关键词进行检索、基于说话人的辨认进行分割等都是音频信息检索的技术。

音频检索示以波形声音为对象的检索，这里音频可以是汽车发动机、雨声、鸟叫声。也可以是语音和音乐等，这些音频都统一用声学特征来检索，音频检索又包括声音训练和分类、听觉检索、音频分割。

音乐检索是以音乐的音符和旋律等音乐特性来检索。1

[科普中国]-声音检索型业务

微信扫一扫：分享