下载此文档

基于内容的音频信息检索.ppt


文档分类:IT计算机 | 页数:约58页 举报非法文档有奖
1/58
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/58 下载此文档
文档列表 文档介绍
基于内容的音频信息检索*WuGangshan:ModernInformationRetrieval*Contents概述查询方式语音检索音频检索音乐检索*WuGangshan:ModernInformationRetrieval*1音频检索概述音频是多媒体中的一种重要媒体。我们能够听见的音频频率范围是60Hz~20kHz。其中语音大约分布在300Hz~4kHz之内,而音乐和其他自然声响是全范围分布的。声音经过模拟设备记录或再生,成为模拟音频,再经数字化成为数字音频。数字化时的采样率必须高于信号带宽的2倍,才能正确恢复信号。样本可用8位或16位比特表示。*WuGangshan:ModernInformationRetrieval*1音频检索概述音频是声音信号的表示形式,作为一种信息载体,音频可以分为三种类型:波形声音对模拟声音数字化而得到的数字音频信号。它可以代表语音、音乐、自然界和合成的声响。语音具有字词、语法等语素,是一种高度抽象的概念交流媒体。语音经过识别可以转换为文本。文本是语音的一种脚本形式。音乐具有节奏、旋律或和声等要素,是人声或/和乐器音响等配合所构成的一种声音。音乐可以用乐谱来表示。*WuGangshan:ModernInformationRetrieval*音频信息的特征不同类型的声音具有不同的内在内容。人们感受到的内容不同。但从整体看,音频内容分为三个级别:最低层的物理样本级、中间层的声学特征级和最高层的语义级,如下图所示。从低级到高级,其内容逐级抽象,内容的表示逐级概括。*WuGangshan:ModernInformationRetrieval*音频信息的特征音乐叙事、音频对象描述、语音识别文本、事件……感知特征:音调、音高;旋律、节奏…声学特征:能量、过零率、LPC系数…音频结构化表示采样率、时间刻度样本、格式、编码……语义特征级物理特征级样本数据级模糊匹配(基于内容的检索)严格匹配*WuGangshan:ModernInformationRetrieval*级别特征显式表示可否用于检索物理级声学级语义级音频信息的特征取样频率、量化精度、编码方法、声道数目、时间刻度信息(时:分:秒:帧)...音量、音高、音域、音色、….如一段语音的中心思想、包含的关键词、类型等,一段音乐的旋律、情绪、主题等...是否否少部分部分全部*WuGangshan:ModernInformationRetrieval*1音频检索概述基于人工输入的属性和描述来进行音频检索是容易首先想到的方法。该方法的主要缺点反映在:当数据量越来越多时,人工的注释强度加大;人对音频的感知,如音乐的旋律、音调、音质等,难以用文字注释表达清楚。这些正是基于内容的音频检索需要研究和解决的问题。但同时应该注意到音频检索可以利用的一个优势,那就是语音是一种特殊类型的音频,它与文本可以互相转换,因此,可以利用文本检索技术进行概念检索。*WuGangshan:ModernInformationRetrieval*基于内容的音频检索What?从声学特征和语义特征进行音频信息的检索称为基于内容的音频检索。困难:1数字音频是一种不透明的位流,它不显式地包含可识别或可比较的语义实体;2人工输入音频数据的属性和内容描述,工作量极大,注释的准确性依赖于人的水平、经验和工作态度;3人对音频信息(特别是音乐)的感知,如音乐的旋律、音调、音质等,难以用文字表达清楚。*WuGangshan:ModernInformationRetrieval*2、查询方式:需求检索包含特定内容的一段讲话(计算机,互连网,多媒体技术...)检索指定说话人的一段讲话检索指定类型的一段音频(音乐、歌曲、报告、谈话...)检索指定旋律的一段音乐检索指定乐器演奏的一段音乐

基于内容的音频信息检索 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数58
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yzhluyin9
  • 文件大小1.07 MB
  • 时间2019-09-21