中国多媒体大会(ChinaMM2020) 青年专题论坛：“智能音频分析与生成”分论坛

中国多媒体大会(ChinaMM 2020) 青年专题论坛

“智能音频分析与生成”分论坛

2020年9月20日（星期日）下午

简介：

影视与音频资料是人类文明发展历程的珍贵载体，具有特殊的历史意义与文物价值。然而早期的各种影视与音频资料由于历史、技术等原因，大部分濒临损毁境地，亟待使用跨学科综合技术手段对这些珍贵历史音频文献进行数字化保存，以达到国际音响及音像档案存档标准。“智能音频分析与生成”分论坛针对音频资料修复存在的困难与挑战，围绕“模拟介质的非接触读取方法、参数提取与数字化方法”、“音频修复领域特殊应用环境下的噪音消除和原音建模与分离问题”、“缺失音频修复与音质增强问题”、“历史音频恢复的自动化主客观综合评价”展开研讨，搭建智能音频方向的优秀青年学者与广大学者和研究生面对面交流、探讨学术研究成果、碰撞学术思想的互动交流平台。

目的与意义：

本论坛围绕一个具体的老电影胶片的音轨数据修复问题展开，力求通过音频去噪、增强等智能化分析手段，以及智能化的音频生成算法的研讨，形成针对电影胶片数据的获取、分析并修复的技术体系与标准工艺流程。并在此基础体系的基础上，推进数字音频智能化处理领域的技术进步。

承办单位：中国传媒大学媒体融合与传播国家重点实验室、媒介音视频教育部重点实验室。

组织者个人简介：

张勤，中国传媒大学教授，博士生导师，媒介音视频教育部重点实验室主任，媒体融合与传播国家重点实验室学术委员会委员。主要研究领域为媒介音视频相关技术。于1991年获得加拿大不列颠哥伦比亚大学（UBC）博士学位，1990—1995年任加拿大UBC图像处理实验室研究工程师，1996—2000年任美国摩托罗拉公司DNS前端工程高级技术顾问，开发了第一代和第二代数字卫星电视和交互式有线电视网络分配系统，获得授权发明专利十余项。由于张勤教授在国外工作期间所取得的卓越研究成果，被美国移民局授予Outstanding Scholar and Research称号。自2000年回国在中国传媒大学任教以来，一直致力于下一代数字广播电视技术中的音视频理论与系统研究，先后主持与完成国家自然科学基金重点和面上项目、国家科技攻关重大项目、国家新闻出版广电总局科技项目、教育部科学技术重点项目等20余项，取得多项系统性创新成果。在音频技术领域，自主研发了国际领先的96声道DMS声场重建系统，在分级服务、语音控制、声场综合与动态响应四个主要技术层面突破了杜比与DTS系统。

叶龙，中国传媒大学教授，博士生导师。中国传媒大学数据科学与智能媒体学院副院长、媒介音视频教育部重点实验室副主任、中国通讯学会青年工作委员会委员、新一代人工智能产业技术创新战略联盟理事。2003年于山东大学获得电子信息学士学位，2006年与2012年于中国传媒大学分获通信工程硕士与博士学位，主要研究领域为智能媒体分析与计算。主持并参与国家自然科学基金重点项目2项、面上项目3项、青年项目1项，科技支撑计划1项。发表SCI、EI检索论文50余篇，申请专利10余项。获得IFTC Best Paper Award与PCM Best Paper Finalist。2013年入选北京市青年英才计划。

蔡娟娟，中国传媒大学媒介音视频教育部重点实验室副研究员，新一代人工智能产业技术创新战略联盟智能传媒推进组秘书。主要研究领域为智能媒体分析、音频信号处理。主持或参与国家重点研发计划项目（合作）1项、国家自然科学基金项目5项、国家广播电视总局科技项目3项、横向项目10余项。发表SCI、EI检索论文20余篇，授权发明专利1项，软件著作权7项。获得PCM Best Paper Finalist。

邀请青年讲者名单及报告题目：

讲者	题目	单位	职务/职称
张晓雷	复杂声环境下基于有监督深度学习的音源分离	西北工业大学	教授
余光正	双耳效应对较优耳信噪比和语言传输指数的影响	华南理工大学	教授
凌震华	基于序列建模与表征解耦的话者转换	中国科学技术大学	副教授
王雨田	历史电影音频修复中的可控语音合成	中国传媒大学	副研究员

报告题目、报告摘要、个人简介：

（1）报告题目：复杂声环境下基于有监督深度学习的音源分离

报告摘要：复杂声环境下的音源分离是音频分析与处理的难点和前沿科学问题。根据音源是否是语音，可以分为语音分离、音频场景分析两个基本问题。基于深度学习的语音分离和音频场景分析可以从大量历史数据和有标记数据中学习到有效的音源表示，突破了传统方法在复杂声学环境下的性能瓶颈，是当前的研究前沿。在这方面，本报告将以与说话人无关（speaker-independent）的多说话人语音分离任务为主介绍近年来语音分离的进展，以弱标记音频事件检测和分离任务为主介绍近年来音频场景分析的进展。

讲者简介：张晓雷，西北工业大学教授，博士生导师。清华大学博士、美国俄亥俄州立大学博士后。从事声信号与语音处理、机器学习、人工智能的研究工作。在Neural Networks、IEEE TPAMI、IEEE TASLP、IEEE TCYB、IEEE TSMCB等期刊、会议发表论文40余篇。合著译著1部。承担国家重点研发计划、国家自然科学基金重点项目等10余项。获得亚太信号与信息处理杰出讲者称号、UbiCom 2019国际会议最佳论文奖、北京市科学技术一等奖等。入选国家级青年人才计划。研究成果在国内三大电信运营商、金融、交通、保险等行业的20余家主流企业应用。目前/曾经担任Neural Networks、EURASIP Journal on Audio, Speech, and Music Processing等多个国际期刊的编委，担任中国计算机学会、自动化学会等专委会的委员。

（2）报告题目：双耳效应对较优耳信噪比和语言传输指数的影响

报告摘要：语言传输指数（STI）是预测和评估说话人到聆听者语言信息传递损失的重要指标。在室内声学环境下，声学传输特性（如室内混响）和信噪比构成影响STI的重要因素。对于满足线性时不变系统的稳定声学环境，可基于房间脉冲响应间（RIR）接计算获得STI。如果考虑聆听者对声场产生的破坏，则需要考虑双耳效应的影响，即借助于双耳房间脉冲响应（BRIR）准确计算STI。已有工作基本都是个别声源方向和距离条件下的分析结果，而对于声源和聆听者在不同位置条件下（方向和距离）的STI空间分布规律方面，未见到完整的分析和报道。因此，本文关注双耳效应对STI产生的影响。为简化问题，假定说话人总是对着聆听者（即不考虑说话人语音辐射指向性的影响），因此仅考虑聆听者和说话人相对位置关系对双耳效应、进而对STI产生的影响。相关结果可为复杂声学环境和多说话人条件下研究目标语言可懂度提供参考依据。

讲者简介：余光正，华南理工大学物理与光电学院教授，博士生导师。主要研究领域包括多媒体声信号处理和空间听觉。已主持2项国家自然科学基金、3项广东省自然科学基金（其中1项重点项目）；参与科技部重点研发计划和广东省科信委科技计划等重大项目多项。2011 年入选广东高校优秀青年创新人才培养计划；2012 年被评为“千百十人才培养工程”校级培养对象；2014 年入选广东省优秀青年教师培养计划。2018年，作为主要成员参与的“空间听觉与虚拟听觉重放的关键技术及应用”获得教育部科技进步二等奖。在JASA、JAES、声学学报等国内外重要期刊发表论文 50 余篇，已申请和授权的发明专利 10 余项。曾在英国伦敦大学玛丽皇后学院数字音乐中心（C4DM）、香港科技大学、美国伦斯勒理工学院等单位做访学学者。目前兼任中国声学学会产业促进委员会委员，中国电子学会声频分会委员，广州电子音响行业协会专家委员会副主任委员等职。

（3）报告题目：基于序列建模与表征解耦的话者转换

报告摘要：话者转换（Voice Conversion）指的是在不改变文本内容的前提下修改源话者语音，使其个性特征接近目标话者。声学模型实现从源话者声学特征到目标话者声学特征的映射，是话者转换的关键技术模块。传统逐帧转换的声学模型存在对帧间长时相关性建模能力不足、无法有效调整语速等问题。因此，我们设计实现了序列到序列的话者转换神经网络模型，提出了前向注意力机制，保证了模型对于声学特征长序列建模的稳定性，取得了优于传统逐帧建模方法的转换语音自然度与相似度。进一步，针对源-目标训练数据文本不同的非平行场景，我们提出了一种基于文本-话者表征解耦的话者转换声学建模方法，该方法通过引入文本识别编码器与话者编码器、设计对抗学习损失函数，以及利用多人海量背景数据，实现了对于语音信号中文本和话者表征的有效解耦与灵活组合，显著提升了非平行数据情况下转换语音的自然度和相似度，取得了与平行数据情况下相当的性能。

讲者简介：凌震华，中国科学技术大学信息学院副教授，博士生导师。主要研究领域包括语音信号处理和自然语言处理。主持与参与多项国家自然科学基金、国家重点研发计划、安徽省语音专项等科研项目；已发表论文100 余篇，论文累计引用3600余次；获国家科技进步奖二等奖和IEEE信号处理学会最佳青年作者论文奖。在Blizzard Challenge国际语音合成技术评测、Voice Conversion Challenge国际语音转换技术评测等活动中多次获得测试指标第一名。现为电气电子工程师学会（IEEE）高级会员、中国计算机学会语音听觉与对话专业组委员、中国语言学会语音学分会学术委员会委员、全国人机语音通讯学术会议常设机构委员会委员。2014-2018年任IEEE/ACM TASLP期刊副编辑。

（4）报告题目：历史电影音频修复中的可控语音合成

报告摘要：影视资料是人类文明发展历程的珍贵载体，具有特殊的历史意义与文物价值。然而早期的影视与音频资料由于历史、技术等原因，存在各种损伤，亟待使用技术手段对这些珍贵历史音频文献进行数字化保存。对于其中有长时间损毁的音频片段，我们提出一种基于离散隐空间编码的语音合成系统来合成需要的语音片段进行插补。该模型可以从参考音频中学习语音韵律，并将输入文本转换为与参考语音具有相似韵律但与内容和说话人无关的语音。此外，我们采用离散隐变量来表示参考语音的各种声学特征，并使得音高，语速，音色等抽象语音特征自动的解耦到这些离散隐变量上，从而可以通过改变这些隐变量的值来方便的控制合成语音的韵律。实验结果证明了我们模型的有效性，同时其语音转换的合成效果达到了目前最好的水平。

讲者简介：王雨田，中国传媒大学媒介音视频教育部重点实验室副研究员，硕士生导师。主要研究领域包括语音信号处理和深度学习算法。主持并参与多项国家自然科学基金、国家科技支撑计划等科研项目；已发表论文20 余篇，专利5项。曾在香港科技大学、美国伦斯勒理工学院等单位做访学学者。

导航

中国多媒体大会(ChinaMM2020) 青年专题论坛：“智能音频分析与生成”分论坛