丁文博 许玥
摘 要:为了解决计算机深度学习时标注数据工作量大、准确度不高、耗时耗力等问题,需要将预先训练好的模型中的数据进行跨领域跨任务迁移学习。基于对不同数据集的迁移效果的研究,试验时将视觉领域中表现良好的ImageNet预训练模型迁移到音频分类任务,通过剔除无声部分、统一音频长度、数据转换和正则化处理这4个步骤,采用经典图像增强和样本混淆两种数据增强方法,以5种不同的方式训练数据集,实验证明:ImageNET目标训练模型的跨领域迁移学习效果显著,但源领域的模型效果和目标领域的最终效果并没有必然联系,且使用同领域相似数据分布的数据集的预训练效果比ImageNet上的预训练效果更差。
关键词:迁移学习 预训练 数据集 数据预处理 数据增强
中图分类号:TP391.4 文献标识码:A 文章编号:1672-3791(2020)01(b)-0107-04
Abstract: In order to solve the problems of large workloads, low accuracy and time-consuming in data-labeling in deep learning, it is necessary to transfer the data from the pre-trained model to cross-domain/cross-task learning. based on the study of the migration effect of different dat sets, the ImageNet pre-training model, which is good in the visual field, is migrated to the audio classification task. By eliminating the silent part, unifying the audio length, data conversion and regularization processing, classical image enhancement and sample confusion are used to enhance the data, five different training methods to train datasets. Experiments show that ImageNET target training model has significant effect on cross-domain migration learning, but the effect of source domain model is not necessarily related to the final effect of target domain,and the pre-training effect of datasets with similar data distribution in the same field is worse than that on ImageNet.
Key Words: Transfer learning; Pre-train; Dataset; Data preprocessing; Data augmentation
近年来,深度学习算法在諸多应用领域取得了突破性进展,模型复杂度和训练数据量持续增长,大量的训练数据成为了解决复杂问题的必需。如计算机视觉领域的ImageNet数据集[1]就具有千万级别的图像数据和标注。而在实际应用中,获取大量标注数据并从头开始训练是十分困难的。
为了解决实际应用场景中标注数据获取难度大、成本高等问题,可通过迁移学习方法将某一领域学习到的知识或模式应用到不同但相关的领域或问题中,这样不仅能避免昂贵且费时的数据标注工作,还能提升目标领域或任务中学习效果。
1 相关工作
通常迁移学习分为两大类:一类是全网络微调,即将预训练模型用于新模型参数的初始化,而后在新任务数据上训练新模型参数;另一类是用预训练模型作为特征提取器,无需更新无论是预训练模型还是新任务模型的参数。但所有迁移学习的成功运用都基于一个假设:训练数据与测试数据位于同一特征空间,并且具有相同的分布特性。一个常见的假设就是在ImageNet上表现良好的模型也能在其他视觉任务上表现良好。如在计算机视觉领域中,当面临一个新的视觉分类、识别和分割任务时,通常会使用ImageNet数据集上预训练的1000类分类模型进行迁移。
已有案例证明,采用迁移学习方法,将现成数据集(如ImageNet)预训练好的模型作为新任务模型的基础,能够减少新任务训练数据的规模,还可以有效避免过拟合等情况的发生。文献[2]中系统地分析了16种卷积神经网络在12个图像分类数据集上的效果,分别以3种方式展开实验:ImageNet预训练模型用于特征提取,预训练模型作为新模型参数的初始化,使用与预训练模型相同的网络结构但随机初始化参数。得出了两个结论:好的预训练模型能够提供好的迁移学习效果;好的网络结构也能提供好的迁移学习效果。
尽管文献[2]系统地验证了迁移学习的效果,但仍局限在计算机视觉领域。在部分音频分类任务中,使用预训练的视觉模型进行迁移学习也曾取得成功,如文献[3]在声音事件检测时将ImageNet预训练的卷积神经网络模型融入整体的卷积循环神经网络(CRNN)模型框架中;又如在文献[4]中使用6种视觉领域表现优异的不同结构的模型,分别以从头训练和使用预训练模型作为初始模型这两种方式训练。在文献[4]的两项工作中,虽然音频标注质量参差不齐,且音频任务进展远远落后于计算机视觉领域的相似任务,但将ImageNet预训练模型用于音频分类任务依然取得了不错的效果,其再一次证明,预训练模型能进行一定程度上的跨领域迁移。
该文正是基于这些跨领域迁移学习的成功案例,以声学场景识别与事件检测DCASE2019挑战赛[5]中的音频标签分类为目标领域任务,以ImageNet图像分类为源领域任务,从音频分类问题入手,分析(在ImageNet 上训练好的)视觉模型能否迁移到语音领域中,并通过系统实验验证了跨领域迁移学习的效果。
2 实验方法
2.1 数据集
该次实验共采用了3种数据集:一是ImageNet数据集,该数据集为模型的预训练数据集,并迁移学习到了语音领域;二是Freesound 数据集,用于实验中的无噪声训练和测试;三是Yahoo Flickr Creative Commons 100M (YFCC100M)数据集,其为实验中的噪声数据集。
ImageNet[1]:ImageNet数据集建立在WordNet[6]提供的层次结构之上,是视觉研究界可用的最大的清洁图像数据集。目前,此数据集的12个子集共有320万个清晰注释的图像,分为5247类,并且平均每个同义词集合收集了600多个图像。
Freesound Dataset(FSD)[7]:FSD是一个基于AudioSet Ontology[8]中自由声音内容开发出来的新的音频数据集。由于经过了人工标注,FSD数据较为准确。数据集中的音频数據共80类,涵盖了不同的主题:如吉他和其他乐器、呼吸声、人类声音、机动车辆(道路)和各种家庭声音等。它包括共4970条约10.5h的音频,每个音频时长从0.3~30s不等。
Yahoo Flickr Creative Commons 100M (YFCC100M)[8]:YFCC100M数据集是迄今为止发布的最大的公共多媒体集合,包括1亿个媒体对象,其中约9920万个对象是照片,80万个是视频。此数据集同时提供一系列相关的元数据,如标注、时间跨度和位置等。YFCC的音频使用自动启发式标注,会带来大量的标注噪声,这也是其在实验中作为带噪声训练的原因。视频中共有19815条长约80h的音频,每个音频时长从1~15s不等。
2.2 数据预处理
在进行数据预处理时,输入的是采样率为44.1kHz的音频文件。由于每个音频文件的时长不一,且可能包含部分无意义无声(或低分贝噪声)时间,因此分四步进行数据预处理:剔除无声部分、统一音频长度、数据转换和正则化处理。
2.2.1 剔除无声部分
根据分贝情况剔除音频中的无声数据,阈值设为60dB。
2.2.2 统一音频长度
统一所有音频数据的长度。在该文中设置为5s,对于大于5s的音频,截取其中一段;对于小于5s的音频,重复堆叠该段音频直到长度为5s。
2.2.3 数据转换
将一维音频数据转为二维的梅尔频谱图数据。视觉领域的预训练模型,由于处理对象是二维的图像或三维的视频数据,往往使用二维或三维卷积神经网络。而原始音频信息是一维的连续变化信号,不能直接作为在视觉领域预训练模型的输入。通常的做法是将一维的音频信息转为二维的梅尔频谱,即通过短时傅里叶变换将时域信号转为频域信号,取平方值得到能量谱,经过梅尔滤波后获得一段一维音频数据对应的一张二维梅尔频谱图像。通过这种方法将音频分类问题转化为图像分类问题。
2.2.4 正则化处理
将第三步中得到的128波段的梅尔频谱图进行均值为0、方差为1的正则化处理,并复制到3个通道中。
图1描述了音频数据从输入到模型输出的整体流程。
2.3 数据增强
数据增强是一种在数据集量级较小的情况下防止训练过拟合的有效方法,在计算机视觉领域中常用随机旋转/裁剪、水平/竖直翻转、加入随机噪声、图像亮度/色彩变化等方式。由于数据预处理转换完的频谱图像的特殊性,不能完全照搬视觉中的数据增强方法,本次实验采用了以下两大类数据增强方法。
2.3.1 经典图像类增强方法
水平翻转、随机裁剪、随机背景噪声、高斯模糊、随机水平(时间维度上)平移和拉伸、随机图像掩码。
2.3.2 样本混淆
训练时,在一个批次样本中随机选取两个属于不同类别的样本数据,按一定概率进行数据和标签的混淆,如公式(1)和(2)所示。
2.4 模型
此次实验选取了VGG16[9]、VGG19[9]、Xception[10]、DenseNet121[11]、DenseNet169[11]、DenseNet201[11]、InceptionV3[12]和NASNetLarge[13]作为训练模型,分别按照以下5种方式训练。为了保证实验结果的可重复和可对比,均使用FSD的20%数据作为验证集,并固定划分数据的随机种子。
迁移YFCC100M预训练模型,在YFCC100M数据上训练出一个最优模型作为预训练模型,并使用该模型的结构和参数作为80%的FSD数据上训练的初始化参数。
2.5 实验结果
每个模型采用Adam优化器,初始学习率为1e-4,损失函数为交叉熵。每一次完成所有样本的迭代后,模型在验证集上进行损失函数评估,当损失在连续5次没有下降时,将学习率降为初始的0.5倍。此外,为了保障模型得到充分训练并避免过拟合,训练过程使用早停策略,当验证集上的损失在连续15次完整数据集迭代均没有下降时,模型训练过程自动停止。
评价指标与DCASE2019挑战赛一致,采用类别加权的类别排序平均精度(label-weighted label-ranking average precision,lwlrap)。lwlrap测量了对每个测试片段,模型给出的标签排序列表的平均精度。类别排序平均精度(lrap)的计算公式如公式(3)所示[14],lwlrap是每类标签的lrap的平均值。
章节2.4中每个模型和实验方法对应的结果如表1所示。由于模型训练和数据增强部分会有一定的随机性,每个模型都以多次训练取最好评估结果的方式进行。
2.6 结果分析
通过分析表1数据可以得到以下结论。
(1)使用在ImageNet上预训练的模型作为初始化能取得更好的效果(FSD_no对比FSD_pre,FSD_YFCC_no对比FSD_YFCC_pre),尽管肉眼看来,梅尔频谱图和ImageNet图像的特征差别很大,但实验依然证明了跨领域的迁移学习效果显著。
(2)目标领域由于其问题、数据和源领域存在一定差异,源领域的模型效果和目标领域的最终效果并没有必然联系(ImageNet上准确率对比FSD_no/FSD_pre/FSD_YFCC_no/FSD_YFCC_pre),在ImageNet上表现好的NASNetLarge和Xception模型,无论是迁移网络结构,或者是迁移结构和模型参数,均不能保证目标领域的效果。
(3)对比FSD_pre和FSD_YFCC可发现,使用同领域相似数据分布的数据集进行预训练,其效果比ImageNet上的预训练效果更差,原因有两个:一是YFCC数据量较ImageNet小得多;二是YFCC中存在标注噪声会影响预训练效果。
3 结语
该实验系统验证了从图像分类到音频分类的跨领域迁移的学习效果。分析实验结果可知,通过大量正确运用视觉任务数据预训练模型,不仅能解决计算机视觉领域本身的问题,还能够在很大程度上辅助解决语音领域的问题,特别是在任务标注数据有限的情况下。
当然,迁移学习也有前提,即迁移学习的两个领域要有共通点(语音的波形图需经过傅里叶变换转换为频谱图,从而与图像领域相连),因为如果源域和目标域的相似度不够,便无法迁移;另外,目标域也需一定量的标注数据,并且标注数据必须清洁准确。
总之,该文的实验结论能够为跨领域迁移学习的方法提供启发,也证明了跨领域迁移学习方法能够为更多领域的成功应用提供帮助。
参考文献
[1] Jia Deng,Wei Dong,Richard Socher,et al.Imagenet: A large-scale hierarchical image database[A].2009 IEEE Computer Society conference on computer vision and pattern recognition[C].2009.
[2] Kornblith,Simon, Jonathon Shlens,Quoc V.Le.Do better imagenet models transfer better?[A].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition[C].2019.
[3] De ZhiWang,Lilun Zhang,Changchun Bao,et al.Weakly supervised CRNN system for sound event detection with large-scale unlabeled in-domain data[EB/OL].https://www.arxiv.org/abs/1811.00301?context=cs.
[4] Xu,K,Zhu,B,Wang,D,et al.Nudt Solution for Audio Tagging Task of Dcase 2018 Challenge. DCASE2018 Challenge,1-3[Z].2019-08-01.
[5] DCASE2019 Challenge[EB/OL].https://www.dcase.community/challenge2019/.
[6] Miller,George A.WordNet:An electronic lexical database[M].MIT press,1998.
[7] Jort F.Gemmeke,Paniel P.W,Ellis,Dyian Freedman,et al. "Audio set: An ontology and human-labeled dataset for audio events[A].2017 IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP)[C].2017.
[8] Bart Thomee,Benjamin Elizalde,David Ayman Shamma,et al.YFCC100M: The new data in multimedia research[J].Communications of the ACM,2016,59(2):64-73.
[9] Simonyan, Karen, Andrew Zisserman.Very deep convolutional networks for large-scale image recognition[Z].2014.
[10] Chollet, Fran?ois.Xception: Deep learning with depthwise separable convolutions[A].Proceedings in IEEE conference on computer vision and pattern recognition(CVPR)[C].2017.
[11] Gao Huang,Zhuang Liu,Kilian Weinberger.Densely connected convolutional networks[A].Proceedings of the IEEE conference on computer vision and pattern recognition[C].2017.
[12] C.Szegedy,V.Vanhoucke,S.Ioffe,et al.Rethinking the inception architecture for computer vision.[Z].2015.
[13] Zoph, Barret.Learning transferable architectures for scalable image recognition[A].Proceedings of the IEEE conference on computer vision and pattern recognition[C].2018.
[14] 3.3.Metrics and Scoring:quantifying the quality of predictions[EB/OL].ttps://www.scikit-learn.org/stable/modules/model_evaluation.html#label-ranking-average-precision.
[15] 部分模型ImageNet分類准确率[EB/OL].https://www.keras.io/applications/.