华中科技大学 HUST
人工智能与自动化学院 AIA
图像信息智能处理全国重点实验室
图像与视觉学习研究组 HAIV Lab
个人项目:人体动作
数据受限学习(Learning w/ Restricted Data)
1.加数据不是提升性能唯一办法
提出特征归一化理论:从理论本质上解释了为什么对验证网络(Siamese network,亦称孪生网络)最后的内积层的特征和权重向量进行归一化会提升分类性能。
在不增加数据集规模的前提下,是否通过也能改进模型配置提升性能。在训练深度神经网络的实验中,我们观察到,对倒数第二层特征和权重向量做归一化,会带来很稳定的性能提升,于探讨了四个问题:1)为什么特征归一化对Softmax损失函数尤为奏效?2)为什么直接优化余弦相似度会导致Softmax损失函数不收敛?3)如果必须用Softmax,应该怎么优化?4)应该用什么其它的损失函数以及为什么? 我们从理论本质上做出了回答 1) 我们证明了一个命题来解释Softmax的特性;2)证明了Softmax损失函数的下界来解释优化余弦相似度的难度;3)提出使用Scaled版本的Softmax损失函数;4)通过引入一个agent的概念, 我们证明了一个命题来解释为什么使用contrastive和triplet损失函数就可以优化。
F. Wang, X. Xiang, J. Cheng, A. L. Yuille: “NormFace: L2 Hypersphere Embedding for Face Verification”. In ACM Multimedia 2017.
2.降低模型复杂度
提出信号解耦模型:提出了基于视频帧之间的主成分恢复和残差的稀疏编码的视觉信号解耦。
人脸的动作单元受到表情、身份、姿态等多因素影响。深度学习可以将这些因素解耦。但是,有限的表情单元、强度标记的数据使得直接训练一个深度学习模型变得困难。解决这个问题,我们有三个思路。首先,线性模型对训练数据的数量要求不多。那线性模型能不能解耦因素呢?我们提出了基于了…模型,取得了与深度学习模型可比的性能。
X. Xiang and T. D. Tran: “Linear Disentangled Representation Learning for Facial Actions”. IEEE Trans. Circuits and System for Video Tech. (IEEE T-CSVT), vol.28, iss.12, 2018.
X. Xiang et. al.: “Hierarchical Sparse and Collaborative Low-Rank Representation for Emotion Recognition”. In IEEE ICASSP 2015.
X. Xiang et. al.: “Sparse Unsupervised Clustering with Mixture Observations for Video Summarization”. In IEEE AIPR 2017.
X. Xiang and T. D. Tran: “Recursively Measured Action Units”. In ICPR 2016 workshops.
3.在充沛标记域预训练
4.通过对抗学习生成带标记数据
提出网络正则化方法:通过正则化人脸验证网络的损失函数,实现在小样本上训练人脸表情量化的网络。
从数据广泛的预训练领域,例如人脸身份识别,进行微调再训练可以缓解此问题。我们通过正则化人脸验证网络的损失函数,实现在带表情强度标记的小样本上训练识别人脸表情强度的网络,并取得远好于之前方法的性能。
F. Wang, X. Xiang* et. al.: “Regularizing Face Verification Nets for Pain Intensity Regression”. In IEEE ICIP 2017.
提出对抗训练方法:自带对抗学习数据增强的图像分割网络。
通过对抗学习生成更多的带标记的数据,是更直接的解决办法。通过给已带标记的图像学习出一组扰动图像,我们提出自带对抗学习数据增强的图像分割网络。
W. Zhu and X. Xiang et. al.: “Adversarial Deep Structured Nets for Mass Segmentation from Mammograms”. In IEEE ISBI 2018.
6.先验可被建模,不需从数据里学
5.改进采样方式
提出图结构时序表征模型。
J. Huang, X. Xiang et. al.: “Long-Short Graph Memory Network for Skeleton-based Action Recognition”. In IEEE WACV 2020.
提出分段时空表征模型:提出了基于时序分割的视频的三维深度表征。
对于时序数据比如视频,采样方式影响着样本数目。比如动作识别,整个动作的视频作为一个样本,那样本数会有限;当然,如果每帧作为一个样本,标记继承视频的,这样样本数足够,但是特征的语义信息与标记并不能确保紧密关联。我提出了…, 将动作分解为子动作,将子动作作为样本,既增加了样本数,也保留了视觉语义信息,还降低了三维卷积网络的训练复杂度。
X. Xiang et. al.: “S3D: Stacking Segmental P3D for Action Quality Assessment”. In IEEE ICIP 2018.
7. 恢复、生成、合成、增强、仿真
实时三维重建:多相机体视网络剪枝,实现Inference加速。
X. Xiang, Z. Wang, S. Lao, B. Zhang: Pruning Multi-view Stereo Net for Efficient 3D Reconstruction. ISPRS Journal of Photogrammetry and Remote Sensing, 2020
8. 非监督学习
利用先验(例如视觉问题中的几何或光度学上的约束)来改进损失函数(例如最小化几何或光度学的重构误差)。
未来着力方向
小样本学习 Few-shot learning
元学习 Meta learning
弱监督 Weak supervision
半监督 Semi-supervision
非监督学习 Un-supervised learning
迁移学习 Transfer learning
增量学习 Incremental learning
连续学习 Continual learning
终身学习 Lifelong learning
长尾识别 Long-tailed recognition
知识蒸馏 Knowledge distillation
对抗学习 Adversarial learning
强化学习 Reinforcement learning