项目概览

主持项目1项，参与973项目1项、美国航空航天局项目1项、横向合作项目2项，以及作为主要技术骨干参与并完成美国国立卫生院的5年260万美元的RO1项目“手术视频指导”和飞利浦研究院合作项目“生命体征摄像机”。以飞利浦作为申请公司、申请人作为第二贡献人提出的美国专利申请“身份识别系统与方法”提出了特征匹配方法，于2018年获批，已在2019年被硅谷公司Gfycat在一项专利申请中引用。此外，独立或作为主要贡献人至少完成过6个实际运行的原型系统：智能跟踪拍摄系统、用于步态识别的运动物体分割的交互程序、医院辅助跟踪机器人、基于视觉的眼科手术打分系统、理疗病人痛苦程度自动打分系统、基于鼻腔手术内窥视频的三维重建系统等。还完成了至少3个实际运行的模块算法：视频纹理分割的算法、用于基于视觉的手术机器人的图像配准算法、遥感山火监测算法等。

HAIV音近High-Five,
意即成功、取得成果
(Achievements)

因为HAIV研究组的研究风格是小而精——追求深入细节而精力有限、追求创新点而资源有限、追求简洁而需要在复杂彻底解决问题和简洁有效解决问题之间平衡，所以现阶段我们志在做出有效有力解决问题的工作，而不是打造复杂系统。当然，虽然我们自己很难取得大而全的成果，但我们会参与到AIA学院及图像信息处理与智能控制教育部重点实验室的大型项目中，做出一部分的贡献。

从理论本质上解释了为什么对验证网络最后的内积层的特征和权重向量进行归一化会提升分类性能

基于时序分割和空间定位的三维时空局部表征

该工作的提出源自人脸验证中的深度相似性度量学习：对倒数第二层特征和权重向量做归一化，会带来很稳定的性能提升，换一个数据集、目标函数或距离度量也有一样的观察。我们认为这个现象背后是有一定科学原因的，因而大胆做出假设，提出了角度空间才是问题的本质描述——如果不做归一化，相似性度量就应该在角度空间而不是欧式空间；如果做了归一化，那么在欧式空间做相似性度量没有关系。并且，申请人的工作是第一次设计了专用的归一化层，即将尺度层加入到损失函数层和内积层之间。当然，本质上这个工作并不限于人脸，而是用人脸验证来诠释，实际上也可以应用到重现识别、图像检索中，但我们还是将这个归一化理论命名为NormFace。借此申请人投在ACM Multimedia 2017上的长文的所有评审意见皆为接收，被录用为接收率不足10%的Spotlight口头报告。该文探讨了四个科学问题：1）为什么特征归一化对Softmax损失函数尤为奏效？2）为什么直接优化余弦相似度会导致Softmax损失函数不收敛？3）如果必须用Softmax损失函数，应该怎么优化？4）应该用什么其它的损失函数以及为什么？相应地，在文中我们 I）证明了一个命题来解释Softmax损失函数的特性；II）证明了Softmax损失函数的下界来解释优化余弦相似度的难度；III）提出使用scaled版本的Softmax损失函数；IV）通过引入一个agent的概念证明了一个命题来解释为什么使用contrastive和triplet损失函数就可以优化。这一系列命题的提出和证明，对于人脸识别领域的意义是给出了严谨的理论证明，启发了深度学习实践者们将各种在欧式空间的工具延用到角度空间，比如additive max-margin。NormFace被领域内的知名学者广泛引用，如美国工程院院士和ACM、IEEE、AAAS、IAPR会士Anil K. Jain，ACM、IEEE、AAAS、IAPR、AAAI会士Rama Chellappa等。例如，加拿大英属哥伦比亚大学的David Lowe教授在CVPR 2018上发表的Low-Shot Learning with Imprinted Weights里称他们的工作受到了我们提出的agent概念的启发（“Inspired by the used of embeddings as proxies or agents”）,从而沿用了scaled版本的损失函数（“we adapt a scaling factor in our model as discussed by [该文序号]”；英国帝国理工的Stefanos Zafeiriou教授在CVPR 2019上发表的Arcface里两次称他们的工作是跟随NormFace（“Following [该文序号]”）。百度搜索NormFace能得到近百条例如搜狐、腾讯、NextTech等媒体的报道或CSDN等技术博客的讲解; 甚至被直聘网作为人脸识别算法岗的招聘要求之一“熟悉常见的人脸识别框架，比如NormFace”。

一方面，我们在ACCV 2012上提出了一个称为MIL-PF的跟踪器，结合了多实例学习跟踪器和粒子滤波器跟踪器的优点，并可在一个框架内用于动态场景中分割视频中的运动物体；另一方面，我们在ICIP 2018上提出了用于动作质量评价的深度网络S3D（Segmental 3D）。它基于时序分割结果建立时序分段级的三维网络，被多篇后续工作列为这个方向的代表性工作之一。例如，美国马里兰大学的Larry Davis教授最近在论文Stacked Spatio-Temporal Graph CNN里将S3D与TSN, I3D, P3D, R(1+2)D, T3D等并列为视频表征的代表性模型；CVPR 2019上有一篇紧随S3D的论文A Multitask Learning Approach to Action Quality Assessment提及S3D逾10次，提到他们的模型没有S3D性能好（“Our C3D-AVG-STL does not perform as well S3D[该文序号]”），最佳性能相对S3D也仅涨了1个百分比。MIL-PF跟踪算法被申请人应用在松下研发的“医院辅助跟踪机器人”里；S3D也被应用在跳水比赛和手术视频打分上。

基于视频帧之间的主成分恢复和残差的稀疏编码的视觉信号解耦

我们在ICASSP 2015、2018年的IEEE Trans. CSVT里提出了一个基于矩阵分解的线性模型来分析表情视频面部动作,被商业化在飞利浦生命体征摄像机里，有一项美国专利；还被我们应用在遥感山火监测；美国Adobe研究院也应用了该技术，其主管科学家Hailin Jin在ECCV 2018发表的Towards Privacy-Preserving Visual Recognition via Adversarial Training称他们的方法与最近兴起的我们的工作相关：“Its methodology is related to the emerging research of feature disentanglement [该文序号]”。

人才培养成果

基于视频动态信息的疼痛强度估计

深度学习网络可解释性的调研