位置：首页-资讯-运维

人工智能3项前沿检测技术解读

编程小助手

2024-04-23 23:16

短信预约 -IT技能 免费直播动态提醒

微软计算机视觉创研论坛首日干货：3项前沿检测技术解读.人工智能的定义可以分为两部分，即“ 人工”和“ 智能”。“人工”比较好理解，争议性也不大。有时我们会要考虑什么是人力所能及制造的，或者人自身的智能程度有没有高到可以创造人工智能的地步，等等。但总的来说，“人工系统”就是通常意义下的人工系统。

5月15日消息，昨日上午9点，微软亚洲研究院创研论坛CVPR 2020论文分享会线上开幕。

人工智能3项前沿检测技术解读_人工智能_安全_计算机_编程学习网

5月15日消息，昨日上午9点，微软亚洲研究院创研论坛CVPR 2020论文分享会线上开幕。会议有19位计算机视觉（CV）领域学者分享最新研究成果，讲解内容涉及检测、多模态、底层视觉、图像生成、机器学习5大方向。

14日上午，3位计算机视觉检测方向的研究员做了分享，分别介绍了先进的人脸识别技术、动作检测技术和目标检测技术。智东西对这3项先进技术进行解读。

微软亚洲研究院创研论坛CVPR 2020论文分享会是计算机视觉（CV）领域最重要的会议之一，本届会议共分享近20项CV领域前沿技术。

一、X射线检测算法识别假图像，准确率可达95.4%

Deepfake技术的滥用轻则造成虚假信息问题，重则会引起金融安全风险、侵权问题等。一些Deepfake图像可以做到以假乱真，人类肉眼难以判断出来。这种情况下，人脸识别技术可以帮我们辨别。

现有的人脸识别工具大多针对某种特定Deepfake技术训练，用假人脸图像作为输入。就是说，人脸识别技术只能识别出特定方法合成的假图像。一旦Deepfake技术进化或换用其他Deepfake技术，人脸识别模型就可能失效。

微软亚洲研究院研究员鲍建敏讲解了人脸X射线识别技术（Face X-ray），这种技术用真实人脸图像进行训练。即使Deepfake技术进化，X射线人脸检测算法也能保持较高的准确性。

制作一张假图像的方法是把两张图像叠加，即把一张修改过的人脸图像（前景）合成到背景图像（后景）中。研究人员注意到，由于每张图像拍摄或制作过程中用到不同的硬件（传感器、透镜等）或软件（压缩、合成算法等），前景图像和后景图像的特征不可能完全相同，因此人脸图像和背景图像之间存在一个“边界”。

Face X-ray技术利用了上述特征，用人脸灰度图像作为输入。Face X-ray模型可以识别出不同灰度图像之间的差异，这样不仅可以显示出人脸图像是真实的还是伪造的，还能确定虚假图像混合边界的位置。

▲左起第一张为真实图像，其他均为假图像，Face X-ray模型检测出了假图像混合边界位置。

研究人员对比了Face X-ray模型与之前人脸识别工具的性能。结果显示，模型检测出来的假脸帧数比之前的二分类方法更多，识别准确率最高可达95.4%。

鲍建敏指出，算法还有一定局限性。比如，Face X-ray主要用人脸图像数据库FF++进行训练。FF++中大部分图像都是正脸图像，所以模型识别侧脸的准确性较低。

二、DAGM模型：区分动作与上下文，准确识别出动作

微软亚洲研究院研究员戴琦讲解了一种动作检测技术，该技术可以从视频中识别出动作。据了解，目前的动作检测技术可以分为全监督方法和弱监督方法。

全监督方法的动作检测模型需要在训练过程中需要对动作间隔进行时间注释，十分昂贵和费时。因此现有的动作检测工具多采用弱监督动作定位（WSAL，weakly-supervised action localization）技术。

WSAL技术有两种类型，第一类建立一个从上到下的管道，学习一个视频级别的分类器，通过检查生成的时间分类动作地图（TACM，temporal class activation map）来获得帧注意力（frame attention）。第二类是从下到上的，直接从原始数据中预测时间注意力（temporal attention），然后从视频级监控的视频分类中优化任务。

两种方法都依赖于视频级别的分类模型，这会导致动作和上下文混淆（action-context confusion）的问题。比如，在一段跳远的视频中，跳远动作（action）仅包括接近、跳跃、着陆3个阶段，但是工作检测模型常把准备和结束阶段（context）也选中。

研究人员认为，解决这一问题的关键在于找到动作和上下文之间的区别。他们用判别性注意力模型（Discriminative Attention Modeling）和生成性注意力模型（GAM，Generative Attention Modeling）优化检测工具，提出了判别性和生成性注意力模型（DAGM，Discriminative and Gener-ative Attention Modeling）。

研究人员对比了DAGM模型与其他弱监督动作工具的性能。结果显示，DAGM模型的性能较好，平均精度最高可达41。