人工智能3项前沿检测技术解读
编程小助手
2024-04-23 23:16
微软计算机视觉创研论坛首日干货:3项前沿检测技术解读.人工智能的定义可以分为两部分,即“ 人工”和“ 智能”。“人工”比较好理解,争议性也不大。有时我们会要考虑什么是人力所能及制造的,或者人自身的智能程度有没有高到可以创造人工智能的地步,等等。但总的来说,“人工系统”就是通常意义下的人工系统。
5月15日消息,昨日上午9点,微软亚洲研究院创研论坛CVPR 2020论文分享会线上开幕。
5月15日消息,昨日上午9点,微软亚洲研究院创研论坛CVPR 2020论文分享会线上开幕。会议有19位计算机视觉(CV)领域学者分享最新研究成果,讲解内容涉及检测、多模态、底层视觉、图像生成、机器学习5大方向。
14日上午,3位计算机视觉检测方向的研究员做了分享,分别介绍了先进的人脸识别技术、动作检测技术和目标检测技术。智东西对这3项先进技术进行解读。
微软亚洲研究院创研论坛CVPR 2020论文分享会是计算机视觉(CV)领域最重要的会议之一,本届会议共分享近20项CV领域前沿技术。
一、X射线检测算法识别假图像,准确率可达95.4%
Deepfake技术的滥用轻则造成虚假信息问题,重则会引起金融安全风险、侵权问题等。一些Deepfake图像可以做到以假乱真,人类肉眼难以判断出来。这种情况下,人脸识别技术可以帮我们辨别。
现有的人脸识别工具大多针对某种特定Deepfake技术训练,用假人脸图像作为输入。就是说,人脸识别技术只能识别出特定方法合成的假图像。一旦Deepfake技术进化或换用其他Deepfake技术,人脸识别模型就可能失效。
微软亚洲研究院研究员鲍建敏讲解了人脸X射线识别技术(Face X-ray),这种技术用真实人脸图像进行训练。即使Deepfake技术进化,X射线人脸检测算法也能保持较高的准确性。
制作一张假图像的方法是把两张图像叠加,即把一张修改过的人脸图像(前景)合成到背景图像(后景)中。研究人员注意到,由于每张图像拍摄或制作过程中用到不同的硬件(传感器、透镜等)或软件(压缩、合成算法等),前景图像和后景图像的特征不可能完全相同,因此人脸图像和背景图像之间存在一个“边界”。
Face X-ray技术利用了上述特征,用人脸灰度图像作为输入。Face X-ray模型可以识别出不同灰度图像之间的差异,这样不仅可以显示出人脸图像是真实的还是伪造的,还能确定虚假图像混合边界的位置。
![](https://static.528045.com/202404/23/dwwwaixnggd.jpg)
▲左起第一张为真实图像,其他均为假图像,Face X-ray模型检测出了假图像混合边界位置。
研究人员对比了Face X-ray模型与之前人脸识别工具的性能。结果显示,模型检测出来的假脸帧数比之前的二分类方法更多,识别准确率最高可达95.4%。
![](https://static.528045.com/202404/23/wpyp0zwz2rn.jpg)
鲍建敏指出,算法还有一定局限性。比如,Face X-ray主要用人脸图像数据库FF++进行训练。FF++中大部分图像都是正脸图像,所以模型识别侧脸的准确性较低。
二、DAGM模型:区分动作与上下文,准确识别出动作
微软亚洲研究院研究员戴琦讲解了一种动作检测技术,该技术可以从视频中识别出动作。据了解,目前的动作检测技术可以分为全监督方法和弱监督方法。
全监督方法的动作检测模型需要在训练过程中需要对动作间隔进行时间注释,十分昂贵和费时。因此现有的动作检测工具多采用弱监督动作定位(WSAL,weakly-supervised action localization)技术。
WSAL技术有两种类型,第一类建立一个从上到下的管道,学习一个视频级别的分类器,通过检查生成的时间分类动作地图(TACM,temporal class activation map)来获得帧注意力(frame attention)。第二类是从下到上的,直接从原始数据中预测时间注意力(temporal attention),然后从视频级监控的视频分类中优化任务。
两种方法都依赖于视频级别的分类模型,这会导致动作和上下文混淆(action-context confusion)的问题。比如,在一段跳远的视频中,跳远动作(action)仅包括接近、跳跃、着陆3个阶段,但是工作检测模型常把准备和结束阶段(context)也选中。
![](https://static.528045.com/202404/23/aksyjtzfzqe.jpg)
研究人员认为,解决这一问题的关键在于找到动作和上下文之间的区别。他们用判别性注意力模型(Discriminative Attention Modeling)和生成性注意力模型(GAM,Generative Attention Modeling)优化检测工具,提出了判别性和生成性注意力模型(DAGM,Discriminative and Gener-ative Attention Modeling)。
研究人员对比了DAGM模型与其他弱监督动作工具的性能。结果显示,DAGM模型的性能较好,平均精度最高可达41。
![](https://static.528045.com/202404/23/u0lnwlvcvhf.jpg)
三、TSD算法:把检测工具精度提高3~5%
目标识别算法一般从两个维度检测物体:分类(Classification)和回归(Localization)。前者指识别物体的属性,后者指定位物体的位置。
传统检测方法通常一起学习分类和回归,共享物体潜在存在的区域框(Proposal)和特征提取器(Sibling head)。
这种检测方法的局限性是最终输出的图片框的分类置信度和检测框的准确度不一致,识别准确率较低。
研究人员发现,这是因为分类任务和回归任务存在差别:分类任务更关注语义信息丰富的地方,回归任务更关注物体的边界。因此,共享物体潜在存在的区域框(Proposal)和特征提取器(Sibling head)会对检测结果造成影响。
![](https://www.kokojia.com/Public/images/upload/article/2020-05/5ebfbee335fbc.jpg)
商汤科技X-Lab研究员宋广录介绍了基于任务间空间自适应解耦(TSD,task-aware spatial disentanglement)检测算法,即在检测器头部应用特定设计的偏移量生成策略以及联合训练优化渐进损失。结果显示,搭配TSD算法的检测工具的检测精度能提高3~5%。
结语:CV研究面临语义、鲁棒性的挑战
三位研究人员分享结束后,美国罗彻斯特大学罗杰波教授、加州大学伯克利分校马毅教授、加州大学圣地亚哥分校屠卓文教授、美国加州大学杨明玄教授、Wormpex AI Research华刚教授进行了圆桌论坛。这5位教授都曾担任过CVPR会议主席。
在题目选择、写作技巧方面,5位教授对CV研究者给出许多建议,比如,他们认为研究者不必盲目追求研究热点,而应该选择自己感兴趣的题目;刚刚起步的研究者可以借鉴成熟研究者的论文结构。他们强调,论文预印本网站arXiv上的论文质量良莠不齐,研究者在借鉴时应该注意甄别。
另外,5位教授指出,目前CV研究面临的两大主要挑战来自语义和鲁棒性。对语义的理解关系着模型能否完成更高级别的任务。在医疗、无人机、航空航天等领域中,CV模型的鲁棒性直接影响到安全。
因此,在之后的CV研究中,提升CV模型对语义的理解能力和鲁棒性仍是重点。
人工智能亦称智械、机器智能,指由人制造出来的机器所表现出来的智能。通常人工智能是指通过普通计算机程序来呈现人类智能的技术。通过医学、神经科学、机器人学及统计学等的进步,有些预测则认为人类的无数职业也逐渐被人工智能取代。
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
人工智能3项前沿检测技术解读
下载Word文档到电脑,方便收藏和打印~
猜你喜欢
编程热搜
人工智能你要知道的那些事
编程学习网:早在1g时代我们只能接打电话。2g时代可以打电话发短信,玩早期的qq,但网络十分不稳定。3g时代带给我们很大的改变就是宽带上网,视频通话,看视频,听歌玩游戏。那时的人们认为4g无用,认为不会有什么改变,但当4g出来时我们才发现这是一次质的飞跃。人工智能无人机管制到底有多难?
编程学习网:近日,一段“重庆网红列车遭无人机撞击逼停”的视频,在网络热传。人工智能与人类
欢迎各位阅读本篇,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本篇文章讲述了人工智能与人类,编程学习网教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!两小时 Elasticsearch 性能优化,直接把慢查询干团灭了……
公共集群的机器负载分布不均衡的问题,业务的查询和流量不可控等各种各样的问题,要节省机器资源就一定会面对这种各种各样的问题,除非土豪式做法,每个业务都拥有自己的机器资源,这里面有很多很多颇具技术挑战的事情。关于OpenStack的架构详细讲解
欢迎各位阅读本篇文章,OpenStack是一个开源的云计算管理平台项目,由几个主要的组件组合起来完成具体工作。本篇文章讲述了关于OpenStack的架构详细讲解,编程学习网教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!AI &神经网络
欢迎各位阅读本篇,本篇文章讲述了AI &神经网络,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。神经网络内容丰富,反映了当前国内外该领域的最新研究成果和动向,编程学习网教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!人工智能对于网络安全的优缺点
编程学习网:如今,产生的数据比以往任何时候都要多。由于数据分析工具的发展,各行各业的组织都更加重视大数据的收集和存储。Bash 初学者系列 7:bash 中的条件语句(if else)
今天我们介绍一下如何在 bash 中使用条件语句。人工智能机器学习的重要趋势是什么?
编程学习网:在竞争日益激烈的技术市场中,从高科技初创公司到全球跨国公司都将人工智能视为关键竞争优势。但是,人工智能行业发展如此之快,以至于很难跟踪最新的研究突破和成就,甚至很难应用科学成果来实现业务成果。人工智能为什么会觉得Matplotlib用起来困难?
编程学习网:Matplotlib是一个流行的Python库,可以很容易地用于创建数据可视化。
编程资源站
- 资料下载
- 历年试题
目录
反馈
我要
反馈