人工智能的训练速度
宣传部部长
2024-04-24 00:02
训练速度远超3D CNN,提速3倍!Transformer。新一代人工智能的发展需要脑科学、神经科学、认知心理学、信息科学等相关学科的实验科学家和理论科学家的共同努力,寻找人工智能的突破点,同时必须要以严谨的态度进行科学研究,让人工智能学科走在正确、健康的发展道路上。
Facebook AI推出了全新的视频理解架构TimeSformer,这也是第一个完全基于Transformer的视频架构。视频剪辑上限可达几分钟,远远超过当下最好的3D CNN,且成本更低。
Facebook AI推出了全新的视频理解架构TimeSformer,这也是第一个完全基于Transformer的视频架构。视频剪辑上限可达几分钟,远远超过当下最好的3D CNN,且成本更低。
TimeSformer即Time-Space Transformer,这是第一个完全基于Transformer的视频架构,近年来已经成为许多自然语言处理(NLP)应用程序的主要方法,包括机器翻译和通用语言理解。
TimeSformer 在几个难度系数比较高的动作识别基准上获得了最好的效果,包括 Kinetics-400动作识别数据集。此外,与现代3D 卷积神经网络(CNN)相比,TimeSformer 的训练速度提高了大约3倍,推理所需计算量不到原来的十分之一。这是支持需要实时或按需处理视频的应用程序的重要一步。
此外,TimeSformer具有可伸缩性,可以用来训练更长的视频剪辑中的更大模型。这使得人工智能系统可以理解视频中更复杂的人类行为,例如涉及多个原子步骤的活动(修理汽车,准备食物等)。许多需要理解复杂人类行为的人工智能应用程序都能从中获益。
TimeSformer 与先进的3D 卷积神经网络在 Kinetics-400(左)和 Kinetics-600(右)动作识别基准上的视频分类精度。TimeSformer在两个数据集上都实现了最高的准确度。
分时空注意力
传统的视频分类模型利用3D 卷积滤波器。虽然这些滤波器在捕捉局部时空区域内的短期模式方面有效,但是它们不能对超出其接受域的时空依赖关系进行建模。
然而,TimeSformer完全建立在Transformer使用的自注意机制之上,这使得捕获整个视频的时空依赖性成为可能。
为了将Transformer应用于视频,TimeSformer将输入视频解释为从单个帧中提取的图像块的时空序列。这种格式类似于NLP中使用的格式,即Transformer将句子视为从单个单词计算出来的特征向量序列。
正如NLP Transformer通过将每个单词与句子中的所有其他单词进行比较来推断其含义一样,这一模型通过将每个patch与视频中的其他patch进行明确的比较来捕捉每个patch的语义。这使得捕获相邻patch之间的短期依赖以及远距离patch之间的长期相关成为可能。
传统的3D卷积神经网络由于需要在视频的所有时空位置上使用大量的滤波器,所以计算成本也很高。
TimeSformer 通过1)将视频分解成一小组不重叠的patch,2)应用一种自注意的形式,避免对所有patch进行详尽的比较,从而保持了较低的计算成本。我们称这种方案为「分时空注意力」。这个想法是依次应用时间注意力和空间注意力。
当应用时间注意力时,每个patch(例如,下图中蓝色正方形)仅与其他帧中同一空间位置的补丁(绿色的正方形)进行比较。如果视频包含 t 帧,则只对每个patch进行 t次时间的比较。
当应用空间注意力时,每个patch仅与同一框架内的patch(红色补丁)进行比较。因此,如果 n 是每一帧中的patch数,分时空注意力在每个patch中只能执行(t + n)次比较,而联合时空注意力穷举法则需要(t * n)次比较。此外,该研究发现分时空注意不仅比联合时空注意更有效率,而且更准确。
TimeSformer 具有可伸缩性,可以在非常长的剪辑上运行(例如,跨越102秒时间范围的96帧序列) ,以便执行超长时间范围的建模。这与目前的3D CNN有很大不同,后者仅限于处理最多几秒的片段,而且是识别长时间活动的关键要求。
例如,看一段演示如何制作法式吐司的视频。人工智能模型一次分析几秒钟可能会识别一些原子动作(例如,打鸡蛋或者把牛奶倒进碗里)。但是对每个个体行为进行分类并不足以对复杂的活动进行分类(许多食谱都涉及到打蛋)。TimeSformer 可以在更长的时间范围内分析视频,揭示原子动作之间的清晰的依赖关系(例如,将牛奶和打碎的鸡蛋混合)。
TimeSformer 的效率使得它能够训练高空间分辨率的模型(例如,帧高达560x560像素)和超长视频(高达96帧)。这些图表显示视频分类成本(TFLOPs)作为空间分辨率(左)和视频长度(右)的函数。通过这些图,我们可以观察到,分散的时空注意力比耗尽的时空联合注意力节省了大量的计算能力,特别是当应用于大帧或长视频时。在实际应用中,当空间帧分辨率达到448像素或帧数增加到32帧时,联合时空注意会导致 GPU 内存溢出,有效地使其不适用于大帧或长视频。
该图提供了 TimeSformer 学习的自注意力热度图的可视化。第一行显示原始帧,第二行根据自注意力对视频分类的重要性(被认为不重要的像素变暗)对每个像素的颜色进行加权。如图所示,TimeSformer 学习关注视频中的相关区域,以执行复杂的时空推理。
TimeSformer视频剪辑上限可达几分钟
为了训练视频理解模型,现在最好的3D CNN只能使用几秒钟长的视频片段。有了TimeSformer,我们可以训练更长的视频剪辑,最长可达几分钟。这可能极大地促进机器理解视频中复杂的长动作的研究,这对于许多理解研究人类行为的人工智能应用程序来说是重要的一步。
此外,TimeSformer的低推理成本是支持未来实时视频处理应用的一个重要步骤,如 AR/VR,或基于可穿戴摄像机拍摄的视频智能助手。TimeSformer降低了成本,这将使更多的研究人员能够解决视频分析问题,从而加快这一领域的进展。
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341
人工智能的训练速度
下载Word文档到电脑,方便收藏和打印~
猜你喜欢
人工智能的训练速度
人工智能进行研究的速度比人类快1000倍
人工智能印度国防军的可能性
人工智能走向深度学习
人工智能加速获取价值的有效方法
人工智能可信度的七个常见错误
人工智能的工作
人工智能的深度学习为什么叫做深度学习吗?
人工智能的春天
人工智能如何彻底改变员工培训
人工智能的AutoML取人代之?
人工智能机器人的崛起
人工智能深度学习与数据科学
人工智能最重要的技能
人工智能的人脸识别技术
人工智能的NASA火星无人机
人工智能的5种AI工作技能
人工智能2020年搞深度学习需要什么样的GPU
人工智能设计的未来
人工智能的360入局人脸识别
编程热搜
人工智能你要知道的那些事
编程学习网:早在1g时代我们只能接打电话。2g时代可以打电话发短信,玩早期的qq,但网络十分不稳定。3g时代带给我们很大的改变就是宽带上网,视频通话,看视频,听歌玩游戏。那时的人们认为4g无用,认为不会有什么改变,但当4g出来时我们才发现这是一次质的飞跃。人工智能无人机管制到底有多难?
编程学习网:近日,一段“重庆网红列车遭无人机撞击逼停”的视频,在网络热传。人工智能与人类
欢迎各位阅读本篇,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本篇文章讲述了人工智能与人类,编程学习网教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!两小时 Elasticsearch 性能优化,直接把慢查询干团灭了……
公共集群的机器负载分布不均衡的问题,业务的查询和流量不可控等各种各样的问题,要节省机器资源就一定会面对这种各种各样的问题,除非土豪式做法,每个业务都拥有自己的机器资源,这里面有很多很多颇具技术挑战的事情。关于OpenStack的架构详细讲解
欢迎各位阅读本篇文章,OpenStack是一个开源的云计算管理平台项目,由几个主要的组件组合起来完成具体工作。本篇文章讲述了关于OpenStack的架构详细讲解,编程学习网教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!AI &神经网络
欢迎各位阅读本篇,本篇文章讲述了AI &神经网络,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。神经网络内容丰富,反映了当前国内外该领域的最新研究成果和动向,编程学习网教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!人工智能对于网络安全的优缺点
编程学习网:如今,产生的数据比以往任何时候都要多。由于数据分析工具的发展,各行各业的组织都更加重视大数据的收集和存储。Bash 初学者系列 7:bash 中的条件语句(if else)
今天我们介绍一下如何在 bash 中使用条件语句。人工智能机器学习的重要趋势是什么?
编程学习网:在竞争日益激烈的技术市场中,从高科技初创公司到全球跨国公司都将人工智能视为关键竞争优势。但是,人工智能行业发展如此之快,以至于很难跟踪最新的研究突破和成就,甚至很难应用科学成果来实现业务成果。人工智能为什么会觉得Matplotlib用起来困难?
编程学习网:Matplotlib是一个流行的Python库,可以很容易地用于创建数据可视化。
编程资源站
- 资料下载
- 历年试题
目录
反馈
我要
反馈