我的编程空间,编程开发者的网络收藏夹
学习永远不晚
位置:首页-资讯-运维

人工智能的训练速度

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

人工智能的训练速度

训练速度远超3D CNN,提速3倍!Transformer。新一代人工智能的发展需要脑科学、神经科学、认知心理学、信息科学等相关学科的实验科学家和理论科学家的共同努力,寻找人工智能的突破点,同时必须要以严谨的态度进行科学研究,让人工智能学科走在正确、健康的发展道路上。

Facebook AI推出了全新的视频理解架构TimeSformer,这也是第一个完全基于Transformer的视频架构。视频剪辑上限可达几分钟,远远超过当下最好的3D CNN,且成本更低。

人工智能的训练速度

Facebook AI推出了全新的视频理解架构TimeSformer,这也是第一个完全基于Transformer的视频架构。视频剪辑上限可达几分钟,远远超过当下最好的3D CNN,且成本更低。

TimeSformer即Time-Space Transformer,这是第一个完全基于Transformer的视频架构,近年来已经成为许多自然语言处理(NLP)应用程序的主要方法,包括机器翻译和通用语言理解。

TimeSformer 在几个难度系数比较高的动作识别基准上获得了最好的效果,包括 Kinetics-400动作识别数据集。此外,与现代3D 卷积神经网络(CNN)相比,TimeSformer 的训练速度提高了大约3倍,推理所需计算量不到原来的十分之一。这是支持需要实时或按需处理视频的应用程序的重要一步。

此外,TimeSformer具有可伸缩性,可以用来训练更长的视频剪辑中的更大模型。这使得人工智能系统可以理解视频中更复杂的人类行为,例如涉及多个原子步骤的活动(修理汽车,准备食物等)。许多需要理解复杂人类行为的人工智能应用程序都能从中获益。

TimeSformer 与先进的3D 卷积神经网络在 Kinetics-400(左)和 Kinetics-600(右)动作识别基准上的视频分类精度。TimeSformer在两个数据集上都实现了最高的准确度。

分时空注意力

传统的视频分类模型利用3D 卷积滤波器。虽然这些滤波器在捕捉局部时空区域内的短期模式方面有效,但是它们不能对超出其接受域的时空依赖关系进行建模。

然而,TimeSformer完全建立在Transformer使用的自注意机制之上,这使得捕获整个视频的时空依赖性成为可能。

为了将Transformer应用于视频,TimeSformer将输入视频解释为从单个帧中提取的图像块的时空序列。这种格式类似于NLP中使用的格式,即Transformer将句子视为从单个单词计算出来的特征向量序列。

正如NLP Transformer通过将每个单词与句子中的所有其他单词进行比较来推断其含义一样,这一模型通过将每个patch与视频中的其他patch进行明确的比较来捕捉每个patch的语义。这使得捕获相邻patch之间的短期依赖以及远距离patch之间的长期相关成为可能。

传统的3D卷积神经网络由于需要在视频的所有时空位置上使用大量的滤波器,所以计算成本也很高。

TimeSformer 通过1)将视频分解成一小组不重叠的patch,2)应用一种自注意的形式,避免对所有patch进行详尽的比较,从而保持了较低的计算成本。我们称这种方案为「分时空注意力」。这个想法是依次应用时间注意力和空间注意力。

当应用时间注意力时,每个patch(例如,下图中蓝色正方形)仅与其他帧中同一空间位置的补丁(绿色的正方形)进行比较。如果视频包含 t 帧,则只对每个patch进行 t次时间的比较。

当应用空间注意力时,每个patch仅与同一框架内的patch(红色补丁)进行比较。因此,如果 n 是每一帧中的patch数,分时空注意力在每个patch中只能执行(t + n)次比较,而联合时空注意力穷举法则需要(t * n)次比较。此外,该研究发现分时空注意不仅比联合时空注意更有效率,而且更准确。

TimeSformer 具有可伸缩性,可以在非常长的剪辑上运行(例如,跨越102秒时间范围的96帧序列) ,以便执行超长时间范围的建模。这与目前的3D CNN有很大不同,后者仅限于处理最多几秒的片段,而且是识别长时间活动的关键要求。


例如,看一段演示如何制作法式吐司的视频。人工智能模型一次分析几秒钟可能会识别一些原子动作(例如,打鸡蛋或者把牛奶倒进碗里)。但是对每个个体行为进行分类并不足以对复杂的活动进行分类(许多食谱都涉及到打蛋)。TimeSformer 可以在更长的时间范围内分析视频,揭示原子动作之间的清晰的依赖关系(例如,将牛奶和打碎的鸡蛋混合)。

TimeSformer 的效率使得它能够训练高空间分辨率的模型(例如,帧高达560x560像素)和超长视频(高达96帧)。这些图表显示视频分类成本(TFLOPs)作为空间分辨率(左)和视频长度(右)的函数。通过这些图,我们可以观察到,分散的时空注意力比耗尽的时空联合注意力节省了大量的计算能力,特别是当应用于大帧或长视频时。在实际应用中,当空间帧分辨率达到448像素或帧数增加到32帧时,联合时空注意会导致 GPU 内存溢出,有效地使其不适用于大帧或长视频。

该图提供了 TimeSformer 学习的自注意力热度图的可视化。第一行显示原始帧,第二行根据自注意力对视频分类的重要性(被认为不重要的像素变暗)对每个像素的颜色进行加权。如图所示,TimeSformer 学习关注视频中的相关区域,以执行复杂的时空推理。

TimeSformer视频剪辑上限可达几分钟

为了训练视频理解模型,现在最好的3D CNN只能使用几秒钟长的视频片段。有了TimeSformer,我们可以训练更长的视频剪辑,最长可达几分钟。这可能极大地促进机器理解视频中复杂的长动作的研究,这对于许多理解研究人类行为的人工智能应用程序来说是重要的一步。

此外,TimeSformer的低推理成本是支持未来实时视频处理应用的一个重要步骤,如 AR/VR,或基于可穿戴摄像机拍摄的视频智能助手。TimeSformer降低了成本,这将使更多的研究人员能够解决视频分析问题,从而加快这一领域的进展。

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

人工智能的训练速度

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

人工智能的训练速度

编程学习网:Facebook AI推出了全新的视频理解架构TimeSformer,这也是第一个完全基于Transformer的视频架构。视频剪辑上限可达几分钟,远远超过当下最好的3D CNN,且成本更低。
人工智能的训练速度

人工智能进行研究的速度比人类快1000倍

编程学习网:研究人员已经开发出了他们所说的突破性机器人实验室助手,能够像人类一样在实验室里移动并进行科学实验。
人工智能进行研究的速度比人类快1000倍

人工智能印度国防军的可能性

编程学习网:在监视和后勤等复杂战场中,物联网有多种可能成为战力倍增器。随着世界向工业4.0迈进,到2022年,全球物联网支出预计将达到1.2万亿美元。与人工智能和区块链等其他颠覆性技术紧密结合的物联网已经开始展示出如何提高效率和效力,从而为采用这些技术的公司带来竞争优势。
人工智能印度国防军的可能性

人工智能走向深度学习

编程学习网:据介绍,人工智能比较大的挑战之一是识别度不高、准确度不高,提高准确度就要提高模型的规模和精细度,提高线下训练的频次,这需要更强的计算力。
人工智能走向深度学习

人工智能加速获取价值的有效方法

编程学习网:最近,话题转向企业如何才能更快,更有效地获取和利用物联网计划的见解。物联网和人工智能的结合为企业实现这一预期成果提供了途径。实际上,这两种技术是相辅相成的,应该紧密相连。
人工智能加速获取价值的有效方法

人工智能可信度的七个常见错误

编程学习网:机器学习是一个伟大的工具,它正在改变我们的世界。在许多优秀的应用中,机器学习(尤其是深度学习)比传统方法优越得多。从用于图像分类的Alex-Net到用于图像分割的U-Net,人们看到了计算机视觉和医学图像处理领域的巨大成功。
人工智能可信度的七个常见错误

人工智能的工作

编程学习网:据澎湃新闻报道,世界经济论坛的相关报告显示,在未来的2025年,机器将会替代8000万个工作岗位,这在一定程度上已经是一个大趋势。然而在现在很多地方依旧依靠人力劳动的前提下,机器以及人工智能的相关技术,必然会一定程度上挤占人类原本的职位。那么,没了工作后,普通人下一步又该怎么办?
人工智能的工作

人工智能的深度学习为什么叫做深度学习吗?

编程学习网: 一个深度学习网络有很多层,当我们将一张图像送进网络,首先在最底层,好像我们看到的是像素一类的东西,一层层往上,网络层“看到了”边缘、轮廓、部件等等,网络的深度,带来的是逐层抽象的能力,所以有了深度的网络有了学习的能力,和宽度所带来的比较单纯的计算力的上升,深度当然是更符合学习型模型的结构。
人工智能的深度学习为什么叫做深度学习吗?

人工智能的春天

编程学习网:一家公司选择的经济发展道路往往是依照时代背景来决定的,在不同的经济时局之下选择正确的经济策略, 往往可以成为公司逆转腾飞的转折点。
人工智能的春天

人工智能如何彻底改变员工培训

编程学习网:人工智能和机器学习正越来越多地被用来帮助组织提升技能策略、确定技能组合、推荐学习路径、提供在职培训,甚至帮助确定为获得技能而付出的资金和资源。
人工智能如何彻底改变员工培训

人工智能的AutoML取人代之?

编程学习网: 过去几年,越来越多科技巨头推出了自己的 AutoML 服务,市场对于此类服务的关注度与认可度也一直在不断提升
人工智能的AutoML取人代之?

人工智能机器人的崛起

编程学习网:算法时代已经到来。谷歌、亚马逊和苹果等IT巨头开发的自助机器人震惊了世界,这些机器人可以回答用户疑问,解决从简单到复杂的问题,并在需要时为用户提供必要的建议。
人工智能机器人的崛起

人工智能深度学习与数据科学

编程学习网:如果您刚开始接触人工智能或数据科学,那么很有可能一遍又一遍地碰到这四个术语。在本文中,您将发现它们的基本含义,并了解它们之间的区别。
人工智能深度学习与数据科学

人工智能最重要的技能

编程学习网:实践表明,如果人工智能(AI)部署不当将会带来许多风险,因此企业需要探索员工拥有的最重要技能。
人工智能最重要的技能

人工智能的人脸识别技术

编程学习网:此前,AI换脸软件ZAO的一夜爆红,不仅让其服务器陷入了“满负荷至崩溃运行“的危机之中,也将用户的安全与隐私暴露在种种危险地带。
人工智能的人脸识别技术

人工智能的NASA火星无人机

编程学习网:「毅力号」火星车搭载的「机智号」火星无人机,在无需人为干预的情况下,灵活实现火星表面的降落、起飞与航行。
人工智能的NASA火星无人机

人工智能的5种AI工作技能

编程学习网:尽管经历了艰难的一年,但世界各地的许多公司已经开始加速使用人工智能(AI)来最大化业务的方法。
人工智能的5种AI工作技能

人工智能2020年搞深度学习需要什么样的GPU

编程学习网:在 lambda 最新的一篇显卡横向测评文章中,开发者们探讨了哪些 GPU 可以再不出现内存错误的情况下训练模型。当然,还有这些 GPU 的 AI 性能。
人工智能2020年搞深度学习需要什么样的GPU

人工智能设计的未来

编程学习网:人工智能正在全面颠覆行业。在医疗保健领域,人工智能技术在诊断疾病方面表现优于人类。特别是在发现恶性肿瘤方面。在市场营销中,人工智能分析用户的行为模式,使企业可以通过高度个性化的内容来定位客户。
人工智能设计的未来

人工智能的360入局人脸识别

编程学习网:眼下市场上的不少人脸识别产品都处于“裸奔”状态,技术安全和个人隐私安全等问题应当得到重视。随着智能手机、火车站开始规模化应用人脸识别技术,大家对于这一新科技想必都不会陌生。
人工智能的360入局人脸识别

编程热搜

  • 人工智能你要知道的那些事
    编程学习网:早在1g时代我们只能接打电话。2g时代可以打电话发短信,玩早期的qq,但网络十分不稳定。3g时代带给我们很大的改变就是宽带上网,视频通话,看视频,听歌玩游戏。那时的人们认为4g无用,认为不会有什么改变,但当4g出来时我们才发现这是一次质的飞跃。
    人工智能你要知道的那些事
  • 人工智能无人机管制到底有多难?
    编程学习网:近日,一段“重庆网红列车遭无人机撞击逼停”的视频,在网络热传。
    人工智能无人机管制到底有多难?
  • 人工智能与人类
    欢迎各位阅读本篇,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本篇文章讲述了人工智能与人类,编程学习网教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!
    人工智能与人类
  • 两小时 Elasticsearch 性能优化,直接把慢查询干团灭了……
    公共集群的机器负载分布不均衡的问题,业务的查询和流量不可控等各种各样的问题,要节省机器资源就一定会面对这种各种各样的问题,除非土豪式做法,每个业务都拥有自己的机器资源,这里面有很多很多颇具技术挑战的事情。
    两小时 Elasticsearch 性能优化,直接把慢查询干团灭了……
  • 关于OpenStack的架构详细讲解
    欢迎各位阅读本篇文章,OpenStack是一个开源的云计算管理平台项目,由几个主要的组件组合起来完成具体工作。本篇文章讲述了关于OpenStack的架构详细讲解,编程学习网教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!
    关于OpenStack的架构详细讲解
  • AI &神经网络
    欢迎各位阅读本篇,本篇文章讲述了AI &神经网络,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。神经网络内容丰富,反映了当前国内外该领域的最新研究成果和动向,编程学习网教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!
    AI &神经网络
  • 人工智能对于网络安全的优缺点
    编程学习网:如今,产生的数据比以往任何时候都要多。由于数据分析工具的发展,各行各业的组织都更加重视大数据的收集和存储。
    人工智能对于网络安全的优缺点
  • Bash 初学者系列 7:bash 中的条件语句(if else)
    今天我们介绍一下如何在 bash 中使用条件语句。
    Bash 初学者系列 7:bash 中的条件语句(if else)
  • 人工智能机器学习的重要趋势是什么?
    编程学习网:在竞争日益激烈的技术市场中,从高科技初创公司到全球跨国公司都将人工智能视为关键竞争优势。但是,人工智能行业发展如此之快,以至于很难跟踪最新的研究突破和成就,甚至很难应用科学成果来实现业务成果。
    人工智能机器学习的重要趋势是什么?
  • 人工智能为什么会觉得Matplotlib用起来困难?
    编程学习网:Matplotlib是一个流行的Python库,可以很容易地用于创建数据可视化。
    人工智能为什么会觉得Matplotlib用起来困难?

目录