我的编程空间,编程开发者的网络收藏夹
学习永远不晚

TensorFlow非常出色的30个机器学习数据集

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

TensorFlow非常出色的30个机器学习数据集

TensorFlow是由谷歌大脑的研究人员创建、最大的机器学习和数据科学的开源数据库之一。它是一个端到端平台,适合完全没有经验的初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习教程以及一整套公开数据集。为了帮助你找到所需的训练数据,本文将简单介绍一些TensorFlow中用于机器学习的大型数据集。我们将以下数据集的列表分为图像、视频、音频和文本。

TensorFlow图像数据集

 CelebA:明星脸属性数据集(CelebA)是最大的公开可用的人脸图像数据集,其中包含200,000多个名人图像。

[[337423]]

每个图像包括5个面部标注和40个二进制属性标注。

 Downsampling Imagenet:该数据集是为密度估计和生成性建模任务而建立的。它包括了130多万张物体、场景、车辆、人物等图像。这些图像有两种分辨率规格:32×32和64×64。

 Lsun—Lsun是一个大规模的图像数据集,创建该数据集是为了帮助训练模型进行场景理解。该数据集包含超过900万张图像,按场景类别划分,如卧室、教室和餐厅。

 Bigearthnet—Bigearthnet是另一个大规模数据集,它包含来自Sentinel-2卫星的航空图像。每张图像覆盖了1.2公里×1.2公里的一片地面。该数据集中有43个类别不平衡的标签。 

 Places 365—顾名思义,Places 365包含180多万张不同地方或场景的图片。其中一些类别包括办公室、码头和别墅。Places 365是用于场景识别任务的最大数据集之一。

 Quickdraw位图—Quickdraw数据集是由Quickdraw玩家社区绘制的图像集合。它包含500万张图纸,跨越345个类别。这个版本的Quickdraw数据集包括28×28的灰度图像。

 SVHN Cropped—街景房号(SVHN)是为训练数字识别算法,由斯坦福大学建立的TensorFlow数据集。它包含60万个真实世界的、被裁剪成32×32像素的图像数据实例。

 VGGFace2—最大的人脸图像数据集之一,VGGFace2包含从谷歌搜索引擎下载的图像。数据集中的人脸在年龄、姿势和种族上都有所不同。每个类别平均有362张图像。

 COCO—由谷歌、FAIR、加州理工学院等合作者制作,是世界上最大的标签图像数据集之一。它是为物体检测、分割和图像字幕任务而建立的。

通过cocodataset.org

数据集包含330,000张图像,其中20万张有标签。在所有图像中,共包含了80个类别的150万个对象实例。

 Open Images Challenge 2019—包含约900万张图像,该数据集是网上最大的、标注的图像数据集之一。这些图像包含图像级标签、对象边界框和对象分割掩码,以及他们之间的视觉关系。

 Open Images V4—这个数据集是上述Open Images数据集的另一个迭代。V4版本中包含了600个不同物体类别的1460万个边界框。这些边界框是由人类标注者手动绘制的。

 AFLW2K3D—该数据集包含2000张面部图像,均有3D面部真实标注。它的创建是为了评估3D面部标注检测模型。

视频数据集

 UCF101—来自中央佛罗里达大学,UCF101是为训练动作识别模型而建立的视频数据集。该数据集有101个动作类别的13320个视频,。

 BAIR Robot Pushing—来自伯克利人工智能研究,BAIR Robot Pushing包含44000个机器人推的动作的示例视频。

 Moving MNIST—这个数据集是MNIST基准数据集的一个变体。Moving MNIST包含10,000个视频。

每个视频都显示了在64×64大小的帧内2个手写数字的移动过程。

 EMNIST—扩展的MNIST数据集,包含了原始MNIST数据集转换成28 x 28像素大小的图片。 

TensorFlow音频数据集

 CREMA-D—为情感识别任务而创建,CREMA-D由语音情感表达组成。 该数据集包含由年龄,种族和性别不同的91位演员表达的7,442个音频剪辑。

 Librispeech—Librispeech是一个简单的音频数据集,它包含1000小时的英语语音,这些语音来自LibriVox项目的有声读物。它被用于训练声学模型和语言模型。

 Libritts—这个数据集包含约585小时的英语语音,是在Google Brain团队成员的协助下准备的。Libritts最初是为Text-to-speech(TTS)研究设计的,但可以用于各种语音识别任务。

 TED-LIUM—TED-LIUM是一个包含110多个小时的英语TED演讲的数据集。 所有的演讲内容都已被转录。 

 VoxCeleb—VoxCeleb是为演讲者识别任务而建立的大型音频数据集,包含来自1,251位演讲者的150,000多个音频样本。

文本数据集

 C4(Common Crawl's Web Crawl Corpus)—Common Crawl是一个开放源码的网页数据库。它包含了超过40种语言、跨越7年的数据。

 Civil Comments—这个数据集是由来自50个英文新闻网站的180多万条公众评论构成的。

 IRC Disentanglement—这个TensorFlow数据集包括来自Ubuntu IRC频道的77000多条评论。每个样本的元数据包括消息ID和时间戳。

 Lm1b—被称为语言模型基准,这个数据集包含10亿个单词。它最初是为了衡量统计语言建模的进展。

 SNLI—斯坦福自然语言推理数据集是一个包含57万个人类写作句子对的语料库。所有的句对都经过人工标注,类别是均衡的。

e-SNLI—这个数据集是上面提到的SNLI的扩展,它包含了原始数据集的57万个句子对,分类为:包含、矛盾和中性。

 MultiNLI—仿照SNLI数据集,MultiNLI包含433,000个句子对,都有尾部信息注释。

 Wiki40b—这个大规模的数据集包括40种不同语言的维基百科文章。这些数据已经被清理,其中的非内容部分以及结构化对象已经被去掉。

 Yelp极性评论—这个数据集包含598,000条高度极性的Yelp评论。它们是从2015年Yelp数据集挑战赛中的数据提取出来的。

虽然上述数据集是机器学习中最大、最广泛使用的一些TensorFlow数据集,但TensorFlow库是庞大的,并在不断扩展。请访问TensorFlow网站,了解更多关于该平台如何帮助您构建自己的模型的信息。

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

TensorFlow非常出色的30个机器学习数据集

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

TensorFlow非常出色的30个机器学习数据集

TensorFlow是由谷歌大脑的研究人员创建、最大的机器学习和数据科学的开源数据库之一。

TensorFlow中超大的30个机器学习数据集

由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台,适用于初学者和有经验的数据科学家。

时间序列机器学习数据集的非常规拆分技术

对于大多数工作来说,简单的3-way就足够了。在现实生产中,拆分方式往往需要更复杂的方法来确保泛化问题。这些拆分更加复杂,因为它们源自实际数据,而不是普通拆分方法所基于的数据结构。这篇文章试图讲解一些在机器学习开发中拆分数据的非常规方法,以

用「最好的语言」PHP,做一个机器学习数据集

如果想构建一个类似人类的 AI 象棋游戏,首要问题就是创建一个数据库,并且该数据库需要尽可能多的包含象棋大师玩游戏的数据。

出色代码成就机器学习:数据科学的软件工程技巧和优秀实践

如果你对数据科学感兴趣,那么可能对这个工作流程很熟悉:通过运行Jupyter notebook开启一个项目,然后开始编写python代码、运行复杂的分析甚至训练模型。

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录