我的编程空间,编程开发者的网络收藏夹
学习永远不晚

TensorFlow中超大的30个机器学习数据集

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

TensorFlow中超大的30个机器学习数据集

largest tensorflow datasets for machine learning

由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台,适用于初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习指南,以及开放数据集的语料库。为了帮助你找到所需的训练数据,本文将简要介绍一些用于机器学习的最大的TensorFlow数据集。我们已经将下面的列表分为图像、视频、音频和文本数据集。

图像数据集

CelebA: 最大的公开的人脸图像数据集之一,名人脸属性数据集(CelebA)包含超过20万名名人的图像。

[[333813]]

celebrity face images dataset

每幅图像包含5个面部特征点和40个二值属性标注。

Downsampled Imagenet:该数据集用于密度估计和生成建模任务。它包含130多万幅物体、场景、车辆、人物等图像。这些图像有两种分辨率:32 x 32和64 x 64。

Lsun – Lsun是一个大型图像数据集,用于帮助训练模型理解场景。数据集包含超过900万张图像,这些图像被划分为场景类别,例如卧室、教室和餐厅。

Bigearthnet – Bigearthnet是另一个大型数据集,包含来自Sentinel-2卫星的航空图像。每幅图像覆盖1.2 km x 1.2 km的地面。每张图像包括43个不平衡标签。

Places 365 – 顾名思义,Places 365包含了180多万张不同地方或场景的图片。其中包括办公室、码头和小屋。Places 365是用于场景识别任务的最大数据集之一。

Quickdraw Bitmap – Quickdraw数据集是Quickdraw玩家社区绘制的图像集合。它包含了500万幅横跨345个类别的画作。这个版本的Quickdraw数据集包括28 x 28灰度格式的图像。

SVHN Cropped – 来自斯坦福大学的街景门牌号(SVHN)是一个TensorFlow数据集,用来训练数字识别算法。它包含600,000个真实世界的图像数据样本,这些数据被裁剪成32 x 32像素。

VGGFace2 – 最大的人脸图像数据集之一,VGGFace2包含从谷歌搜索引擎下载的图像。这些脸因年龄、姿势和种族而不同。每个受试者平均有362张图像。

COCO – 由谷歌,FAIR, Caltech和更多的合作者制作,COCO是世界上最大的标记图像数据集之一。它用于目标检测、分割和图像描述任务。

Coco TensorFlow Dataset

数据集包含330,000张图像,其中200,000张已被标注。在这些图像中有分布在80个类别中的150万个物体实例。

Open Images Challenge 2019 – 包含大约900万幅图像,这个数据集是在线可用的最大的标注图像数据集。包含图像级标签、物体边框和物体分割掩码,以及视觉关系。

Open Images V4 – 这个数据集是上面提到的开放图像数据集的另一个迭代。V4有600个不同的物体类包含1460万个边框。边界框是由人工标注人员手动绘制的。

AFLW2K3D – 该数据集包含2000个面部图像,所有标注了3D人脸特征点。它是用来评估三维人脸特征点检测模型的。

视频数据集

UCF101 – 来自中佛罗里达大学的UCF101是一个用来训练动作识别模型的视频数据集。该数据集有13,320个跨越101个动作类别的视频。

BAIR Robot Pushing – 来自伯克利人工智能研究中心的BAIR Robot Pushing包含了44000个机器人推动运动的示例视频。

Moving MNIST – 该数据集是MNIST基准数据集的一个变体,Moving MNIST包含10,000个视频。

EMNIST – 扩展MNIST包含从原始MNIST数据集转换为28 x 28像素格式的数字。

音频数据集

CREMA-D – CREMA-D是为情感识别任务而创建的,包括声音情感表达。这个数据集包含7,442个音频片段,由91个不同年龄、种族和性别的演员配音。

Librispeech – Librispeech是一个简单的音频数据集,它包含1000小时的英语语音,这些语音来自LibriVox项目的有声读物。它被用于训练声学模型和语言模型。

Libritts – 这个数据集包含大约585小时的英语演讲,是在谷歌Brain team成员的协助下准备的。Libritts最初是为文本到语音(TTS)研究设计的,但可以用于各种语音识别任务。

TED-LIUM – TED- lium是一个包含超过110小时的英语TED演讲的数据集。所有谈话都已抄录下来。

VoxCeleb – VoxCeleb是一个用于扬声器识别任务的大型音频数据集,包含来自1,251名扬声器的超过150,000个音频样本。

文本数据集

C4 (Common Crawl’s Web Crawl Corpus) – Common抓取是web页面数据的开放源码存储库。它有40多种语言,涵盖了7年的数据。

Civil Comments – 这个数据集包含了来自50个英语新闻网站的超过180万份公众评论。

IRC Disentanglement – 这个TensorFlow数据集包含了来自Ubuntu IRC频道的77000多条评论。每个样本的元数据包括消息ID和时间戳。

Lm1b – 这个数据集被称为语言模型基准测试,它包含10亿个单词。它最初是用来衡量统计语言建模的进展。

SNLI – 斯坦福自然语言推理数据集是一个包含570,000对人类书写的句子的语料库。所有对都经过人工标记,以达到类别平衡。

e-SNLI – 这个数据集是上面提到的SNLI的扩展,它包含了原始数据集的570,000对句子,分类为:entailment,contradiction和neutral。

MultiNLI – 以SNLI数据集为模型,MultiNLI包括433,000对句子对,它们都标注了entailment信息。

Wiki40b – 这个大规模数据集包括来自40种不同语言的维基百科文章的文本。数据已经被清洗,非内容部分以及结构化对象已经被删除。

Yelp Polarity Reviews – 这个数据集包含59.8万个高度两极分化的Yelp评论。它们是从2015年Yelp数据集挑战赛的数据中提取出来的。

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

TensorFlow中超大的30个机器学习数据集

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

TensorFlow中超大的30个机器学习数据集

由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台,适用于初学者和有经验的数据科学家。

TensorFlow非常出色的30个机器学习数据集

TensorFlow是由谷歌大脑的研究人员创建、最大的机器学习和数据科学的开源数据库之一。

如何在机器学习中处理大型数据集

如何在机器学习中处理大型数据集,不是大数据…。数据集是所有共享一个公共属性的实例的集合。 机器学习模型通常将包含一些不同的数据集,每个数据集用于履行系统中的各种角色。

机器学习和计算机视觉的20大图像数据集

计算机视觉任务包括图像采集、处理和分析。图像数据以不同的形式呈现,如视频序列、多机位成像,或是来自医学扫描仪的多维数据。本文就将介绍一些适用于机器学习训练的数据集。

在 Python中处理大型机器学习数据集的简单方法

本文将使用 .csv 格式的文件来演示 python 的各种操作,其他格式如数组、文本文件等也是如此。

清单管理?面向机器学习中的数据集

虽然数据的可信来源已经在数据库领域得到了广泛的研究,但是在机器学习领域却不是这样的,记录数据集的创建和使用并没有得到足够的重视,目前还没有标准化的机器学习数据集记录流程。

用「最好的语言」PHP,做一个机器学习数据集

如果想构建一个类似人类的 AI 象棋游戏,首要问题就是创建一个数据库,并且该数据库需要尽可能多的包含象棋大师玩游戏的数据。

Oracle中如何实现大数据分析和机器学习模型集成

在Oracle中实现大数据分析和机器学习模型集成可以通过以下步骤实现:使用Oracle Data Mining(ODM):ODM是Oracle数据库中的数据挖掘工具,可以帮助用户在数据库中进行机器学习建模和数据挖掘。用户可以使用ODM中提供
Oracle中如何实现大数据分析和机器学习模型集成
2024-04-09

Oracle中如何实现大数据分析和机器学习模型集成

Oracle的大数据分析和机器学习模型集成Oracle提供全面的解决方案,集成大数据分析和机器学习模型,提供高级数据洞察和预测分析。通过OracleBigDataAppliance和Spark进行大数据处理,OracleDataMining和OracleMachineLearning提供机器学习建模。集成流程包括数据准备、处理、模型训练、部署和集成。集成带来了增强的数据洞察、预测建模、自动化决策和个性化体验等好处。示例包括欺诈检测、预测性维护、客户细分和供应链优化。Oracle的解决方案释放了大数据的潜力
Oracle中如何实现大数据分析和机器学习模型集成
2024-04-09

支持机器学习的8个数据仓库

对于规模非常大的数据集来说,理想的情况是在数据已经存在的地方建立模型,这样就不需要导出大量的数据。有一些数据仓库在一定程度上支持这一点。而随之而来的问题是:哪些数据仓库支持机器学习?它们是如何做到的?以下按字母排序对这些数据仓库进行分析和阐

机器学习中处理不平衡数据集的五种方法

不平衡数据集是指在分类任务中,不同类别的样本数量差异显著的数据集,通常表现为少数类样本远少于多数类样本。这样的数据集在现实生活中很常见,比如欺诈检测、医疗诊断、故障预测等场景。

使用C++构建机器学习模型:大型数据集的处理技巧

通过利用 c++++ 的优势,我们可以构建机器学习模型来处理大型数据集:优化内存管理:使用智能指针(如 unique_ptr、shared_ptr)使用内存池并行化处理:多线程(使用 std::thread 库)openmp 并行编程标准c
使用C++构建机器学习模型:大型数据集的处理技巧
2024-05-12

15个超级棒的外文免费数据集,学习数据分析不愁没有数据用了!

Academic Torrents是一个比较年轻的网站,旨在共享来自科学论文的数据集。因为它是一个较新的站点,所以很难判断最常见的数据集类型是什么样的。目前,它有大量缺乏上下文的有趣数据集。

大数据、统计学与机器学习是怎样的关系

统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。

机器学习工程师与数据科学家的大斗法

随着人工智能的发展,市场上出现了一些新的工作岗位。但对于这些新兴领域的新兴职业,我们很多人难以分辨其间的不同之处,尤其是机器学习工程师和数据科学家的作用有何区别,这很令人困惑。

从机器学习中受益最大的四个行业

在这个方向上,欧盟正迈着坚定的步伐向前迈进。2020年2月,欧盟委员会发布了《人工智能白皮书》。正如欧盟主席所说,所有欧盟国家的联合战略旨在未来十年每年吸引超过200亿欧元投资人工智能。这一数字预计将通过私营部门的贡献和国家的共同融资来实现

20个面向数据科学家的自动机器学习库

AutoML是指自动机器学习。它说明了如何在组织和教育水平上自动化机器学习的端到端过程。

机器学习面临的三个关键数据挑战

数据质量、稀疏性和完整性直接影响最终模型的准确性,并且是当今机器学习面临的一些最大挑战。

小数据在机器学习中的重要性

通过评估人工智能领域当前和未来的进展,小数据方法正在科学研究领域取得更多进展。

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录