TensorFlow中超大的30个机器学习数据集

2024-12-11 19:11

短信预约 -IT技能 免费直播动态提醒

largest tensorflow datasets for machine learning

由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台，适用于初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习指南，以及开放数据集的语料库。为了帮助你找到所需的训练数据，本文将简要介绍一些用于机器学习的最大的TensorFlow数据集。我们已经将下面的列表分为图像、视频、音频和文本数据集。

图像数据集

CelebA: 最大的公开的人脸图像数据集之一，名人脸属性数据集(CelebA)包含超过20万名名人的图像。

[[333813]]

celebrity face images dataset

每幅图像包含5个面部特征点和40个二值属性标注。

Downsampled Imagenet：该数据集用于密度估计和生成建模任务。它包含130多万幅物体、场景、车辆、人物等图像。这些图像有两种分辨率：32 x 32和64 x 64。

Lsun – Lsun是一个大型图像数据集，用于帮助训练模型理解场景。数据集包含超过900万张图像，这些图像被划分为场景类别，例如卧室、教室和餐厅。

Bigearthnet – Bigearthnet是另一个大型数据集，包含来自Sentinel-2卫星的航空图像。每幅图像覆盖1.2 km x 1.2 km的地面。每张图像包括43个不平衡标签。

Places 365 – 顾名思义，Places 365包含了180多万张不同地方或场景的图片。其中包括办公室、码头和小屋。Places 365是用于场景识别任务的最大数据集之一。

Quickdraw Bitmap – Quickdraw数据集是Quickdraw玩家社区绘制的图像集合。它包含了500万幅横跨345个类别的画作。这个版本的Quickdraw数据集包括28 x 28灰度格式的图像。

SVHN Cropped – 来自斯坦福大学的街景门牌号(SVHN)是一个TensorFlow数据集，用来训练数字识别算法。它包含600,000个真实世界的图像数据样本，这些数据被裁剪成32 x 32像素。

VGGFace2 – 最大的人脸图像数据集之一，VGGFace2包含从谷歌搜索引擎下载的图像。这些脸因年龄、姿势和种族而不同。每个受试者平均有362张图像。

COCO – 由谷歌，FAIR, Caltech和更多的合作者制作，COCO是世界上最大的标记图像数据集之一。它用于目标检测、分割和图像描述任务。

Coco TensorFlow Dataset

数据集包含330,000张图像，其中200,000张已被标注。在这些图像中有分布在80个类别中的150万个物体实例。

Open Images Challenge 2019 – 包含大约900万幅图像，这个数据集是在线可用的最大的标注图像数据集。包含图像级标签、物体边框和物体分割掩码，以及视觉关系。

Open Images V4 – 这个数据集是上面提到的开放图像数据集的另一个迭代。V4有600个不同的物体类包含1460万个边框。边界框是由人工标注人员手动绘制的。

AFLW2K3D – 该数据集包含2000个面部图像，所有标注了3D人脸特征点。它是用来评估三维人脸特征点检测模型的。

视频数据集

UCF101 – 来自中佛罗里达大学的UCF101是一个用来训练动作识别模型的视频数据集。该数据集有13,320个跨越101个动作类别的视频。

BAIR Robot Pushing – 来自伯克利人工智能研究中心的BAIR Robot Pushing包含了44000个机器人推动运动的示例视频。

Moving MNIST – 该数据集是MNIST基准数据集的一个变体，Moving MNIST包含10,000个视频。

EMNIST – 扩展MNIST包含从原始MNIST数据集转换为28 x 28像素格式的数字。

音频数据集

CREMA-D – CREMA-D是为情感识别任务而创建的，包括声音情感表达。这个数据集包含7,442个音频片段，由91个不同年龄、种族和性别的演员配音。

Librispeech – Librispeech是一个简单的音频数据集，它包含1000小时的英语语音，这些语音来自LibriVox项目的有声读物。它被用于训练声学模型和语言模型。

Libritts – 这个数据集包含大约585小时的英语演讲，是在谷歌Brain team成员的协助下准备的。Libritts最初是为文本到语音(TTS)研究设计的，但可以用于各种语音识别任务。

TED-LIUM – TED- lium是一个包含超过110小时的英语TED演讲的数据集。所有谈话都已抄录下来。

VoxCeleb – VoxCeleb是一个用于扬声器识别任务的大型音频数据集，包含来自1,251名扬声器的超过150,000个音频样本。

文本数据集

C4 (Common Crawl’s Web Crawl Corpus) – Common抓取是web页面数据的开放源码存储库。它有40多种语言，涵盖了7年的数据。

Civil Comments – 这个数据集包含了来自50个英语新闻网站的超过180万份公众评论。

IRC Disentanglement – 这个TensorFlow数据集包含了来自Ubuntu IRC频道的77000多条评论。每个样本的元数据包括消息ID和时间戳。

Lm1b – 这个数据集被称为语言模型基准测试，它包含10亿个单词。它最初是用来衡量统计语言建模的进展。

SNLI – 斯坦福自然语言推理数据集是一个包含570,000对人类书写的句子的语料库。所有对都经过人工标记，以达到类别平衡。

e-SNLI – 这个数据集是上面提到的SNLI的扩展，它包含了原始数据集的570,000对句子，分类为：entailment，contradiction和neutral。

MultiNLI – 以SNLI数据集为模型，MultiNLI包括433,000对句子对，它们都标注了entailment信息。

Wiki40b – 这个大规模数据集包括来自40种不同语言的维基百科文章的文本。数据已经被清洗，非内容部分以及结构化对象已经被删除。

Yelp Polarity Reviews – 这个数据集包含59.8万个高度两极分化的Yelp评论。它们是从2015年Yelp数据集挑战赛的数据中提取出来的。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

TensorFlow 数据机器学习

来源：AI公园内容投诉

TensorFlow中超大的30个机器学习数据集

下载Word文档到电脑，方便收藏和打印～

下载Word文档

猜你喜欢

TensorFlow中超大的30个机器学习数据集

由谷歌Brain的研究人员创建的TensorFlow是机器学习和数据科学领域最大的开源数据库之一。它是一个端到端的平台，适用于初学者和有经验的数据科学家。

TensorFlow 数据机器学习2024-12-11

TensorFlow非常出色的30个机器学习数据集

TensorFlow是由谷歌大脑的研究人员创建、最大的机器学习和数据科学的开源数据库之一。

TensorFlow 数据机器学习2024-12-11

如何在机器学习中处理大型数据集

如何在机器学习中处理大型数据集,不是大数据…。数据集是所有共享一个公共属性的实例的集合。机器学习模型通常将包含一些不同的数据集，每个数据集用于履行系统中的各种角色。

机器学习技术人工智能2024-12-11

机器学习和计算机视觉的20大图像数据集

计算机视觉任务包括图像采集、处理和分析。图像数据以不同的形式呈现，如视频序列、多机位成像，或是来自医学扫描仪的多维数据。本文就将介绍一些适用于机器学习训练的数据集。

机器学习计算机视觉图像数据集2024-12-03

在 Python中处理大型机器学习数据集的简单方法

本文将使用 .csv 格式的文件来演示 python 的各种操作，其他格式如数组、文本文件等也是如此。

机器学习 Python 数据集2024-12-01

清单管理？面向机器学习中的数据集

虽然数据的可信来源已经在数据库领域得到了广泛的研究，但是在机器学习领域却不是这样的，记录数据集的创建和使用并没有得到足够的重视，目前还没有标准化的机器学习数据集记录流程。

清单管理数据集2024-12-02

用「最好的语言」PHP，做一个机器学习数据集

如果想构建一个类似人类的 AI 象棋游戏，首要问题就是创建一个数据库，并且该数据库需要尽可能多的包含象棋大师玩游戏的数据。

机器学习数据集 PHP2024-12-03

Oracle中如何实现大数据分析和机器学习模型集成

在Oracle中实现大数据分析和机器学习模型集成可以通过以下步骤实现：使用Oracle Data Mining（ODM）：ODM是Oracle数据库中的数据挖掘工具，可以帮助用户在数据库中进行机器学习建模和数据挖掘。用户可以使用ODM中提供

2024-04-09

Oracle的大数据分析和机器学习模型集成Oracle提供全面的解决方案，集成大数据分析和机器学习模型，提供高级数据洞察和预测分析。通过OracleBigDataAppliance和Spark进行大数据处理，OracleDataMining和OracleMachineLearning提供机器学习建模。集成流程包括数据准备、处理、模型训练、部署和集成。集成带来了增强的数据洞察、预测建模、自动化决策和个性化体验等好处。示例包括欺诈检测、预测性维护、客户细分和供应链优化。Oracle的解决方案释放了大数据的潜力

2024-04-09

编程热搜

Python 学习之路 - Python
一、安装Python34Windows在Python官网（https://www.python.org/downloads/）下载安装包并安装。Python的默认安装路径是：C:\Python34配置环境变量：【右键计算机】--》【属性】-
chatgpt的中文全称是什么
chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，并协助人类完成一系列
C/C++中extern函数使用详解
C/C++可变参数的使用
可变参数的使用方法远远不止以下几种，不过在C,C++中使用可变参数时要小心，在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少，否则会产生访问越界，运气不好的话还会导致程序崩溃
css样式文件该放在哪里
php中数组下标必须是连续的吗
Python 3 教程
Python 3 教程 Python 的 3.0 版本，常被称为 Python 3000，或简称 Py3k。相对于 Python 的早期版本，这是一个较大的升级。为了不带入过多的累赘，Python 3.0 在设计的时候没有考虑向下兼容。 Python
Python pip包管理
一、前言在Python中，安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具： easy_install 和 pip ，目前官方推荐使用 pip。
ubuntu如何重新编译内核
改善Java代码之慎用java动态编译