TensorFlow非常出色的30个机器学习数据集

2024-12-11 16:06

短信预约 -IT技能 免费直播动态提醒

TensorFlow是由谷歌大脑的研究人员创建、最大的机器学习和数据科学的开源数据库之一。它是一个端到端平台，适合完全没有经验的初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习教程以及一整套公开数据集。为了帮助你找到所需的训练数据，本文将简单介绍一些TensorFlow中用于机器学习的大型数据集。我们将以下数据集的列表分为图像、视频、音频和文本。

TensorFlow图像数据集

CelebA：明星脸属性数据集（CelebA）是最大的公开可用的人脸图像数据集，其中包含200,000多个名人图像。

[[337423]]

每个图像包括5个面部标注和40个二进制属性标注。

Downsampling Imagenet：该数据集是为密度估计和生成性建模任务而建立的。它包括了130多万张物体、场景、车辆、人物等图像。这些图像有两种分辨率规格：32×32和64×64。

Lsun—Lsun是一个大规模的图像数据集，创建该数据集是为了帮助训练模型进行场景理解。该数据集包含超过900万张图像，按场景类别划分，如卧室、教室和餐厅。

Bigearthnet—Bigearthnet是另一个大规模数据集，它包含来自Sentinel-2卫星的航空图像。每张图像覆盖了1.2公里×1.2公里的一片地面。该数据集中有43个类别不平衡的标签。

Places 365—顾名思义，Places 365包含180多万张不同地方或场景的图片。其中一些类别包括办公室、码头和别墅。Places 365是用于场景识别任务的最大数据集之一。

Quickdraw位图—Quickdraw数据集是由Quickdraw玩家社区绘制的图像集合。它包含500万张图纸，跨越345个类别。这个版本的Quickdraw数据集包括28×28的灰度图像。

SVHN Cropped—街景房号（SVHN）是为训练数字识别算法，由斯坦福大学建立的TensorFlow数据集。它包含60万个真实世界的、被裁剪成32×32像素的图像数据实例。

VGGFace2—最大的人脸图像数据集之一，VGGFace2包含从谷歌搜索引擎下载的图像。数据集中的人脸在年龄、姿势和种族上都有所不同。每个类别平均有362张图像。

COCO—由谷歌、FAIR、加州理工学院等合作者制作，是世界上最大的标签图像数据集之一。它是为物体检测、分割和图像字幕任务而建立的。

通过cocodataset.org

数据集包含330,000张图像，其中20万张有标签。在所有图像中，共包含了80个类别的150万个对象实例。

Open Images Challenge 2019—包含约900万张图像，该数据集是网上最大的、标注的图像数据集之一。这些图像包含图像级标签、对象边界框和对象分割掩码，以及他们之间的视觉关系。

Open Images V4—这个数据集是上述Open Images数据集的另一个迭代。V4版本中包含了600个不同物体类别的1460万个边界框。这些边界框是由人类标注者手动绘制的。

AFLW2K3D—该数据集包含2000张面部图像，均有3D面部真实标注。它的创建是为了评估3D面部标注检测模型。

视频数据集

UCF101—来自中央佛罗里达大学，UCF101是为训练动作识别模型而建立的视频数据集。该数据集有101个动作类别的13320个视频，。

BAIR Robot Pushing—来自伯克利人工智能研究，BAIR Robot Pushing包含44000个机器人推的动作的示例视频。

Moving MNIST—这个数据集是MNIST基准数据集的一个变体。Moving MNIST包含10,000个视频。

每个视频都显示了在64×64大小的帧内2个手写数字的移动过程。

EMNIST—扩展的MNIST数据集，包含了原始MNIST数据集转换成28 x 28像素大小的图片。

TensorFlow音频数据集

CREMA-D—为情感识别任务而创建，CREMA-D由语音情感表达组成。该数据集包含由年龄，种族和性别不同的91位演员表达的7,442个音频剪辑。

Librispeech—Librispeech是一个简单的音频数据集，它包含1000小时的英语语音，这些语音来自LibriVox项目的有声读物。它被用于训练声学模型和语言模型。

Libritts—这个数据集包含约585小时的英语语音，是在Google Brain团队成员的协助下准备的。Libritts最初是为Text-to-speech（TTS）研究设计的，但可以用于各种语音识别任务。

TED-LIUM—TED-LIUM是一个包含110多个小时的英语TED演讲的数据集。所有的演讲内容都已被转录。

VoxCeleb—VoxCeleb是为演讲者识别任务而建立的大型音频数据集，包含来自1,251位演讲者的150,000多个音频样本。

文本数据集

C4(Common Crawl's Web Crawl Corpus)—Common Crawl是一个开放源码的网页数据库。它包含了超过40种语言、跨越7年的数据。

Civil Comments—这个数据集是由来自50个英文新闻网站的180多万条公众评论构成的。

IRC Disentanglement—这个TensorFlow数据集包括来自Ubuntu IRC频道的77000多条评论。每个样本的元数据包括消息ID和时间戳。

Lm1b—被称为语言模型基准，这个数据集包含10亿个单词。它最初是为了衡量统计语言建模的进展。

SNLI—斯坦福自然语言推理数据集是一个包含57万个人类写作句子对的语料库。所有的句对都经过人工标注，类别是均衡的。

e-SNLI—这个数据集是上面提到的SNLI的扩展，它包含了原始数据集的57万个句子对，分类为：包含、矛盾和中性。

MultiNLI—仿照SNLI数据集，MultiNLI包含433,000个句子对，都有尾部信息注释。

Wiki40b—这个大规模的数据集包括40种不同语言的维基百科文章。这些数据已经被清理，其中的非内容部分以及结构化对象已经被去掉。

Yelp极性评论—这个数据集包含598,000条高度极性的Yelp评论。它们是从2015年Yelp数据集挑战赛中的数据提取出来的。

虽然上述数据集是机器学习中最大、最广泛使用的一些TensorFlow数据集，但TensorFlow库是庞大的，并在不断扩展。请访问TensorFlow网站，了解更多关于该平台如何帮助您构建自己的模型的信息。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

TensorFlow 数据机器学习

来源：雷锋网内容投诉

TensorFlow非常出色的30个机器学习数据集

下载Word文档到电脑，方便收藏和打印～

下载Word文档

TensorFlow非常出色的30个机器学习数据集

TensorFlow图像数据集

视频数据集

TensorFlow音频数据集

文本数据集

TensorFlow非常出色的30个机器学习数据集

相关文章

猜你喜欢

TensorFlow非常出色的30个机器学习数据集

TensorFlow中超大的30个机器学习数据集

时间序列机器学习数据集的非常规拆分技术

用「最好的语言」PHP，做一个机器学习数据集

出色代码成就机器学习：数据科学的软件工程技巧和优秀实践

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

TensorFlow非常出色的30个机器学习数据集

TensorFlow图像数据集

视频数据集

TensorFlow音频数据集

文本数据集

TensorFlow非常出色的30个机器学习数据集

相关文章

猜你喜欢

TensorFlow非常出色的30个机器学习数据集

TensorFlow中超大的30个机器学习数据集

时间序列机器学习数据集的非常规拆分技术

用「最好的语言」PHP，做一个机器学习数据集

出色代码成就机器学习：数据科学的软件工程技巧和优秀实践

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复