我的编程空间,编程开发者的网络收藏夹
学习永远不晚

六个大数据采集工具架构分析

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

六个大数据采集工具架构分析

随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:Apache Flume、Fluentd、Logstash、Chukwa、Scribe、Splunk Forwarder。

大数据平台与数据采集

任何完整的大数据平台,一般包括以下的几个过程:

  • 数据采集
  • 数据存储
  • 数据处理
  • 数据展现(可视化,报表和监控)

其中,数据采集是所有数据系统必不可少的,随着大数据越来越被重视,数据采集的挑战也变的尤为突出。这其中包括:

  • 数据源多种多样
  • 数据量大,变化快
  • 如何保证数据采集的可靠性的性能
  • 如何避免重复数据
  • 如何保证数据的质量

我们今天就来看看当前可用的六款数据采集的产品,重点关注它们是如何做到高可靠,高性能和高扩展。

01、Apache Flume

Flume 是Apache旗下的一款开源、高可靠、高扩展、容易管理、支持客户扩展的数据采集系统。

Flume使用JRuby来构建,所以依赖Java运行环境。

Flume最初是由Cloudera的工程师设计用于合并日志数据的系统,后来逐渐发展用于处理流数据事件。

几乎在大部分的情况下ELK作为一个栈是被同时使用的。所有当你的数据系统使用ElasticSearch的情况下,logstash是首选。

02、Chukwa

Apache Chukwa是apache旗下另一个开源的数据收集平台,它远没有其他几个有名。Chukwa基于Hadoop的HDFS和MapReduce来构建(显而易见,它用Java来实现),提供扩展性和可靠性。Chukwa同时提供对数据的展示,分析和监视。很奇怪的是它的上一次github的更新事7年前。可见该项目应该已经不活跃了。

Chukwa的部署架构如下:

Chukwa的主要单元有:Agent,Collector,DataSink,ArchiveBuilder,Demux等等,看上去相当复杂。由于该项目已经不活跃,我们就不细看了。

03、Scribe

Scribe是Facebook开发的数据(日志)收集系统。已经多年不维护,同样的,就不多说了。

04、Splunk Forwarder

以上的所有系统都是开源的。在商业化的大数据平台产品中,Splunk提供完整的数据采金,数据存储,数据分析和处理,以及数据展现的能力。

Splunk是一个分布式的机器数据平台,主要有三个角色:

  • Search Head负责数据的搜索和处理,提供搜索时的信息抽取。
  • Indexer负责数据的存储和索引
  • Forwarder,负责数据的收集,清洗,变形,并发送给Indexer

Splunk内置了对Syslog,TCP/UDP,Spooling的支持,同时,用户可以通过开发Script Input和Modular Input的方式来获取特定的数据。在Splunk提供的软件仓库里有很多成熟的数据采集应用,例如AWS,数据库(DBConnect)等等,可以方便的从云或者是数据库中获取数据进入Splunk的数据平台做分析。

这里要注意的是,Search Head和Indexer都支持Cluster的配置,也就是高可用,高扩展的,但是Splunk现在还没有针对Farwarder的Cluster的功能。也就是说如果有一台Farwarder的机器出了故障,数据收集也会随之中断,并不能把正在运行的数据采集任务Failover到其它的Farwarder上。

总结

我们简单讨论了几种流行的数据收集平台,它们大都提供高可靠和高扩展的数据收集。大多平台都抽象出了输入,输出和中间的缓冲的架构。利用分布式的网络连接,大多数平台都能实现一定程度的扩展性和高可靠性。

其中Flume,Fluentd是两个被使用较多的产品。如果你用ElasticSearch,Logstash也许是首选,因为ELK栈提供了很好的集成。Chukwa和Scribe由于项目的不活跃,不推荐使用。

Splunk作为一个优秀的商业产品,它的数据采集还存在一定的限制,相信Splunk很快会开发出更好的数据收集的解决方案。 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

六个大数据采集工具架构分析

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

六个大数据采集工具架构分析

随着大数据越来越被重视,数据采集的挑战变的尤为突出。今天为大家介绍几款数据采集平台:Apache Flume、Fluentd、Logstash、Chukwa、Scribe、Splunk Forwarder。

常用的大数据采集工具

为了高效采集大数据,依据采集环境及数据类型选择适当的大数据采集方法及平台至关重要。下面介绍一些常用的大数据采集平台和工具。

六个探索性数据分析(EDA)工具,太实用了!

在本文中将介绍六个极其实用的探索性数据分析(EDA)工具,这些工具能够帮助您更好地理解数据、发现隐藏的信息,并为后续分析和决策提供有力支持。

5个常用的大数据可视化分析工具

1. Tableau:Tableau是一款强大的数据可视化工具,可以帮助用户创建交互式和动态的图表、地图和仪表板。它支持多种数据源,可以轻松地连接到各种大数据平台。2. Power BI:Power BI是微软推出的一款商业智能工具,可以将
2023-09-22

用 Python 进行大数据处理六个开源工具

本文介绍了六个常用的 Python 大数据处理工具,每个工具都有其独特的优势和适用场景。通过实际的代码示例,我们展示了如何使用这些工具处理大规模数据集。

大数据分析工具BI的应用

大数据分析工具BI,是企业数据化管理的一整套方案,用于将企业中现有的数据进行有效整合,快速准确的提供决策依据,帮助企业做出明智的业务经营决策,解决企业管理问题。

大数据分析工具必须具备的十个基本属性

在这个快节奏的世界中,传统的大数据分析是一个耗时的过程。商业世界中有着来自环境各个部分持续流动的实时数据。

大数据处理分析的最好工具

  本篇文章给大家带来的就是关于数据的一些详细解析,本篇文章会教给大家数据的知识点进行分析,希望本篇文章能帮助到你,对你有所收获,希望大家仔细阅读文章。  大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:
大数据处理分析的最好工具
2024-04-18

大数据安全分析之大数据分析的技术架构及关键技术

大数据分析利用大数据技术对海量数据的高效计算能力,结合关联分析、深度学习、机器学习算法等手段,对各种已知与未知威胁进行快速发现与预警,实现网络防御从被动到主动的转变。

MySQL ORM框架的数据库性能分析工具

MySQL ORM框架的数据库性能分析工具主要用于监控和评估数据库的性能。以下是一些建议的工具:MySQL Workbench:这是一个官方的MySQL管理工具,它集成了数据库设计、管理、查询、开发等功能。其中,Performance Da
MySQL ORM框架的数据库性能分析工具
2024-10-05

数据分析 | 数据可视化图表,BI工具构建逻辑

本文源码:GitHub·点这里 || GitEE·点这里一、数据可视化1、基础概念数据可视化,是关于数据视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为,一种以某种概要形式抽取出来的信息,包括相应信息单位的各种属性和变量。
2023-06-02

2020十大优秀大数据分析工具,果断收藏

营销的基本原理是一致的,每个人都喜欢洞察力,因为这些数字模式可以提供最安全的方法来确保企业采取正确的行动,更有效地运作,以及将其资源用在何处。数据已经成了战略的据点。

超强盘点:常用的6个大数据可视化分析工具

数据能表现出更为客观、理性的一面,能我们更加直观、清晰的认识世界,而根据数据,企业也才能制定出正确的策略。今天给大家推荐常用的5个大数据可视化分析工具,希望对你们有帮助。

hadoop大数据平台架构之DKhadoop的示例分析

这篇文章给大家分享的是有关hadoop大数据平台架构之DKhadoop的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。目前国内的商业发行版hadoop除了大快DKhadoop以外还有像华为云等。虽然发行方
2023-06-02

Java开发者须知10个大数据工具和框架

欢迎大家阅读本篇文章,本篇文章讲述了Java开发者须知10个大数据工具和框架,编程学习网教育平台提醒大家:本篇文章中有许多的小细节,因此大家一定要认真阅读本篇文章哦~
Java开发者须知10个大数据工具和框架
2024-04-23

SQL、Pandas和Spark:这个库,实现了三大数据分析工具的大一统

由于Spark是基于Scala语言实现的大数据组件,而Scala语言又是运行在JVM虚拟机上的,所以Spark自然依赖JDK,截止目前为止JDK8依然可用,而且几乎是安装各大数据组件时的首选。所以搭建pyspark环境首先需要安装JDK8,

Python的三大开源数据分析工具是什么

本文小编为大家详细介绍“Python的三大开源数据分析工具是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python的三大开源数据分析工具是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。在大数据库领域
2023-06-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录