我的编程空间,编程开发者的网络收藏夹
学习永远不晚

大数据分析的理解和探索

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

大数据分析的理解和探索

如今,云计算的热潮似乎还没散去,行业厂商就已经开始关注下一个热点:大数据。而与以往的炒作周期一样,现在的大数据对于用户来说其来源比较混乱,因为供应商提出了自己独特的,并且经常相互矛盾的定义和术语。

大数据定议之所以混乱的最常见的原因,是人们将大数据存储与大数据分析的结果混为一谈。“大数据”一词起源于开源社区,其开发和分析过程比传统的数据仓库速度更快,扩展性更强,并且可以通过网络在用户每天产生的大量非结构化数据中提取价值。

大数据的存储是相关的,其旨在解决大量的非结构化数据,助长企业级的数据增长。而扩展NAS和对象存储这些技术支撑大数据存储,已经存在了多年,并且人们对此有着充分的了解。

在一个非常简单的层面上,大数据存储无非是存储用于产生大量的非结构化数据的应用程序处理的大量数据。这包括高清晰度视频流,油气勘探,基因组学等数据。

一个大型存储厂商的一位营销高管表示,其公司正在考虑将“海量数据”作为其大数据存储条目的名称。

大数据分析是比较紧急的和多方面的,但IT人员对其理解较少。大数据分析发展过程在历史上一直受到网络的推动。然而,大数据分析的应用程序正在发生在所有主要垂直行业领域,现在的快速增长是一个增长的机会,值得所有供应商进行炒作。

大数据分析是快速增长的多样化的区域。因此,试图确定它有什么用可能是无益的。但是,可以识别和鉴定大数据分析的技术特征和共同点。这些包括:

•在可扩展性方面,传统的数据仓库处理速度太慢,而且有限制;

•融合来自多个数据源的数据的能力,其中包括结构化和非结构化的数据;

•从数据来源获取信息是至关重要的,其中包括越来越多的移动设备、无线射频识别技术、网络,以及自动化技术。

此外,在多样性大数据分析中可以找到至少四个主要发展片段。这些片段是MapReduce,可扩展的数据库,实时流处理和大数据应用。

(1)MapReduce

ApacheHadoop是MapReduce段开始的好地方。Hadoop起源于谷歌公司在2004推出的一份文件,描述了一种用于并行网络的数据处理称为MapReduce的概念。此后不久,ApacheHadoop的诞生成为一个开源实现MapReduce的过程。周围的社区正在快速成长,生产加载项扩展了企业数据中心内的ApacheHadoop的可用性。

Apache的Hadoop的用户通常在商用服务器建立自己的并行计算集群,各有专门存储在一个小型磁盘阵列的形式,最近,也开始采用固态硬盘(SSD)的形式。这些通常被称为“无共享”架构。而存储区域网络(SAN)和网络附加存储(NAS)的可扩展性和弹性,通常被视为缺乏I/O性能,这些集群需要超越标准的数据仓库的能力。因此,Hadoop的存储是直接连接存储(DAS)。然而,使用SAN和NAS的“二次”存储正在成为新兴的形式。

一个潜在的Hadoop用户面临的采购选择,从单纯的开源到高度商业化的版本,其范围内越来越广泛。Apache的Hadoop和相关的工具都可以免费在ApacheHadoop的网站下载。Cloudera的公司提供了一个商业版本,其中包括一些Cloudera的插件和支持。其他开放源代码的变种,如Facebook的distribution,也可以从Cloudera公司获得。其商业版本包括MAPR,EMC公司现在将其合并成一个Hadoop应用。

(2)可扩展的数据库

而Hadoop已经攫取了大部分的头条新闻,因为它在数据仓库环境下具有非结构化数据的处理能力,更有向大数据分析的发展空间。

结构化数据也得到了大量的关注。一个充满活力和快速增长的社区围绕NoSQL,这是一个开源的、非关系型、分布和横向扩展的数据库集合的结构,可以满足网络规模的数据库设计的高流量的网站和流媒体的需要。面向文档的实现包括MongoDB(如“humongous”DB)和Terrastore。

开源社区所产生的另一种面向分析的数据库是正在开发使用的scidb,包括环境观测和监测,射电天文学和地震,等等。

传统的数据仓库供应商并没有袖手旁观。甲骨文公司正在打造其“下一代”大数据平台,将利用其分析平台和内存计算的实时信息传递。Teradata公司最近收购了ASTER数据系统公司,将ASTER数据的SQLMapReduce添加到其产品组合中。

(3)实时流处理

对于多个数据流进行实时分析的StreamSQL从2003年开始使用,然而到现在为止,StreamSQL只能够渗透到一些比较小的小众市场,如金融服务,监视和通信网络监控等领域。而随着行业厂商和用户对大数据的兴趣不断增长,StreamSQL势必会得到更多的关注和寻找更多的市场机会。

Streamsql是生长计算研究的一个区域称为复杂事件处理(CEP),对真实世界的事件数据的低延迟处理技术。无论是IBM,还是InfoSphereStreams公司,以及StreamBase系统公司的产品都在这个领域中。

(4)大数据应用

作为大数据分析的兴趣扩展到企业数据中心,供应商群体看到了一个机会,把一起大数据“家电”。这些设备的服务器,网络和存储设备集成到加速信息传递到一个机箱和运行分析软件用户。这些设备针对企业买家都会看重大数据设备易用性和价值,以及其固有的实施和使用的特点而推出的。围绕Greenplum数据库引擎这个领域的厂商,其中包括EMC公司,IBM和Netezza公司,MAPR公司最近推出了Hadoop商业化版本,预集成系统,内置设备,可与甲骨文和Teradata公司的版本相媲美。

大数据分析的大数据存储

大数据分析过程的从业人员一般都不喜欢共享存储。他们喜欢DAS的各种形式,从SSD到其内部并行处理节点的高容量的SATA硬盘。共享存储体系结构,如SAN和NAS,通常被认为是相对缓慢的复杂的,首先,是其价格昂贵。这些特点都不选用于大数据分析系统的系统性能,不能满足商品基础设施的低成本的蓬勃发展。

实时或接近实时信息传递是大数据分析的定义特征之一,因此,延迟是可以避免的,无论何时何地。在内存中的数据是良好的,至少比采用光纤传输到机械式硬盘要好,但也许比其他任何事情都更加糟糕,SAN在规模需要分析应用的成本让人望而却步。

在大数据分析中,有一个共享存储的案例。然而,存储厂商和一般的存储社区还没有成为大数据分析的实践者。这个例子可以在ParAccel的分析数据库(PADB)与NetAppSAN存储中看到。

数据存储技术的开发人员表示将存储看作从物理设备迁移到一个更虚拟和抽象的实体的实现。其结果是,共享存储环境可以并且应该被大数据从业者视为他们可以找到潜在有价值的数据服务,如:

(1)数据保护和系统可用性:基于存储的复制功能可以不需要数据库创建数据副本,当系统故障和数据损坏事件发生时,重新启动可以恢复系统。

(2)缩短部署新应用程序和自动化流程的时间:通过可重复使用的数据副本,当新的应用程序都可以在网上迅速被建立,提高业务灵活性。

(3)变更管理:共享存储可以帮助保持一个“永远在线”的能力,可能减少所需的改变和升级,以及对在线生产环境的影响。

(4)生命周期管理:当共享存储可以作为记录的数据库时,系统的演化变得更加容易管理,并且那些已经废弃的应用变得更加容易丢弃。

(5)节约成本:使用共享存储作为一个无共享架构,可以辅助DAS降低成本和处理器节点的复杂性。

以上提到的好处每个人都可以被映射到无共享架构的分析。我们可以期望看到更多的存储厂商这样做一段时间。例如,虽然尚未公布,EMC公司可以凭借其基于MAPR设备整合Isilon或Atmos公司的存储。

大数据是一个大问题

传统的数据仓库是一个大而相对较慢的生产商信息的业务分析。它从有限的数据资源,并依赖于反复的提取、转换和加载(ETL)过程。客户在快速寻找获取信息的基础上,从多个数据源同时淘汰掘金。大数据分析可以被定义,在一定程度上,需要从多个数据源解析大数据集,并产生实时或接近实时的信息。

大数据分析代表了一个巨大的机会。IT组织都在探索上述来自社交网络的繁荣,解析基于网络的数据源和提取价值分析技术。然而,现在有了一个更大的机会,那就是物联网成为了一种新兴的数据源。思科系统公司估计全球目前约有350亿个可以连接到互联网的电子设备。任何电子设备可以(有线或无线)连接到互联网,甚至汽车制造商正在建设连接到车辆的互联网。“连接的”汽车将在2020年成为司空见惯的事情,并产生数以百万计的瞬态数据流。

理解大数据分析

利用多个数据源,如物联网的力量将会远远超出传统的数据仓库技术。这将需要模仿人类大脑功能的过程。我们的大脑需要大量的感官数据流,并创建必要的相关关系,让我们知道我们在哪里,我们在做什么,最终我们在想什么,所有这些都是实时的。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

大数据分析的理解和探索

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

大数据分析的理解和探索

如今,云计算的热潮似乎还没散去,行业厂商就已经开始关注下一个热点:大数据。而与以往的炒作周期一样,现在的大数据对于用户来说其来源比较混乱,因为供应商提出了自己独特的,并且经常相互矛盾的定义和术语。

Python数据分析:数据探索和预测

数据科学初探:使用 Pandas 进行数据探索与建模
Python数据分析:数据探索和预测
2024-02-17

Python 数据分析的实验室:实验和探索

Python 数据分析实验室:实验和探索
Python 数据分析的实验室:实验和探索
2024-03-12

探讨供应链管理中的大数据分析

在当今快速发展和相互关联的世界中,供应链管理在各行业企业的成功中发挥着关键作用。随着大数据分析的出现,各组织现在能够利用数据的力量来优化其供应链运营、提高效率、降低成本,并提高整体业绩。

如何理解数据分析和大数据之间的关系

首先,大数据经过多年的发展已经形成了一个完整的产业链和技术链,大数据的产业链是围绕技术链来打造的,而大数据的技术链则围绕数据价值化这个中心来展开,涉及到数据的采集、存储、安全、分析、呈现和应用,所以当前的大数据已经不仅仅是一个概念了,而是代

PHP 中 Elasticsearch 实现大数据分析与挖掘技术探索

摘要:随着大数据时代的到来,如何高效地对海量数据进行分析与挖掘成为了一项重要的任务。本文将介绍如何利用PHP语言结合Elasticsearch搜索引擎来实现大数据分析与挖掘。并通过具体的代码示例来展示其实现方法和技术要点。关键词:PHP、E
2023-10-21

Pandas 探索性数据分析综合实战

本文的内容是关于对数据集进行特别分析,并试图找到关于数据的洞察力。我们做了处理缺失值、异常值的工作,并将单变量、双变量和多变量的分析可视化。

使用PandasGUI进行探索性数据分析

在本文中,我们将探索Pandasgui,并了解如何使用它来自动化探索性数据分析过程,并节省我们的时间和精力。

探索大数据的阴暗面

大数据在改变企业及其经营方式方面有着巨大的力量。如今,企业正贪婪地寻找在日益激烈的竞争环境中脱颖而出的方法,大数据为其实现目标铺平了道路。
大数据企业2024-11-30

Golang在大数据处理中的应用探索

Golang是一种由Google开发的开源编程语言,它具有高效的并发性能和简洁的语法,逐渐受到越来越多开发者的青睐。在大数据处理领域,Golang也有着广泛的应用。本文将探讨Golang在大数据处理中的应用,并提供具体的代码示例。并发处理
Golang在大数据处理中的应用探索
2024-03-06
Python 数据分析的权威指南:深入探索
2024-03-12

腾讯大数据多引擎统一元数据和权限管理的探索

本文介绍了腾讯大数据多引擎统一元数据和权限管理的探索。TBDS的全称是腾讯大数据处理套件,它是一个基于 Hadoop 生态以及 MPP 生态的大数据平台。

探讨大数据与供应链分析

大数据和供应链分析之间的合作具有巨大的潜力,可以彻底改变组织设计、管理和简化供应链的方式。本文深入探讨了与在供应链分析中利用大数据相关的关键概念、挑战、好处、应用和未来方向。

COUNT函数在社交媒体数据分析中的探索

在社交媒体数据分析中,COUNT函数可以用来统计特定的数据项或者事件的数量,帮助分析师了解用户行为和趋势。以下是COUNT函数在社交媒体数据分析中的一些探索:统计帖子/评论的数量:通过COUNT函数可以统计每个帖子或评论的数量,从而了解哪些
COUNT函数在社交媒体数据分析中的探索
2024-08-11

京东大数据治理探索与实践

本文将分享京东在大数据治理上的探索和实践经验。作为国内领先的电商平台,京东在数据基础设施上的投入极为巨大,涵盖数万台服务器、数 EB 级存储、数百万个数据模型及数以百万计的任务执行

探索性数据分析(EDA)之数据可视化案例:附数据集和源码

在这篇文章中,我们使用数据可视化在数据集上做了一系列的实验和测试,基于各个变量对数据集做了一些分析,比如单变量分析和可视化(条形图、饼图、折线图、直方图);热力图可看作是双变量分析,因为它呈现了两两变量之间的相关性。
数据分析EDA2024-11-30

运算符的魔力:探索Python中操纵和分析数据的工具

运用运算符的力量,探索Python中操纵和分析数据的强大工具,释放数据的价值,从而做出明智、数据驱动的决策。
运算符的魔力:探索Python中操纵和分析数据的工具
2024-03-09

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录