我的编程空间,编程开发者的网络收藏夹
学习永远不晚

大数据分析,到底分析了啥?

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

大数据分析,到底分析了啥?

 “大数据”仨字已经被喊烂了,“大数据分析”也经常被人提起。可到底咋完全是“大数据分析”?为啥大家喊得很多,平时工作中很少感受得到?今天系统讲解一下。

一、普通人理解的“大数据”

普通人理解的大数据可谓千奇百怪,比如:

一个excel文件 200M,多大的数据呀!

我国人口14亿,这个数据好大呀!

卧槽,我刚看了车,就有4S店推广电话,肯定收集了我的大数据

……

这些千奇百怪的理解,都是来自对“数据”本身不够了解导致的。想整明白“大数据”真正的含义,得从数据是从哪里来的讲起。

二、先理解“小数据”,再谈“大数据”

最原始的数据采集方式就是:问卷。由专门的调查人员,借助一张张调查问卷,通过现场询问、测量等方式获得数据。这种方法已经沿用了400多年,经典的统计学、管理学理论都是建立在此之上的(如下图)。

小数据有没用?有用!非常有用!

能采集到某个地区的数据,代表着政府对这个地区有统治力。

能采集到越多的数据,中央就能掌握地方情况,从而加强管理。

数据是如此重要,以至于历史上很长一段时间,统计任务归属于政府、军队、情报机关。我国的第一家调查公司还是在90年代初,在宝洁强烈要求下成立的。

但是,调研做法有三个明显的问题:

非常耗费人力。访问员、督导、审核、录入、数据处理……都是人

非常耗费时间。设计问卷、填写、回收、都是时间

准确度低。现场测量的数据会相对准,但口头问回来的大部分都不准

这些问题,导致了问卷时代的数据采集,只能有抽样式的,不能是全量采集。也因此衍生出了专门的抽样理论和方法。但无论数据方法怎么改进,在业务上,抽样,始终是一个难以逾越的梗阻。决策者总会觉得:

是不是样本量太少

是不是代表性不够

没有覆盖的样本是不是真的一致

只要是抽样数据,就一定会被质疑,就总是充满怀疑。这也是最初“小数据”的说法来源,后续所有“大数据”其实都是围绕“小数据”问题而来。

数据变大第一步:系统采集

数据从小变大的第一步,从系统采集开始。比如企业扩大规模,要在各地建连锁店,第一步做得就是装POS机,把交易数据采集进来,替代纸质订货单/出货单。此时想了解销售数据,是可以基于POS机收集的数据全量查看的(如下图)。

从抽样数据到全量数据,是一个质的变化。基于全量数据,可以直接管理到各个终端门店,直接基于数据作出经营决策。因此大部分企业的销售分析、经营分析、业务分析体系,都是在此基础之上建立起来的(如下图)。

但是这个阶段的局限也是很明显的:POS机只能记录交易结果,对过程一概不知。谁在买,买了多少,为啥买,通通不清楚。

这个阶段的分析,是典型的知其然,不知其所以然的分析,大部分分析只能通过成交结果去猜。如果只有这个阶段的数据,想做深入分析,还是得依靠调研。比如传统企业想了解门店成交流程,会做门店调查,研究消费者在门店的动线,询问消费者体验。

数据变大第二步:主动采集

有了系统采集以后,大家自然地会想:除了交易数据,其他数据也能通过系统化采集。比如最简单的形式:让用户自己交身份证,通过图像识别录入。这样既能采集到用户数据,又能避免手动填写的错误。

但是问题来了:凭啥要交身份证给你呀!于是传统采集,只有银行、航空、通讯等有国家背景+法律规范要求的地方,才能相对准确的采集这些真实数据。

不过这些困难并没有阻挡住企业采集信息的热情。常见的手段,比如:勾引用户办会员卡,给生日礼遇让用户填写生日。用户完成信息给积分奖励之类。更激进的,甚至有常识在门店装人脸识别、装眼动仪跟踪设备来采集数据(当然,成本很高)。

为什么企业会孜孜不倦追求这些数据,因为这些数据真的有用。至少能把数据具体到一个人的身上,能识别出谁是高端用户,谁是沉睡用户,从而精细化运作(如下图)

真正低成本的、解决采集消费者行为数据的问题,还得靠互联网产品。

数据变大第三步:行为加入

互联网产品的最大优势,在于App/小程序/H5本身就是数字化产品。此时不但有条件记录到用户的点击、登录等行为数据,而且能将用户ID、手机号等信息整合成统一ID,效率比依赖线下纸质单张申请的流程强无数倍。

还能将视频、图片、文章等内容打标签,通过用户点击、转发次数,浏览时长,反推用户需求。对于经历过传统企业数据的人来说,互联网产品的数据简直就是鸟枪换炮。

相较之传统的会员基础信息、消费流水数据,用户行为数据量特别、特别的大,大家想想自己在淘宝逛多久才买一件东西就知道了。可能之前几百次点击浏览,最后才有一单交易。

因此,需要专门的大数据架构来支持这些数据的存储和计算。狭义上的大数据技术,特指对大量的用户行为数据、非结构化数据的存储和计算。

有了这些数据,才有现在我们流行的互联网分析方法,比如漏斗分析法(如下图)。

基于这些基础数据采集,还能延伸出更多数据应用,比如:

模型类:行为预测、推荐算法

测试类:产品ABtest

画像类:用户画像

虽然这些方法,基于交易数据也能做,但是数据量多寡,直接决定了结果准确度。从而影响到业务端使用。在传统时代,只有银行、运营商、航空公司独享的分析方法,成为现在互联网公司的标配。

然而即使这样,既然有一些问题不能解决

  •  用户数据分散在若干平台,导致单一平台数据不足
  • 用户心理无法直接反应为数据,冲动型行为会干扰正常数据判断
  • 信息安全法规要求越发严格,对数据采集/使用限制在增多

因此,如何合法合规、持续利用大数据资源,依然是今天一个重要议题。

三、上不了台面的“变大”方法

当然,还有一些灰色/黑色的方法,让数据变大

直接从“有数据”的人手上,买数据!

爬虫、撞库,硬捞用户数据

通过设备,默默收集用户数据

这就是各种骚扰电话、垃圾短信的源头。当然,随着国家对信息安全保护要求越来越严格,这些玩意生存空间也是逐步被压缩,所以不谈也罢。

四、“大数据有啥用”的终极答案

纵观数据从小到大的整个过程可以看出:数据从来都有用。即使最简单、最不准的数据,也能反应管理上的问题。因此决策者们对于数据的追求,永远是孜孜不倦的,永远是不满足的。(如下图)

那么,为什么还有这么多人在问“大数据有啥用”呢?

因为并非所有人都理解“数据”的用途,别说大数据了,小数据丫也照样不会用。

截止到2021年,依然有人是拍脑袋决策,拍胸脯保证;依然有人沉迷于“老夫从业十年,我说的就是对的”;依然有人觉得大数据包治百病,代码一敲,钞票从电脑屏幕里喷薄而出;依然有人迷信“底层逻辑”“核心思维”,苦练内功心法。

总之,想用好数据,就得深入业务流程,具体了解数据采集方式,这样才能读懂数据背后的业务含义,才能把自己面临的具体问题转化为数据问题,才能解出正确答案。

采集和计算数据,是一门科学

应用数据产生价值,是一种艺术

差别大致如此。

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

大数据分析,到底分析了啥?

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

大数据分析,到底分析了啥?

“大数据”仨字已经被喊烂了,“大数据分析”也经常被人提起。可到底咋完全是“大数据分析”?为啥大家喊得很多,平时工作中很少感受得到?今天系统讲解一下。

数据科学家vs数据分析师,到底有啥区别?

本文旨在阐明成为数据科学家和数据分析师到底意味着什么。一起来看看~

ChatGPT玩数据分析到底多可怕?

首先我们生成一个电商平台的交易数据,当然你也可以指定一些数据字段,这都没有任何问题,也可以复制数据给Chat GPT让帮你整理成表格,都可以,效果如下(注意数据泄密问题)。

数据分析,到底要懂多少业务

同学们经常听到:数据分析要懂业务,到底懂多少才算懂业务?还有新手同学很困惑,说:“我就不懂,又能咋样!”今天系统讲解下。

数据分析师,到底要懂多少业务?

不在理论层面浅尝辄止,也不沉迷于具体某一次成功经验,才能让自己理解能力越来越强,主动梳理能力越来越高。看到这,可能有同学会想看具体例子,有兴趣的话,欢迎加入我主理的知识星球,我们具体探讨哦!我还可以根据你的经验、能力和意向,帮你制定个性化的

数据分析:六大类分析方法

本文根据数据分析对象总结了六大类分析方法,每类方法里包含各种小方法,在实际数据分析过程中我们可以灵活运用这些方法来对数据进行高效率的处理。

高级的数据分析,长啥样?

我们拿看似最简单的销售分析举个例子。注意,以下方法只适用于面对不懂行且豪横的坏人。本质上,这种质疑来自对数据分析工作的不理解,和对自身能力的过度自负。

九大数据分析方法:分层分析法

每种方法都不是万能的,分层分析的缺点,在于:只考虑一个分层指标。虽然简单,但是片面,不能全面说明问题。如果想采用二个指标,可以用矩阵分析法,如果想采用多个指标,可以用DEA模型。
数据分析DEA2024-12-02

大数据分析的好处以及如何分析大数据

大数据分析是分析大量数据以发现诸如隐藏模式、相关性、市场趋势和消费者偏好等信息的一个复杂过程,这些信息有助于企业做出更好的决策。

利用大数据分析彻底改变旅游业

大数据可以为旅游企业提供有关客户行为和偏好的关键见解。通过分析这些数据,企业可以为其客户提供量身定制的服务和体验。例如,如果旅行者经常携带宠物旅行,企业可以推荐宠物友好的酒店和住宿。同样,通过根据客户的偏好对客户进行细分,企业可以创建满足其

九大数据分析方法:相关分析法

即使没有做分析,直观上看这些事件之间也有关系。但是不做分析的话,具体是啥样的关系,很难说清楚。而相关分析,就是找出这种关系的办法。

九大数据分析方法:矩阵分析法

今天继续分享九大数据分析方法系列:矩阵分析法。矩阵分析法是在各路数据分析文章中,出现频率最高的词。甚至有不懂行的小白把它捧到“核心思维”,“底层逻辑”的高度。哈哈,才没有那么神呢。

大数据分析会遇到哪些难题?

如今的数据具有多种多样的形式,而且来自许多不同的数据源。更为重要的是,除非有需要的那些人易于获得大数据,除非能迅速获得洞察力,否则大数据分析工具的用处并不是很大。那么大数据分析会遇到怎样的难题?

怎么分析大数据分析基础概念

本篇文章给大家分享的是有关怎么分析大数据分析基础概念,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。互联网进一步聚合,对大数据的分析必然会成为一个关键的策略部门的工作。像很多事物
2023-06-19

数据分析师们,每天到底在忙些什么?

这个问题总能见到一些朋友问。新人问,因为数据分析这个事儿听起来挺抽象又很高大上,具体需要做哪些,大家不知道。有些已经在做数据分析的老人也会问,因为自己当前做的工作和入行之前理解的似乎不太一样。

九大数据分析方法之标签分析法

今天继续介绍九大数据分析方法系列。上一篇我们提到,如果想找两个指标之间相关关系,可以用相关分析法。但很多时候,我们想找的关系,不能用指标来表达。

数据分析十大模型:杜邦分析模型

如果你掌握了杜邦分析模型的构建思路,以上问题都能迎刃而解。然而,很多网红文章在介绍杜邦分析模型的时候,只是罗列了一大堆指标,同学们看得头昏脑涨,也搞不懂其中的逻辑。

数据分析师的SQL功底该学到什么程度?

常有朋友问,数据分析师的SQL功底该学到什么程度。今天就先谈谈 T-SQL 中的 Window Function.

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录