我的编程空间,编程开发者的网络收藏夹
学习永远不晚

大数据时代的小数据

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

大数据时代的小数据

[[432192]]

这种极端的观点一定程度反映了当下大数据行业的浮躁。《人类简史》里说到人类一直有想成为神的欲望,大数据的过度"神化"也能看到这种欲望的影子。冷静下来看,数据“大”有“大”的问题,数据“小”也有“小”的好处 。

大数据理念下的野蛮生长

之前工作中经常会碰到一种场景:搞大数据嘛,没数据怎么搞,先把数据搞过来再说,越多越好,堆到一起再想怎么用。在这种思路驱动下,商业上各种解决方案投其所好,搞数据集市、数据工厂、数据生态,应用场景想不清楚没关系,有了数据再发动大家一起想。逻辑看似很清晰,但往往投入不菲,成效不足。大数据之“大”是有成本和代价的,不考虑投入产出、不考虑约束限制的野蛮式发展,长久难以持续。

大数据应用下的信息“偏见”

互联网推荐是目前大数据应用较为“成功”的一个场景。这种基于行为数据的推荐,基本的逻辑是"浏览或搜索的越多——>对这类信息越感兴趣——>更需要相关的信息",这种应用思路过度泛化的推广到生产和工作中,会出现过度依赖相关性和经验性数据的倾向,看似客观数据往往带着“偏见”。基于这种推送机制,每天被推送的信息日益雷同,无形之中,获取的信息会局限在一个特定的认知圈中。而实际生活中,无论个人成长还是社会发展一直处在动态变化的过程中,一些看似没有统计意义的小数据,往往会起到不可忽视的影响。这种机制下对小数据的过滤,对个人来说容易形成偏见,应用到决策则可能产生大数据"经验主义"。

大数据语境下的数据取舍

之前一个搞了很多年大数据的客户在发愁,大量的沉淀数据怎么处理。不维护说不定还有用,维护吧成本很高,而且还不知道猴年马月能用一回。理想化一点,是数据都留着,花大力气采集清理大量的数据,真到用的时候,由于采集口径、数据质量等原因还不一定能用上。

一视同仁的对待所有数据,管理和应用效率是很低的。从业务角度,数据的价值并不相同。因此,要克服数据匮乏的焦虑,对数据进行取舍。

有时候,用的时候再去采数据,或者用人工等传统方法处理和决策,比起“泛滥性缺乏”的大数据可能更有效率。

大数据的理念和技术无疑是先进的,值得积极探索。但是要正视大数据落地实践中经常出现“理想丰满,现实骨感”的无奈。不要片面认为“大”就是好的,合适的才是最好的。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

大数据时代的小数据

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

大数据时代的小数据

大数据给世界编织了一副美丽的画面——万事万物皆可数据化,有数据就可以再要一个新世界。似乎人类没能够变成全知全能的造物主,就是因为数据不够多、算法不够好。

大数据时代下的数据治理

数据是企业最核心的价值,面对越来越激烈竞争,越来越多的企业开始重视对数据管理及运营,用以提升业务发展能力。

数据同步:大数据时代的基石

数据同步是当今大数据时代获取和处理信息的基石,它将离散数据源统一起来,为深入分析和决策制定提供基础。
数据同步:大数据时代的基石
2024-02-29

大数据时代书中的大数据是什么意思

这篇文章主要为大家展示了“大数据时代书中的大数据是什么意思”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“大数据时代书中的大数据是什么意思”这篇文章吧。“大数据时代”一书中的大数据是指“全体数据或
2023-06-29

大数据时代的重复数据删除技术

编程学习网:重复数据删除在几年前是一个独立的功能,主要用于企业备份和归档部门的存储系统。如如今,重复数据删除在云端网关找到了新的用途,为即将进入阵列或虚拟磁带库的数据过滤掉没有用处的数据。重复数据删除技术已经成为一种统计算系统预先集成的功能,而企业对于这项技术的有效使用成为一种需求。
大数据时代的重复数据删除技术
2024-04-23

大数据时代的数据集蒸馏,大型数据集上的首次成功

11 月 30 日,全球第一所人工智能大学——穆罕默德·本·扎耶德人工智能大学(MBZUAI),在 arXiv 预印平台发布了题为《大数据时代的数据集蒸馏》(Dataset Distillation in Large Data Era)的文

大数据时代绿色数据中心的重要性

绿色数据中心最关键的方面之一是采用可再生能源为其运营提供动力。太阳能、风能和水力发电等可再生能源,为传统化石燃料提供了清洁、可持续的替代品,而传统化石燃料是温室气体排放和气候变化的主要原因。通过利用可再生能源,数据中心可以显著减少其碳足迹,

数据湖三剑客,大数据时代的新范式?

目前的数据仓库技术出现了一定的局限性,比如单一不变的 schema 和模型已经无法满足各类不同场景和领域的数据分析的要求、流批一体的数据存储引擎和计算引擎适配问题以及Hadoop体系文件系统的ACID能力缺失等问题急需要解决,但就目前的技术

拥抱大数据时代 浅析数据挖掘的价值

数据挖掘在大数据相关技术的支持下,随着数据存储、分布式数据计算、数据可视化等技术的发展,数据挖掘对事物的理解能力越来越强,所以数据挖掘一方面要尽可能获取更多、更有价值、更全面的数据,并从这些数据中提取价值。

大数据时代有哪些数据是无法分析的

这期内容当中小编将会给大家带来有关大数据时代有哪些数据是无法分析的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。  在历史时期最大的创新就在于,我们的生活现在由收集数据的计算机调控着。在大数据时代,头脑无
2023-06-02

大数据时代如何保护隐私数据(上)

编程学习网:保护隐私数据,删除模式大家有没有想过,应用开发商可能已经通过手机里的APP获知你是一个什么样的人。比如,手机中安装了导航应用的用户应当有一辆车;安装了糖尿病家医生这款应用的用户,用户本身或者用户的家人可能受到糖尿病的困扰大数据时代,这种案例数不胜数在互联网高速发展的信息时代,数据隐私问题成了人们关注的焦点。
大数据时代如何保护隐私数据(上)
2024-04-23

时代“大杀器”-数据编织

随着数据利用率的提高,“数据孤岛”必须逐渐被打破,为互联企业让路。数据编织的实现是这一过程中的一个重大飞跃——事实上,这是自20世纪70年代关系数据库发明以来最具革命性的突破之一。

磁带在大数据时代的作用

对于某些人来说似乎有些奇怪,在2020年,人们正在讨论将磁带作为数字数据的存储介质。毕竟,自从上世纪80年代以来在计算中就不常见了。当然,当今唯一相关的存储介质是固态驱动器和蓝光光盘吗?

数据泄露、数据窃听,如何保障大数据时代的信息安全

《中华人民共和国数据安全法》即将于9月1日起生效施行。近日,工信部委托中国互联网协会召开头部平台座谈会,召集国内12家知名企业参加,要求强化平台数据管理责任,明确数据安全责任人,并加强重要数据安全评估和出境管理。

时代大数据安全与隐私

随着大数据的发展,大数据的安全问题越来越受到行业的重视。 日前,中国信息通信研究院指出了目前大数据发展面临的安全问题,提出了促进大数据安全技术发展的具体建议。

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录