我的编程空间,编程开发者的网络收藏夹
学习永远不晚

JuiceFS 在大搜车数据平台的实践

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

JuiceFS 在大搜车数据平台的实践

JuiceFS 在大搜车数据平台的实践

大搜车已经搭建起比较完整的汽车产业互联网协同生态。在这一生态中,不仅涵盖了大搜车已经数字化的全国 90% 中大型二手车商、9000+ 家 4S 店和 70000+ 家新车二网,还包括大搜车旗下车易拍、车行168、运车管家、布雷克索等具备较强产业链服务能力的公司, 与大搜车在新零售解决方案上达成深度战略合作的长城汽车、长安汽车、英菲尼迪等主机厂商,以及与中石油昆仑好客等产业链上下游的合作伙伴。基于这样的生态布局,大搜车数字化了汽车流通链条上的每个环节,进而为整个行业赋能。

说到大数据,对于每个公司都不陌生。存储组件 HDFS,计算资源管理 YARN,离线计算 Hive、Spark、Spark SQL,列存储数据库 HBase,实时计算Spark Streaming、Flink等。这些组件在集群稳定情况下维护还算比较轻松,但是在公司快速发展过程中,集群容量的高速增长是不可避免的,作为大数据的设计者不得不从集群的成本和效益上思考两者的权衡。

大数据集群现状

大搜车目前大数据集群分为离线计算集群和实时计算集群,离线计算基于 Hive 和 Spark,实时计算基于 Flink,这两类集群分别基于 HDP 和 CDH 两套管理方式。早期离线计算选用了 HDP,实时计算后来选用 CDH 的初衷是多集群管理比较方便。由于离线计算引擎两者是有区别的,迁移会有兼容性问题,两套集群一直并存,集群间资源完全隔离。

集群维护痛点

数据量持续增长,成本一定的情况下做集群扩容耗时耗力

从 18 年初到 19 年 6 月份,离线集群从最初的数十个节点持续增长到上百个节点,数据量也从数十 TiB 增长了 10 多倍,并且保持每天数 TiB 的速度增加。在节省开支的情况下,每月做一次集群扩容,形成了与数据增长速度赛跑的情况。每月固定工作差不多变成了接受磁盘告警狂炸、扩容、均衡数据、再均衡数据的情况。遇到一些极端情况,比如阿里云在某个可用区没有数据类型设备资源而要新在另一个可用区创建,还会涉及到数据网段变更,就更复杂了。

  1. 存储所需资源跟计算资源不同步

在对离线集群数据做分析过程中发现,热点数据仅占大约 20%。在集群不断扩容的情况下,计算资源会有较大冗余,产生了不必要的成本,另外每次均衡会占用节点网络带宽,影响任务读写数据的速度。

  1. 跨集群数据同步

为了减少了实时任务和离线任务的相互影响,方便资源控制和云资源选型价值最大化,实时计算和离线计算集群在物理上做了资源隔离,难点也随之出现,实时和离线集群的数据无法实时同步,造成一些需求无法实现。

  1. NameNode内存持续增长,重启时间过久

在文件存储中,文件数量过多导致 NameNode 管理内存持续增加,重启一次时间过长,势必影响数据同步;并且在数仓层面不严加控制数据生命周期,资源占用也会越来越大,在对集群中整个资源做分析时也会受到影响。

选择 JuiceFS

针对以上这些问题,选取一款产品做底层存储势在必行。存储选择上作为大数据的基石,需要遵从如下特点:

  • 兼容Hadoop框架协议
  • 多版本集群兼容
  • 高吞吐、低延时
  • 支持深度压缩减少资源使用

在一开始,我们尝试使用阿里云的 OSS 作为冷备存储。在测试过程中,由于没有元信息管理,在数据维护上很受限制。后来接触到了 JuiceFS 这款产品,在选择上很是满足上述要求。对此我们做了一些性能测试(均基于实际场景提取业务逻辑)。

实际场景性能测试

以下测试均选取实际业务数据,数据大小是 where 查询条件不同选取的,仅做两个文件系统性能对比:

  • SELECT + INSERT 操作

从 3000 万左右表中分别选取不同量级数据插入另一张表结构一样的表中,横向对比 HDFS 和 JuiceFS 耗时。

  • SELECT + COUNT 操作

从3000万左右表中分别选取不同量级数据做 COUNT,横向对比 HDFS 和 JuiceFS 耗时。

  • SELECT + ORDERBY

对 3000 万左右表中数据做排序,横向比较 HDFS 和 JuiceFS 的耗时。

综上,JuiceFS 在查询、插入数据时多数耗时比较稳定且整体比HDFS耗时要少,在 SELECT 数据情况,多数性能相差不多极个别情况要优于 HDFS,单行做排序操作性能差不多。

成本控制

我们对比了采用 JuiceFS 和 HDFS 两种方案的费用(HDFS 集群保证存储冗余 20%)。在同等数据量(JuiceFS 会再次做深度压缩,压缩比大约为 3:1)和对等计算资源的情况下采用 JuiceFS 每月会比使用云主机部署 HDFS 节省至少 18%。

综合看 JuiceFS 的性能和成本都非常满足公司对成本和产品性能的要求。

未来展望

存储计算分离

大数据集群引入 JuiceFS,存储和计算实际上已经分离。大数据集群灵活弹性扩展计算资源已经成为可能,在凌晨业务低谷期可以将业务机器的计算资源调度给大数据集群。

以下是目前整个大数据集群架构:

后续可以结合计算存储分离和动态伸缩设计为如下目标架构:

与 Kubernetes 做结合,按需申请资源,节省成本和减少维护成本。

推荐阅读:
JuiceFS CSI Driver 的最佳实践

项目地址: Github (https://github.com/juicedata/juicefs)如有帮助的话欢迎关注我们哟! (0ᴗ0✿)

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

JuiceFS 在大搜车数据平台的实践

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

JuiceFS 在大搜车数据平台的实践

大搜车已经搭建起比较完整的汽车产业互联网协同生态。在这一生态中,不仅涵盖了大搜车已经数字化的全国 90% 中大型二手车商、9000+ 家 4S 店和 70000+ 家新车二网,还包括大搜车旗下车易拍、车行168、运车管家、布雷克索等具备较强产业链服务能力的公司
JuiceFS 在大搜车数据平台的实践
2017-04-15

HBase在大数据分析平台中的集成策略与实践

HBase在大数据分析平台中的集成策略与实践是一个复杂而广泛的话题,涉及到多个方面,包括HBase的架构、最佳实践、以及其在不同行业中的应用案例。以下是对这些方面的详细探讨:HBase的架构HBase是一个高可靠性、高性能、面向列、可伸
HBase在大数据分析平台中的集成策略与实践
2024-10-22

Xunsearch搜索在在线教育平台中的优化实践(在线教育平台如何优化Xunsearch搜索?)

优化Xunsearch搜索提升在线教育平台用户体验的实践:优化索引设置:选择合适索引类型、分词优化、同义词库建立、停用词关闭。配置搜索策略:设置权重、分面搜索、高亮显示、相关搜索。内容优化:撰写高质量内容、包含关键词、优化标题和标签、建立链接结构。用户体验优化:提供搜索建议、展示搜索结果摘要、优化分页体验、提供反馈机制。持续监测和优化:监控搜索日志、定期调整配置、利用数据分析、保持技术更新。
Xunsearch搜索在在线教育平台中的优化实践(在线教育平台如何优化Xunsearch搜索?)
2024-04-02

Solr搜索在电商平台中的应用实践(电商平台如何利用Solr实现高效搜索?)

Solr搜索平台在电商领域有着广泛应用,可增强用户体验和提高销售转化率。电商平台通过利用Solr的分布式架构和强大搜索功能(如全文搜索、范围搜索、相关性排序),可实现高效产品搜索、自动建议、个性化搜索和导航搜索。Solr的集成包括安装配置、定义架构、创建索引、整合到平台和优化性能。该平台提供快速准确的搜索、可扩展性、丰富搜索功能、个性化搜索和搜索分析优势,有助于电商平台改善产品搜索体验,提高销售转化率。
Solr搜索在电商平台中的应用实践(电商平台如何利用Solr实现高效搜索?)
2024-04-02

RiSearch PHP 与大数据平台的结合实现搜索与分析

大数据时代的到来,使得企业和组织面临海量数据的处理和分析需求,其中一个关键问题是如何快速而准确地进行搜索和分析。RiSearch 是一个强大的PHP搜索引擎,它能够实现全文搜索、实时搜索和分布式搜索等功能。本文将介绍如何将 RiSearch
2023-10-21

Solr搜索与大数据处理平台的结合应用(如何将Solr搜索与大数据处理平台结合使用?)

Solr搜索与大数据处理平台的结合提供了一种强大的解决方案,用于处理和检索海量数据。将Solr与Hadoop或Spark等框架集成,可以摄取和处理数据,然后将其索引到Solr中。Solr的高性能、可扩展性和灵活查询功能,使其成为大数据处理的理想选择。该结合可用于日志分析、欺诈检测、推荐引擎和客户服务等应用场景。遵循最佳实践,如使用分布式集群、优化索引和监控性能,至关重要。通过整合Solr和数据处理平台,组织可以从大数据中获取宝贵的洞察力,做出明智的决策。
Solr搜索与大数据处理平台的结合应用(如何将Solr搜索与大数据处理平台结合使用?)
2024-04-02

iterate在大数据平台下的适用性

在大数据平台下,iterate(迭代计算)技术具有显著的适用性,特别是在处理大规模数据集时,它能够提供高效的数据处理和分析能力。以下是对iterate在大数据平台下适用性的详细分析:适用性处理大规模数据集:iterate技术适用于处理大规
iterate在大数据平台下的适用性
2024-09-22

COUNT函数在实时数据分析平台的作用

在实时数据分析平台中,COUNT函数通常用于统计某个字段或条件下的数据行数。通过COUNT函数,用户可以快速了解数据中的记录数量,从而进行更深入的数据分析和决策。COUNT函数可以用于实时监控数据的变化,例如监控网站访问量、用户数量、销售
COUNT函数在实时数据分析平台的作用
2024-08-11

MyBatis视图在大数据处理平台中的应用探索

MyBatis 并不是一个视图工具,而是一个持久层框架,因此不存在 MyBatis 视图。但是,我们可以从 MyBatis 在大数据处理平台中的应用来探索其优势。MyBatis 在大数据处理平台中的应用流式查询:MyBatis 支持流式查
MyBatis视图在大数据处理平台中的应用探索
2024-10-14

函数在云计算平台中的部署和管理最佳实践

在云计算平台中最佳部署和管理函数的实践包括:选择合适的云供应商优化代码性能使用环境变量配置函数处理并发调用自动化部署管理函数的最佳实践包括:监控和日志记录实施版本控制限制访问利用自动伸缩优化成本在云计算平台中部署和管理函数的最佳实践函数是
函数在云计算平台中的部署和管理最佳实践
2024-04-12

Nginx与WebSocket在实时数据分析平台中的数据传输优化

在实时数据分析平台中,Nginx与WebSocket的结合使用可以显著提升数据传输的效率和性能。以下是关于Nginx与WebSocket在实时数据分析平台中数据传输优化的相关信息:Nginx配置WebSocket支持反向代理和负载均衡:N
Nginx与WebSocket在实时数据分析平台中的数据传输优化
2024-10-20

Serverless在大规模数据处理的实践是怎样的

本篇文章给大家分享的是有关Serverless在大规模数据处理的实践是怎样的,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。前言当您第一次接触 Serverless 的时候,有一
2023-06-04

Kafka 集群在马蜂窝大数据平台的优化与应用扩展

马蜂窝技术原创文章,更多干货请订阅公众号:mfwtech Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐、低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数据的交流和传递问题。Kafka 在马蜂窝也有非常广泛的应用,
Kafka 集群在马蜂窝大数据平台的优化与应用扩展
2018-06-13

Lyft 基于 Flink 的大规模准实时数据分析平台(附FFA大会视频)

如何基于 Flink 搭建大规模准实时数据分析平台?在 Flink Forward Asia 2019 上,来自 Lyft 公司实时数据平台的徐赢博士和计算数据平台的高立博士分享了 Lyft 基于 Apache Flink 的大规模准实时数
2023-06-03

MyBatis视图在实时数据分析平台中的应用案例

MyBatis 是一款优秀的持久层框架,它通过提供数据访问对象(DAO)和数据访问层(DAL)的抽象,简化了数据库交互的复杂性。在实时数据分析平台中,MyBatis 的视图功能可以用于执行复杂的查询和数据分析任务。以下是一个应用案例:应用
MyBatis视图在实时数据分析平台中的应用案例
2024-10-14

深入解析MongoDB在大数据场景中的应用实践

深入解析MongoDB在大数据场景中的应用实践摘要:随着大数据时代的到来,数据规模不断增大,对数据库存储和处理的需求也愈发迫切。MongoDB作为一种非关系型数据库,以其高可扩展性和灵活的数据模型在大数据场景中得到了广泛应用。本文将深入分析
深入解析MongoDB在大数据场景中的应用实践
2023-11-03

编程热搜

目录