我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Storm并发度怎么设置

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Storm并发度怎么设置

本篇内容介绍了“Storm并发度怎么设置”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

  Storm架构:master/slave

  主节点:Nimbus

  负责在集群上进行任务(Topology)的分发与资源的调度以及监控

  工作节点:Supervisor

  接收到任务请求后,启动一个或多个Worker进程来处理任务;默认情况下,一个Supervisor最多启动4个Worker

  工作进程:Worker

  在Supervisor中的子进程,存在着若干个Spout和Bolt线程,来负责Spout和Bolt组件处理任务(实际是开启的executor线程)

  作业:Topologies(死循环,不会结束)

  Spout:获取数据的组件

  Bolt:处理数据的组件

  Stream:Spout和Bolt之间数据流动的通道

  Tuple:

  1)Stream的最小组成单位,Spout向Bolt发送一次数据叫一个Tuple

  2)同一个Stream中Tuple的类型相同,不同的Stream中可能相同/不同

  3)一个key-value形式的Map

  数据流分发策略(Stream groupings):

  解决Spout和Bolt之间数据传输(发送Tuple元组)的问题

  1)shuffleGrouping:

  随机派发Stream中的Tuple到Bolt中

  2)fieldsGrouping:

  根据字段的哈希值与Bolt个数进行取模操作然后进行分组发送,一个节点是一个Worker, 一个Bolt是一个task, 全部节点的Spout或Bolt的个数叫并发度。

  Storm并发度设置:

  1.Worker并发度:

  首先按照集群规模和集群的物理位置来设定

  一般会把Worker均分到每一个节点里, 一个supervisor默认设置一个Worker

  2.Spout数量设定:

  Spout总数默认等于Kafka(消息中间件)对应Topic的分区数,提高吞吐速度

  一般一个Worker设置一个Spout

  3.Bolt1数量设定:

  首先根据数据量和处理数据的时间来设定

  一般情况下, Bolt1的数量是Spout数量的2倍(根据项目进行修改)

  4.Bolt2数量设定:

  首先根据数据量和处理数据的时间来设定,因为Bolt1传过来的中间结果数据已经减少很多,Bolt2的数量可以酌情减少。

  容错机制:异或方式<相同为,不同为1>

  tupleId - 产生新数据,会产生一个tupleId;

  整个过程中的tupleId按顺序两两异或到最后

  若结果为,则数据正确,否则错误

  messageId - 代表整条信息,API中指定提供给程序员,long型

  rootId - 代表某条信息,提供给storm框架

  出现数据运算失败的两种情况:

  execute(){

  1.异常(数据异常)

  2.任务运行超时 -- 认为处理失败

  }

  因为数据发送时导致的数据重复发送问题, 如何解决?

  Ⅰ.

  1.比如对订单信息做处理, 处理成功后, 把订单信息ID存储到Redis(set)

  2.信息发送时, 判断是否处理过此信息

  execute(){

  if()

  else()

  }

  Ⅱ.

  不作处理: 点击流日日志分析: pv, uv

  指标分析: 订单人数, 订单金额

  消息的可靠性保障和acker机制: open / nextTuple / ack / fail/ close

  Ⅰ.Spout类:

  在发送tuple时,Spout会提供一个msgId,用于在后续识别tuple;Storm会根据msgId跟踪创建的tuple树,直到某个tuple被完整处理,根据msgId调用最初发送tuple的Spout中ack()方法,检测到超时就调用fail()方法 -- 这两个方法的调用必须由最初创建这个tuple的Spout执行;当Spout从消息队列(Kafka/RocketMQ)中取出一条数据时,实际上没有被取出,而是保持一个挂起状态,等待消息完成的信号,挂起状态的信息不会被发送到其它的消费者;当该消息被"取出"时,队列会将消息体数据和一个唯一的msgId提供给客户端,当Spout的ack()/fail()方法被调用时,Spout根据发送的id向队列请求将消息从队列中移除/重新放入队列。

  Ⅱ.acker任务:

  高效的实现可靠性 -- 必须显式的在Bolt中调用定义在Spout中的ack()和fail()方法,Storm拓扑有一些特殊的称为"acker"的任务,负责跟踪Spout发送的tuple的DAG,当一个acker发现DAG结束后,它就会给创建Spout tuple的Spout任务发送一条消息,让这个任务来应答这个消息。acker并不会直接的跟踪tuple树,在acker树中存储了一个表,用于将Spout tuple的id与一对值相映射,id为创建这个tuple的任务id,第二个值为一个64bit的数字(ack val),这个值是这棵树中所有被创建的或者被应答的tuple的tuple id进行异或运算的结果值。

  Ⅲ.移除可靠性:

  1.将 Config.TOPOLOGY_ACKERS 设置为

  2.在SpoutOutputCollector.emit 方法中省略消息 id 来关闭 spout tuple 的跟踪功能

  3.在发送 tuple 的时候选择发送“非锚定”的(unanchored)tuple

“Storm并发度怎么设置”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注编程网网站,小编将为大家输出更多高质量的实用文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Storm并发度怎么设置

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Storm并发度怎么设置

本篇内容介绍了“Storm并发度怎么设置”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!  Storm架构:master/slave  主节点
2023-06-02

redis并发锁时间怎么设置

在 Redis 中实现并发锁,可以使用 SETNX(SET if Not eXists)指令。该指令会在键不存在时设置键的值,如果键已经存在,则不执行任何操作。在并发锁的场景中,可以将锁的持有者设置为一个唯一的标识,比如使用线程或进程的 I
2023-08-30

sqlserver最大并发数怎么设置

SQL Server 的最大并发数是由其配置和硬件资源决定的,可以通过以下几种方式来设置最大并发数:修改数据库连接池的最大连接数:可以通过修改数据库连接池的配置参数来设置最大并发数,例如在连接字符串中指定最大连接数的值。配置 SQL Ser
sqlserver最大并发数怎么设置
2024-04-09

php怎么设置并发连接数

php设置并发连接数的方法:1、找到php-fpm.conf配置;2、编辑选项【pm= static】、【request_terminate_timeout】、【pm.max_requests】。
2018-02-06

云服务器并发怎么设置

云服务器并发设置关乎性能和稳定性。调整虚拟CPU核数和内存容量可以提高并发处理能力。最佳实践包括基准测试、缓冲、横向扩展和动态调整。考虑应用类型、用户数量、并发峰值、资源限制和成本,以优化并发设置。
云服务器并发怎么设置
2024-04-13

golang的最大并发数怎么设置

Golang中的最大并发数是由操作系统的默认限制和Golang运行时的配置共同决定的。在Golang中,可以通过以下几种方式来控制最大并发数:使用runtime.GOMAXPROCS(n)函数设置Golang程序的最大并发数。该函数将Gol
golang的最大并发数怎么设置
2024-02-29

百度怎么设置php.ini

百度设置php.ini的方法:1、将下载好的php安装包解压;2、找到php.ini-development配置文件并将文件改成php.ini;3、修改配置内容即可。
2017-11-19

PostgreSQL并行计算算法及参数强制并行度怎么设置

这篇文章主要讲解了“PostgreSQL并行计算算法及参数强制并行度怎么设置”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“PostgreSQL并行计算算法及参数强制并行度怎么设置”吧!一、优
2023-06-29

weblogic并发数如何设置

WebLogic并发数可以通过调整以下两个参数来设置:1. MaxThreads:该参数控制WebLogic服务器的最大线程数,即同时处理客户端请求的最大并发数。可以通过修改WebLogic域的配置文件(如config.xml)来设置该参数
2023-09-01

react怎么设置div高度

react设置div高度的方法:1、通过css方式实现div高度;2、在state中声明一个对象C,并在该对象中存放更换按钮的样式,然后获取A并重新设置C中的“marginTop”即可。
2023-05-14

如何设置IIS Express并发数

这篇文章主要介绍“如何设置IIS Express并发数”,在日常操作中,相信很多人在如何设置IIS Express并发数问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何设置IIS Express并发数”的疑
2023-07-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录