Spark中Broadcast的理解
短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
广播变量
应用场景:在提交作业后,task在执行的过程中,
有一个或多个值需要在计算的过程中多次从Driver端拿取时,此时会必然会发生大量的网络IO,
这时,最好用广播变量的方式,将Driver端的变量的值事先广播到每一个Worker端,
以后再计算过程中只需要从本地拿取该值即可,避免网络IO,提高计算效率。
广播变量在广播的时候,将Driver端的变量广播到每一个每一个Worker端,一个Worker端会收到一份仅一份该变量的值
注意:广播的值必须是一个确切的值,不能广播RDD(因为RDD是一个数据的描述,没有拿到确切的值),
如果想要广播RDD对应的值,需要将该RDD对应的数据获取到Driver端然后再进行广播。
广播的数据是不可改变的。
广播变量的数据不可太大,如果太大,会在Executor占用大量的缓存,相对于计算的时候的缓存就少很多。
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341