【赵强老师】什么是Spark SQL?
一、Spark SQL简介Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL?我们已经学习了Hive,它是将Hive SQL转换成MapRed
2024-11-16
【赵强老师】在Spark SQL中读取JSON文件
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL?如果大家了解Hive的话,应该知道它是将Hive SQL转换成MapReduce然后提交到
2024-11-16
【赵强老师】在MongoDB中使用游标
一、什么是游标?游标(Cursor)是处理数据的一种方法,为了查看或者处理结果集中的数据,游标提供了在结果集中一次一行或者多行前进或向后浏览数据的能力。游标实际上是一种能从包括多条数据记录的结果集中每次提取一条记录的机制。游标可以被看作是一个查询结果集(可以是
2024-11-16
【赵强老师】什么是Redis Cluster
(一)什么是Redis Cluster?Redis Cluster是Redis的分布式解决方案,在Redis 3.0版本正式推出的,有效解决了Redis分布式方面的需求。当遇到单机内存、并发、流量等瓶颈时,可以采用Cluster架构达到负载均衡的目的。Redi
2024-11-16
【赵强老师】MongoDB插入文档
MongoDB是非关系型数据库NoSQL的代表,作为一款可分布式存储的数据库,对文档的操作是MongoDB的重中之重。在本文中,我们将着重为大家介绍如何在MongoDB中插入文档。MongoDB一共为我们提供了三种方式用于插入文档:db.collection.
2024-11-16
【赵强老师】Kafka的持久化
一、Kafka持久化概述Kakfa 依赖文件系统来存储和缓存消息。对于硬盘的传统观念是硬盘总是很慢,基于文件系统的架构能否提供优异的性能?实际上硬盘的快慢完全取决于使用方式。同时 Kafka 基于 JVM 内存有以下缺点:对象的内存开销非常高,通常是要存储的数
2024-11-16
【赵强老师】搭建Hadoop环境
说明:这里我们以本地模式和伪分布模式伪列,为大家介绍如何搭建Hadoop环境。有了这个基础,大家可以自行搭建Hadoop的全分布模式。需要使用的安装介质:hadoop-2.7.3.tar.gzjdk-8u181-linux-x64.tar.gzrhel-ser
2024-11-16
【赵强老师】什么是PL/SQL?
一、什么是PL/SQL? PL/SQL(Procedure Language/SQL)是oracle在标准的sql语言上的扩展。ql/sql不仅允许嵌入sql语言,还可以定义变量和常量,允许私用条件语句和循环语句,允许使用例外处理各种错误,这使得它的功能变得更
2024-11-16
【赵强老师】Redis的RDB持久化
Redis 提供了多种不同级别的持久化方式: RDB 持久化可以在指定的时间间隔内生成数据集的时间点快照(point-in-time snapshot)。 AOF (Append-only file)持久化记录服务器执行的所有写操作命令,并在服务器启动时
2024-11-16
【赵强老师】Kafka的体系架构
一、什么是Kafka?数据工程中最具挑战性的部分之一是如何从不同点收集和传输大量数据到分布式系统进行处理和分析。需要通过消息队列正确地分离大量数据,因为如果一部分数据无法传送,则可以在系统恢复时传输和分析其他数据。有两种消息排队,对于上述目的,它们都是可靠的和
2024-11-16
【赵强老师】SQL的字符函数
字符函数,顾名思义,操作的就是字符串。通过下图,我们来了解一下Oracle的字符函数。 一、大小写控制函数lower、upper、initcapselect lower("Hello World") 转小写,upper("Hello World") 转大写,
2024-11-16
【赵强老师】HBase的体系架构
一、什么是HBase?HBase是一个基于HDFS之上的分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“BigTable大表”,即:把所有的数据存入一张表中。就像Bigtable利用了Google文件系统(File S
2024-11-16
【赵强老师】数据库的事务
一、什么是事务?数据库事务(Transaction)是访问并可能操作各种数据项的一个数据库操作序列,这些操作要么全部执行,要么全部不执行,是一个不可分割的工作单位。事务由事务开始与事务结束之间执行的全部数据库操作组成。例如:从A账号给B账号转帐,对应于如下两条
2024-11-16
【赵强老师】Oracle RAC集群的概念
一、什么是Oracle RAC(Real Application Cluster)?Oracle RAC 是一个具有共享缓存架构的集群数据库,它克服了传统的无共享方法和共享磁盘方法的限制,为您的所有业务应用提供了一种具有高度可扩展性和可用性的数据库解决方案。O
2024-11-16
【赵强老师】MySQL高可用架构:MHA
MHA(Master HA)是一款开源的 MySQL 的高可用程序,它为 MySQL 主从复制架构提供了 automating master failover 功能。MHA 在监控到 master 节点故障时,会提升其中拥有最新数据的 slave 节点成为新的
2024-11-16
【赵强老师】Kafka的消息持久化
1、Kafka消息持久性概述Kakfa依赖文件系统来存储和缓存消息。对于硬盘的传统观念是硬盘总是很慢,基于文件系统的架构能否提供优异的性能?实际上硬盘的快慢完全取决于使用方式。同时 Kafka 基于 JVM 内存有以下缺点:对象的内存开销非常高,通常是要存储的
2024-11-16
【赵强老师】MongoDB的inMemory存储引擎
一、MongoDB的存储引擎概述存储引擎(Storage Engine)是MongoDB的核心组件,负责管理数据如何存储在硬盘(Disk)和内存(Memory)上。从MongoDB 3.2 版本开始,MongoDB 支持多数据存储引擎(Storage Engi
2024-11-16
【赵强老师】Weblogic域和域的组成
一、什么是WeblogicWebLogic是美国Oracle公司出品的一个application server,确切的说是一个基于Java EE架构的中间件,WebLogic是用于开发、集成、部署和管理大型分布式Web应用、网络应用和数据库
2024-11-16
【赵强老师】大数据分析引擎:Presto
一、什么是Presto?背景知识:Hive的缺点和Presto的背景Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。Presto是一
2024-11-16
【赵强老师】使用MongoDB的Web控制台
MongoDB可以通过web界面监控数据库,默认情况下该选项是关闭的,需要在启动的时候开启。启用web 控制台,需要在启动mongodb的时候,加上:--httpinterface启动MongoDB,观察输出的日志信息: 使用浏览器访问28017端口,即可看
2024-11-16