我的编程空间,编程开发者的网络收藏夹
学习永远不晚

RDBMS数据定时采集到HDFS

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

RDBMS数据定时采集到HDFS

[toc]


RDBMS数据定时采集到HDFS

前言

其实并不难,就是使用sqoop定时从MySQL中导入到HDFS中,主要是sqoop命令的使用和Linux脚本的操作这些知识。

场景

在我们的场景中,需要每天将数据库中新增的用户数据采集到HDFS中,数据库中有time字段,
用以标识该用户信息录入数据库的时间,所以下面的数据导入操作也是依赖于这个字段。

数据准备

在MySQL数据库中准备如下数据:

##构建sql的操作
create DATABASE IF NOT EXISTS db_log_statics;
use db_log_statics;
CREATE TABLE `t_user_info` (
  `id` bigint(20) NOT NULL,
  `name` varchar(20) COLLATE utf8_bin DEFAULT NULL,
  `address` varchar(20) COLLATE utf8_bin DEFAULT NULL,
  `time` date DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_bin;

insert into `t_user_info` (`id`, `name`, `address`, `time`) values('1','张三','北京朝阳','2018-04-05');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('2','李四','河南洛阳','2018-04-05');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('3','王五','广东邵阳','2018-04-05');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('4','赵六','山东德州','2018-04-07');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('5','周七','山东青岛','2018-04-07');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('6','魏八','福建厦门','2018-04-07');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('7','王二麻子','山西五台山','2018-04-06');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('8','王大锤','陕西榆林','2018-04-06');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('9','燕小六','云南大理','2018-04-06');
insert into `t_user_info` (`id`, `name`, `address`, `time`) values('10','雷布斯','湖北仙桃','2018-04-06');

脚本编写

exportUser2HDFS.sh

#!/bin/env bash

# shell中引用外部文件的变量
source /home/uplooking/shells/db-mysql.conf

# source 系统的环境变量
source ~/.bash_profile
# 日期变量
today=`date +%Y-%m-%d`
yesterday=`date -d"1 day ago" +%Y-%m-%d`

/home/uplooking/app/sqoop/bin/sqoop import \
--connect jdbc:mysql://${stat_ipaddr}:${stat_port}/${stat_dbname} \
--username ${stat_uname} \
--password ${stat_upwd} \
--target-dir hdfs://ns1/input/t_user/${yesterday} \
--query "SELECT id, name, address, time FROM t_user_info WHERE time >='${yesterday}' AND time < '${today}' AND \$CONDITIONS" \
-m 1 --fields-terminated-by "," --split-by ","

db-mysql.conf

#统计库数据库ip地址
stat_ipaddr=192.168.43.116
#统计库端口
stat_port=3306
#统计库名称
stat_dbname=db_log_statics
#统计库用户名
stat_uname=root
#统计库密码
stat_upwd=root

编写定时任务

crontab -e

# 要求每天凌晨2点10分同步数据
10 2 * * * /bin/bash /home/uplooking/shells/exportUser2HDFS.sh >/dev/null 2>&1 &

需要注意的是,如果在Notepad++中远程编辑shell脚本文件,在Linux中是无法执行的,原因为,此时在Linux中用vim查看文件格式:set ff,会发现为:fileformat=dos,而正常我们在Linux中编辑的文件应该为:fileformat=unix,所以解决方案为:set ff=unix

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

RDBMS数据定时采集到HDFS

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Flume采集数据时在HDFS上产生大量小文件的问题怎么办

这篇文章主要为大家展示了“Flume采集数据时在HDFS上产生大量小文件的问题怎么办”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“Flume采集数据时在HDFS上产生大量小文件的问题怎么办”这篇
2023-06-02

数据采集要用到代理IP吗

这篇文章主要介绍“数据采集要用到代理IP吗”,在日常操作中,相信很多人在数据采集要用到代理IP吗问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”数据采集要用到代理IP吗”的疑惑有所帮助!接下来,请跟着小编一起来
2023-06-25

如何从指定的网络端口上采集日志到控制台输出和HDFS

小编给大家分享一下如何从指定的网络端口上采集日志到控制台输出和HDFS,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!需求1:从指定的网络端口上采集日志到控制台输出和HDFS负载算法故障转移:可以指定优先级,数字越大越优先a
2023-06-02

sqlserver实时数据采集怎么实现

在 SQL Server 中实现实时数据采集可以通过以下几种方法来实现:使用 Change Data Capture (CDC):SQL Server 提供了 CDC 功能,可以捕获数据库表中的更改,并将这些更改存储在 CDC 控制表中。通
sqlserver实时数据采集怎么实现
2024-04-09

如何设置阿里云数据库采集数据时间

阿里云数据库是阿里云提供的一种高性能、高可用的数据库服务,它可以满足不同业务场景下的数据存储和处理需求。然而,为了保证数据的准确性和完整性,我们需要设置阿里云数据库采集数据的时间。本文将详细说明如何设置阿里云数据库采集数据时间。一、如何设置阿里云数据库采集数据时间阿里云数据库的采集数据时间是通过配置参数来设置的。
如何设置阿里云数据库采集数据时间
2023-10-29

Android实现语音数据实时采集、播放

最近做的项目是和语音实时采集并发送,对方实时接收并播放相关,下面记录下实现的核心代码。 很多Android开发者应该知道android有个MediaRecorder对象和MediaPlayer对象,用于录制和播放音频。这个弊端在于他们不能
2022-06-06

数据采集时需要注意哪些问题

本篇文章给大家分享的是有关数据采集时需要注意哪些问题,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1、线下调研紧紧围绕研究主题和目的。题目易读,易理解,一般。充分考虑被调人的特
2023-06-14

详解火车头采集器免登录采集数据发布到DEDECMS织梦的方法

将dede/config.php中的下面代码://检验用户登录状态 $cuserLogin = new userLogin();if($cuserLogin->getUserID()==-1){header("location:loghtt
2022-06-12

Flume的Source怎么实现采集数据到通过内存输出到控制台

本篇内容介绍了“Flume的Source怎么实现采集数据到通过内存输出到控制台”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!需求: F
2023-06-02

使用Kettle定时从数据库A同步数据到数据库B

一、需求背景 由于项目场景原因,需要将A库(MySQL)中的表a、表b、表c中的数据定时T+1 增量的同步到B库(MySQL)。这里说明一下,不是数据库的主从备份,就是普通的数据同步。经过技术调研,发现Kettle挺合适的,原因如下: Ke
2023-08-24

python爬虫等获取实时数据+Flume+Kafka+Spark Streaming+mysql+Echarts实现数据动态实时采集、分析、展示

使用爬虫等获取实时数据+Flume+Kafka+Spark Streaming+mysql+Echarts实现数据动态实时采集、分析、展示主要工作流程如下所示:其中爬虫获取实时数据,并把数据实时传输到Linux本地文件夹中。使用Flume实时监控该文件夹,如果
python爬虫等获取实时数据+Flume+Kafka+Spark Streaming+mysql+Echarts实现数据动态实时采集、分析、展示
2020-03-13

Linux定时备份数据库到指定邮箱的方法

一、配置邮箱 这里使用的是网易邮箱126邮箱的STMP服务,服务器是smtp.126.com。如果你使用其它第三方邮箱,在帐号设置那里一般都有说明SMTP服务器地址。 如果你的Ubuntu没有安装mail模块,则需要执行这条命令来安装邮件模
2022-06-04

编程热搜

目录