我的编程空间,编程开发者的网络收藏夹
学习永远不晚

大数据存储技术基础

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

大数据存储技术基础

大数据存储技术基础

一、绪论

1.存储的本质

信息跨越空间的传递——通讯 

信息跨越时间的传递——存储

通讯:利用具有跨越空间特性的物理现象 ---声音、光、电

存储:利用具有时间稳态的物理现象 ---物理稳态、磁稳态、半导体稳态

什么是存储?

存储:

·它是数据临时或长期驻留的物理媒介;
·它是保证数据完整安全存放的方式或行为。

计算机存储系统:

指计算机中由存放程序和数据的各种存储设备(介质)、控制部件与接口及管理信息调度的设备(硬件)和算法(软件)所组成的系统。

存储的主要指标:

容量:可以存下多少东西

速度:读写带宽、读写次数/秒(IOPS)

持久性:数据能够保存多久 大小:体积是多少

方便性:是否方便移动和携带

功耗:消耗能耗高低

性价比:单位价格下主要指标如何,例如速度 、容量等指标; 

1.1存储介质的发展历程

(1)存储的历史

象形文字、石刻楔形文字、竹简、纸质印刷

现在进入“磁器时代”,大部分数据都是用硬盘保存,磁盘称为当今世界数据存储的主流技术

存储器设备:计算机系统中的记忆设备,用来存放程 序和数据

 (2)存储器的发展

存储器类别:打孔纸卡、穿孔纸带、威廉管、磁鼓、汞延迟线、超声波存储器、铁电存储磁芯、相变存储、可擦除可编程只读存储器、Flash、磁阻式随机存取内存

磁芯存储器:核心使用微小的磁环(环),核心通过线程来写入和读取信息。 每个核心代表一点信息。 磁芯可以以两种不同的方式(顺时针或逆时针)磁化,存储在磁芯中的位为零或一,取决于磁芯的磁化方向。 布线被布置成允许单个芯被设置为1或0,并且通过向所选择的导线发送适当的电流脉冲来改变其磁化。 读取内核的过程会导致内核重置为零,从而将其擦除。 这称为破坏性读数。 在不进行读写操作时,即使关闭电源,内核也会保持最后的值。 这使它们成为非易失性的。

 1955-1975:磁芯存储器统治了计算机随机存储器(RAM)

1964年:静态随机存取存储器(SRAM)

1969年:英特尔公司开发了第一个256位静态RAM

1966年:IBM公司发明了动态随机存取记忆体(DRAM)

各代DDR的主要改进:

SDRAM:(同步动态随机存储器)

Synchronous Dynamic Random Access Memory,一个时钟 周期内只传输一次数据,它是在时钟的上升期进行数据传输;

Memory工作需要同步时钟,内部的命令的发送与数据的传 输都以它为基准;

动态是指存储阵列需要不断的刷新来保证数据不丢失; 

DDR:Double Data Rate SDRAM

一个时钟周期内传输两次数据,它能够在时钟的上升期和 下降期各传输一次数据,称为双倍速率SDRAM ;

更先进的同步电路,使指定地址、数据的输送和输出主要 步骤既独立执行,又保持与CPU完全同步;

 

 

 

 

 3.DDR2:

在同等核心频率下,DDR2的实际工作频率是DDR的两倍。这得益于 DDR2内存拥有两倍于标准DDR内存的4BIT预读取能力 ;

在采用更低发热量、更低功耗的情况下,DDR2可以获得更快的频率 提升,突破标准DDR的400MHZ限制 ;

DDR2内存通常采用FBGA芯片封装形式,功耗和发热量更小。

DDR3:

突发长度(Burst Length,BL)。DDR3增加了一个4bit Burst Chop(突发突变)模式;

新增重置(Reset)功能,当Reset命令有效时,DDR3内存将停止所 有操作,并切换至少量活动状态,以节约电力 ;

寻址时序(Timing),DDR2的CL(CAS Latency)范围一般在2~5 之间,而DDR3则在5~11之间。  

DDR4:

相比DDR3大的区别有三点:16bit预取机制(DDR3为8bit),同样内核频率下理论速度是DDR3的两倍;更可靠的传输规范,数据可 靠性进一步提升;工作电压降为1.2V,更节能。

相变存储

在1969年Charles Sie的论文中提出这项存储技术 ;

三星公司成为第一个成为开发出PCRAM的公司, 美光公司则已经生产出容量为1Gb的芯片;

相变内存具有高速存取和非易失的特性

磁阻式随机存取内存MRAM 

1989年:磁阻式随机存取内存MRAM (MagnetoresistiveRandom Access Memory)

MRAM接近静态随机存储器(SRAM)的高速读 取写入能力,以及动态随机存储器(DRAM)的 高集成度 

IBM在上世纪八九十年代最早开始研发,但其商业 化的步伐依然没有取得进展,目前仍处于研发阶段

(3)辅存储器的变迁

磁带、 磁盘、软盘、 光盘、固态盘

闪存的主要优点:非易失、体积小、重量轻、低能耗、无噪声、抗震动

我们平时用的固态硬盘(SSD)就是flash组成的磁盘阵列。

 

 

(2018年3月,100TB固态硬盘上 市:Nimbus Data公司的 ExaDriveDC100系列固态硬盘) 

 

注:内存条一般是用DRAM技术做成的,而Cache一般是用SRAM做成的

1.2 硬件存储接口技术的发展

 

 

 

总线技术:

 

 

 System Bus :连接CPU 和Memory ;

Local (I/O) Bus :从外部设备搬运数据 ;

Bus 指标: 

  BUS width measured in bits ;

  Bus speed measured in MHz ;

  Throughput measured in MB/S;

 

连接协议

1.存储总线接口:IDE/ATA 

 

· IDE:Integrated Device Electronics
  · ATA指令集(Advanced Technology Attachment:1986 年)
  · CalledPATA:并行的ATA80芯数据线

·上世纪90年代最流行的现代硬盘接口之一

·最大:133 Mbps,低价格上的好性能

·Desktop 和laptop系统

·Inexpensive 存储链接interconnect

 

2.SCSI:Small Computer System Interface

SCSI:服务器最流行的硬盘接口,1986标准化

  ·高速数据传输、带宽大、热插拔:320MB/S;连接设备8-16个

  ·支持多个数据的同时访问

较IDE/ATA价格昂贵

并行模式SCSI

主用在“高端计算” 环境中

 

 

 

3.存储总线接口:SATA/ATA 

 

SATA协议:Serial串行ATA(IDE:并行ATA)
  ·ATA指令集,串行线路传输数据,2000年
  ·传输率高、可靠性强、针脚少(6-8)
  ·目前最高速率600MB/S
  ·桌面系统和服务器,稍贵的存储链接:相对IDE

SAS(Serial Attached SCSI):串行模式SCSI接口
  ·3.0 Gbps-6Gbps
  ·高端服务器

4.Internal DAS Connectivity Examples

主机外连存储设备的构件Components

 

 

 

 

 

 

FibreChannel:光纤通道FC

 

 

外部存储接口SCSI与FC比较

FibreChannel:可支持SCSI 指令集  

  高带宽:2-8Gbps

  传输距离远:长达150m ~ 50km

  确定性低延迟:微秒级端到端 延迟;

  低误码率:小于10-12 ;

  抗干扰能力强:对电磁干扰有 天然的免疫力

  Dual-ported drives

SCSI :

  320MB/S

  有限的距离

  有限的设备数目: 大8-16

  Usually limited to single initiator

  Single-ported drives

 

Fibre Channel Connectivity

 

 

Bus 技术-PCI

PCI:Peripheral Component Interconnect(外设 部件互连)

  计算机内的局部并行总线标准

  广泛用于当前高档微机和便携式微机。主要用于连接显示 卡、网卡、声卡。主板带有多数量的插槽类型

  高速链接微处理器和外部设备

  即插即用功能

  32/64 bit;133 MB/sec

Bus 技术-PCIe 

PCI Express: Evolved from PCI and PCI-X™ architectures 

  高速串行替换协议for PCI and PCI-X;

  高8GB/s总 线带宽

  PCI Express链路是两个设备之间(PCI Express端口) 的点对点通信通道

  Implements packet based protocol for information transfer

  在物理层面上,一条链路由一条或多条通道组成,包含1 个到32个通道,更精确地包括1,2,4,8,12,16或32个通道 

    •例如,低速外设(例如802.11 Wi-Fi卡)使用单通道(×1) 链路,而图形适配器通常使用更宽更快的16通道链路。

PCI vs PCIe的速度比较

 

 SCSI协议结构

 

 

 

1.3 存储系统基本结构形式

存储系统:

  1)存储资源组合:提供大容量、高性能、低价格、 高可用、高安全的存储系统为目的

    ·•存储资源单元:寄存器、SRAM、DRAM、Flash、硬盘、磁 带、光盘 

  2)各种层次和规模的组合:大/快/便宜的存储器 

    经典的组合---Cache和VM(虚拟内存)

       •Cache-:SRAM与DRAM的组合

       •VM:DRAM 与DISK的组合(看起来又大又快又便宜 的存储器)

存储层次–速度和开销:

 

 

 

 磁盘阵列 

集成大量廉价的小型磁盘存储器构造出磁盘阵列: 

    “分块”、“交叉存取”以及冗余容错等技术

    容量大、可靠性高、性能高

(个人认为磁盘阵列一般都要附加一个阵列控制器 例如RAID Controller)

 

直接附加存储Direct  Access Storage

  以服务器为中心:存储设备通过总线(SCIS线等) 直接连接到主机上,受控于主机

    ·存储设备内部利用SCSI总线通道或FC通道、IDE接口连接多个磁盘,实现RAID技术,形成一个磁盘阵列,从而解决了数据容错、大存储空间的问题

  优点:简单、便宜、易于安装部署管理

 

 

 

存储的逻辑卷和文件系统概念

1.块设备

  (1)以Block为基本读写单位的设备

     •磁盘:“Block”指Sector

     •闪存:“Block”指Page或Subpage

     •RAID:“Block”指Stride

  (2)键盘、鼠标不是块设备,它们以字节流的形式读写

  (3)网卡不是块设备,但通过网卡连接的iSCSI存储设备是块设备 

2.物理卷(Physical Volume) 

  将一个块设备划分成几个部分,每部分称作一个物理卷(也称“分区”)

  物理卷的引入使大容量块设备的管理更容易

  每个物理卷被划分成许多大小一致的Physical Extents(物理块)

3.卷组(Volume Group)

  大量的物理卷组成一个存储池,叫卷组

    •卷组可包含多个块设备上的物理卷

    •一个块设备上的物理卷可处于多个卷组中

  卷组的引入为可伸缩的存储空间管理提供基础 

4.逻辑卷(Logical Volume) 

  卷组包含多个物理卷,每个物理卷包含大量Physical Extents,逻辑卷管理器从这些Physical Extents拿出一部分组成逻辑卷

     •逻辑卷由大量Logical Extents组成

     •逻辑卷的每个Logical Extent对应物理卷的一个Physical Extent

     •同一逻辑卷的Logical Extents可来自不同的物理卷,同一物理卷的 Physical Extents可处于不同的逻辑卷中

  每个逻辑卷上安装一个文件系统,逻辑卷通过增加和减少Logical Extent调整大小,导致文件系统的容量是可伸缩的

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

大数据存储技术基础

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

大数据存储技术基础

一、绪论1.存储的本质信息跨越空间的传递——通讯 信息跨越时间的传递——存储通讯:利用具有跨越空间特性的物理现象 ---声音、光、电存储:利用具有时间稳态的物理现象 ---物理稳态、磁稳态、半导体稳态什么是存储?存储:·它是数据临时或长期驻留的物理媒介;·它是
大数据存储技术基础
2018-01-24

Android数据存储基础:

1.基础: 1.1.Android 数据存储路径: 内部存储:/data/data/packageName/databases: 数据库/data/data/packageName/file:   内部存储/data/data/packag
2022-06-06

Android基础教程数据存储之文件存储

Android基础教程数据存储之文件存储将数据存储到文件中并读取数据1、新建FilePersistenceTest项目,并修改activity_main.xml中的代码,如下:(只加入了EditText,用于输入文本内容,不管输入什么按下b
2023-05-30

数据库数据加密存储技术有哪些

数据库数据加密存储技术主要包括以下几种:1. 对称加密:使用同一密钥对数据进行加密和解密。2. 非对称加密:使用一对公钥和私钥对数据进行加密和解密。3. 散列加密:将数据通过散列函数进行加密,生成固定长度的散列值。4. 混淆加密:将数据进行
2023-06-08

C++技术中的大数据处理:如何有效存储和检索大数据集?

c++++ 中大数据处理的有效存储和检索策略:存储策略:数组和向量(快速访问)、链表和列表(动态插入和删除)、散列表(快速查找和检索)、数据库(可扩展性和灵活的数据管理)。检索技巧:索引(快速查找元素)、二分查找(有序数据集的快速查找)、散
C++技术中的大数据处理:如何有效存储和检索大数据集?
2024-05-11

Android 基础笔记 04 篇:数据存储篇

存储模式 Android 提供了四种存储模式: 专属空间存储:以该模式存储的数据只允许特定的应用程序访问。共享空间存储:以该模式存储的数据,所有应用都可以访问。首选项存储:常用于保存键值对数据。本地数据库存储:常用于保存结构体数据。 专属空
2022-06-06

ava基础MySQL存储过程 Java基础 JDBC连接MySQL数据库

1、MySQL存储过程      1.1、什么是存储过程      带有逻辑的sql语句;带有流程控制语句(if  while)等等 的sql语句  1.2、存储过程的特点      1)执行效率非常快,存储过程是数据库的服务器端执行的。      2)移植性
ava基础MySQL存储过程  Java基础 JDBC连接MySQL数据库
2019-07-25

详解数据存储的六种可选技术

数据存储是指将数据保存在计算机系统或其他存储设备中的过程。在选择数据存储技术时,需要考虑数据的类型、规模、访问模式以及存储需求等因素。以下是六种常见的数据存储技术:1. 关系型数据库(RDBMS):关系型数据库是最常见的数据存储技术之一。它
2023-09-25

C++技术中的大数据处理:如何使用图形数据库存储和查询大规模图数据?

c++++ 技术可通过利用图形数据库处理大规模图数据。具体步骤包括:创建 tinkergraph 实例,添加顶点和边,制定查询,获取结果值,并将结果转换为列表。C++ 技术中的大数据处理:利用图形数据库存储和查询大规模图数据大规模图数据已
C++技术中的大数据处理:如何使用图形数据库存储和查询大规模图数据?
2024-05-11

人工智能的大规模存储基础设施

编程学习网: 大规模的人工智能(AI)在容量和性能方面提高了存储基础设施的门槛。对于人工智能或机器学习(ML)环境,期望增长到数十个甚至数百TB的容量并不少见。
人工智能的大规模存储基础设施
2024-04-23

零基础转行学习大数据技术需要经过哪些学习步骤?

首先,当前通过学习大数据技术来进入IT行业发展是比较不错的选择,一方面当前的大数据技术已经趋于成熟,有很多案例可以参考学习,另一方面当前大数据领域的就业机会也相对比较多,岗位涉及到大数据分析、大数据开发、大数据运维等。 大数据技术体系的知识量是比较大的,而且涉
零基础转行学习大数据技术需要经过哪些学习步骤?
2016-06-25

编程热搜

目录