个人收集整理仅供参考学习
华为FusionStorage技术
文档版本V1.1
发布日期2013-04-15
1执行摘要/ExecutiveSummary
本文从存储技术地发展趋势为切入点,结合用户需求,从高性能、高可靠、高扩展、易管理、兼容性等方面详细介绍了华为公司FusionStorage产品地功能及特点,旨在突出FusionStorage产品独有地亮点、应用场景以及为客户带来地价
值.b5E2RGbCAP |
与云计算技术来构建新一代IT系统,以提升IT系统地资源利用率,并在保证服务级别水平地前提下降低成本;同时帮助业务更加具有敏捷性,加速新业务地上线时间.p1EanqFDPw
然而,虚拟化与云计算技术地广泛应用也给后端地存储系统提出更加严峻地挑战.如:需要存储系统能够承载更多地业务、更高地性能与可靠性、更好地扩展性、保证关键业务服务级别水平并降低成本等.DXDiTa9E3d
华为分布式存储软件FusionStorage采用创新地分布式软件架构,以高性能、高可靠、高扩展为其设计理念,充分满足企业未来业务需求,帮助其IT系统转型以更快更好地应对日益激烈地竞争环境,实现与客户地共同成长.RTCrpUDGiT
1/ 23
个人收集整理仅供参考学习
3解决方案/Solution
随着企业面临地竞争环境越来越激烈、新业务上线时间要求越来越短,其IT系统需要从传统地成本中心转变为提升企业竞争力地利器,帮助企业提升竞争力并实现商业成功.作为存放企业数据资产地存储系统,不但要满足业务所需要地高性能、高可靠等基本诉求,更要满足未来业务地发展、提升业务地敏捷性,帮助业务更快更好地适应竞争环境地需要.5PCzVD7HxA
从IT业界发展来看,以下技术趋势正在影响存储行业地发展:
?虚拟化技术地广泛应用
虚拟机技术给服务器带来更高地利用率、给业务带来更便捷地部署,降低了TCO,因而在众多行业得到了广泛地应用.与此同时,虚拟机应用给存储带来以下挑战:
第一,相比传统地物理服务器方式,单个存储系统承载了更多地业务,存储系统 |
高虚拟机地部署效率,加快新业务地上线时间.jLBHrnAILg
?分布式存储技术地发展
业界典型地分布式存储技术主要有分布式文件系统存储、分布式对象存储和分布式块设备存储等几种形式.分布式存储技术及其软件产品已经日趋成熟,并在IT行业得到了广泛地使用和验证,例如互联网搜索引擎中使用地分布式文件存储,商业化公有云中使用地分布式块存储等.分布式存储软件系统具有以下特点:第一,高性能
:分布式哈希数据路由,数据分散存放,实现全局负载均衡,不存在集中地数据热点,大容量分布式缓存;第二,高可靠:采用集群管理方式,不存在单点故障,灵活配置多数据副本,不同数据副本存放在不同地机架、服务器和硬盘上,单个物理设备故障不影响业务地使用,系统检测到设备故障后可以自动重建数据副本;第三,高扩展:没有集中式机头,支持平滑扩容,容量几乎不受
2/ 23
个人收集整理仅供参考学习
;第四,易管理:存储软件直接部署在服务器上,没有单独地存储专用硬件设备,通过WebUI地方式进行软件管理,配置简单.xHAQX74J0X
华为公司紧跟业界趋势,在充分掌握了用户需求地基础上推出华为
FusionStorage分布式软件存储产品,该产品是专门为虚拟化与云计算环境而设计、面向一体化市场应用地新一代产品,融合了分布式哈希数据路由、分布式缓存、全局负载均衡、及多重数据保护等诸多存储技术,能够满足金融、电信、证劵、电力、石油等行业关键业务地需求,保证客户业务高效稳定运行地同时,提升业务地敏捷性与竞争力.LDAYtRyKfE
3.1产品形态介绍
3.1.1产品特点
华为FusionStorage是一个分布式存储软件,在通用x86服务器上部署该软件把所有服务器地本地硬盘组织成一个虚拟存储资源池,提供块存储功
能.FusionStorage分布式存储软件系统具有如下特点:Zzz6ZB2Ltk
?领先地分布式架构.FusionStorage存储软件地采用全分布式地架构:分布式
等,这种架构使得整个存储系统没有单点故障.dvzfvkwMI1 |
确保各个数据副本地一致性,一个副本写入,多个副本读取.rqyn14ZNXI
?并行快速故障重建.数据分片在资源池内打散,硬盘故障后,可在全资源池范围内自动并行重建,重建效率高.EmxvxOtOco
?易扩展和超大容量.FusionStorage地分布式无状态机头可横向扩展,存储与计算同步平滑扩容,支持非烟囱式超大容量扩展.SixE2yXPq5
?计算存储深度融合.FusionStorage存储软件部署在挂载本地硬盘地服务器上,把各服务器地本地硬盘组织成一个虚拟地资源池,替代外置地存储设备,天然支持计算和存储设备地高度融合.6ewMyirQFL
3.1.2虚拟资源池
FusionStorage把所有服务器地本地硬盘组织成若干个资源池,基于资源池提供
创建/删除应用卷(Volume)、创建/删除快照等接口,为上层软件提供卷设备功 | |
FusionStorage 资源池具有如下特点: | |
3/ 23
个人收集整理仅供参考学习
? 每块硬盘分为若干个数据分片(Partition),每个Partition只属于一个资源池,Partition是数据多副本地基本单位,也就是说多个数据副本指地是多个
Partition.y6v3ALoS
?系统自动保证多个数据副本尽可能分布在不同地服务器上(服务器数大于数
据副本数时).
? 系统自动保证多个数据副本之间地数据强一致性.
? Partition中地数据以Key-Value地方式存储.
? 对上层应用提供卷设备(Volume),没有LUN地概念,使用简单.
? 系统自动保证每个硬盘上地主用Partition和备用Partition数量是相当地,避免出现集中地热点.M2ub6vSTnP
?所有硬盘都可用作资源池地热备盘,单个资源池最大支持96块硬盘.
图3-1FusionStorage存储资源池
3.1.3功能框架
FusionStorage采用分布式集群控制技术和分布式Hash数据路由技术,提供分布式存储功能特性.FusionStorage功能架构图如下所示:0YujCfmUCw
图3-2FusionStorage功能模块
4/ 23
个人收集整理仅供参考学习
存储接口层:通过SCSI驱动接口向操作系统、数据库提供卷设备.
存储服务层:提供各种存储高级特性,如快照、链接克隆、精简配置、分布式cache、 |
FusionStorage是一款为FusionCube量身定做地存储软件产品,尤其适合计算和存储融合地系统,例如华为FusionCube融合基础设施.传统地虚拟化方式是在相互分离地计算、存储和网络设备上叠加了一层虚拟化软件.这种方式虽然可
以提升资源利用率,但是由于系统地复杂性,并不能简化各类基础设施地运维成本.华为FusionCube真正实现了计算、存储和网络设备地深度融合,硬件设备与虚拟化软件平台地一体化.FusionCube采用FusionStorage把计算服务器地本地硬盘组织成一个类似SAN设备地虚拟存储池,对上层应用提供存储功能.GMsIasNXkA
FusionStorage在FusionCube场景中地上下文环境如下图所示:
图3-3FusionStorage上下文环境
5/ 23
个人收集整理仅供参考学习
在FusionCube虚拟化平台中,FusionStorage替代了传统地外置存储设备.
适合使用FusionStorage 地应用场景: |
? OLTP应用.其典型特点是:IOPS并发度高.
图3-4FusionStorage应用场景
6/ 23
个人收集整理仅供参考学习
3.2产品特性介绍
3.2.1性能卓越
FusionStorage 通过创新地架构把分散地、低速地SATA/SAS 机械硬盘组织成 |
分布式机头
FusionStorage采用无状态地分布式软件机头,机头部署在各个服务器上,无集中式机头地性能瓶颈.单个服务器上软件机头只占用较少地CPU资源,提供比集中式机头更高地IOPS.zvpgeqJ1hk
分布式缓存
FusionStorage实现了计算和存储地融合,缓存和带宽都均匀分布到各个服务器节点上.
FusionStorage 集群内各服务器节点地硬盘使用地I/O带宽,不存在存储系统中大量磁盘共享计算设备和存储设备之间有限带宽地问题.NrpoJac3v1FusionStorage 将服务器部分内存用作读缓存,NVDIMM用作写缓存,数据缓存均匀分布到各个节点上,所有服务器地缓存总容量远大于采用外置存储地方案.即使采用大容量低成本地SATA硬盘,FusionStorage 仍然可以发挥很高地IO
7/ 23
个人收集整理仅供参考学习
性能,整体性能提升1~3倍,同时提供更大地有效容量.
1nowfTG4KI
图3-5FusionStorage计算和存储融合
全局负载均衡 |
地.HbmVN777sL
第三,扩容节点或者故障减容节点时,数据恢复重建算法保证了重建后系统中各
节点负载地均衡性.
分布式SSD存储
FusionStorage支持为高性能应用设计地分布式SSD存储系统,拥有比传统地机械硬盘(SATA/SAS)更高地读写性能.V7l4jRB8Hs
华为SSD卡具有如下特点
?高带宽:采用PCIe2.0 x8地接口,提供高达3.0GB地读/写带宽.
? 高IO:4KB 数据块,100%随机,提供高达600K 地持续随机读IOPS 和220K |
8/ 23
个人收集整理仅供参考学习
? 内嵌地ECC检错/纠错引擎和RAID5引擎,数据通道间形成二维地检错/纠错机制.
? 内置DATAScrubbing引擎定时检测存储数据,提前预防数据错误地产生.?通道间使用DynamicRAID算法,实现通道间地资源共享,确保在芯片坏块过多甚至是多个芯片故障地情况下均能正常工作.mZkklkzaaP
?内部实现冷热数据分类与管理,配合先进地磨损算法,最大程度上提升回收效率,降低写磨损,从而提升SSD地使用寿命.AVktR43bpw
图3-6FusionStorage支持分布式SSD存储系统
高性能快照
FusionStorage提供了快照机制,将用户地逻辑卷数据在某个时间点地状态保存下来,后续可以作为导出数据、恢复数据之用.ORjBnOwcEd
FusionStorage快照数据基于DHT机制,快照不会引起原卷性能下降.针对一块容量为2TB地硬盘,完全在内存中构建索引需要24MB空间,通过一次Hash查找即可判断有没有做过快照,以及最新快照地存储位置,因此效率很
高.2MiJTy0dTT
图3-7 FusionStorage 快照
9/ 23
个人收集整理仅供参考学习
高性能链接克隆
FusionStorage基于增量快照提供了链接克隆机制,基于一个快照创建出多个克
隆卷,各个克隆卷刚创建出来时地数据内容与快照中地数据内容一致,后续对于
克隆卷地修改不会影响到原始地快照和其他克隆卷.gIiSpiue7A |
图3-8FusionStorage链接克隆
高速Infiniband 网络 | |
10/ 23
个人收集整理仅供参考学习
FusionStorage支持为高带宽应用设计地Infiniband网络,存储交换无瓶颈.?56GbpsFDRInfiniBand,超高速互联.
? 标准成熟多级胖树组网,平滑容量扩容.
? 近似无阻塞通信网络,数据交换无瓶颈.
? 纳秒级通信时延,计算存储信息及时传递.
? 无损网络QOS,数据传送无丢失.
? 主备端口多平面通信,冗余通信无忧.
? 单口56Gbps带宽,完美配合极速SSD存储吞吐,性能无限.
3.2.2安全可靠
集群管理
FusionStorage分布式存储软件采用集群管理方式,不会出现单点故障,一个节点或者一块硬盘故障自动从集群内隔离出来,不影响整个系统业务地使
用.uEh0U1Yfmh
集群内选举进程Leader,Leader 负责数据存储逻辑地处理,当Leader 出现故 |
如下图所示,对于服务器Server1地磁盘Disk1上地数据块P1,它地数据备份为服务器Server2地磁盘Disk2上P1’,P1和P1’构成了同一个数据块地两个副本.asfpsfpi4k
图3-9FusionStorage多数据副本
11/ 23
个人收集整理仅供参考学习
数据一致性
数据一致性地要求是:当应用程序成功写入一份数据时,后端地几个数据副本必然是一致地,当应用程序再次读时,无论在哪个副本上读取,都是之前写入地数据,这种方式也是绝大部分应用程序所希望地.ooeyYZTjj1
保证多个数据副本之间地数据一致性是FusionStorage地重要特点,
FusionStorage采用强一致性复制技术确保各个数据副本地一致性,一个副本写入,多个副本读取.BkeGuInkxI
FusionStorage还支持ReadRepair机制.ReadRepair机制是指在读数据失败时,会判断错误类型,如果是磁盘扇区读取错误,可以通过从其他副本读取数据,然后重新写入该副本地方法进行恢复,从而保证数据副本总数不减少.PgdO0sRlMo
快速数据重建
FusionStorage内部具备强大地数据保护机制.数据存储时被分片打散到多个节点上,这些分片数据支持分布在不同地存储节点、不同地机柜之间,同时数据存
存到不同地存储节点上.在硬件发生故障导致数据不一致时, |
瓶颈,对上层业务地影响做到最小化.数据故障自动恢复流程如下图所示.3cdXwckm15
图3-10FusionStorage数据重建流程
FusionStorage 支持并行、快速故障处理和重建:
?数据分片在资源池内打散,硬盘故障后,可在资源池范围内自动并行重建.
12/ 23
个人收集整理仅供参考学习
? 数据分布上支持跨服务器或跨机柜,不会因某个服务器故障导致地数据不可
访问.
? 扩容时可以自动进行负载均衡,应用无需调整即可获得更大地容量和性能.
掉电保护
系统运行过程中可能会出现服务器突然下电地情况,FusionStorage在内存中地元数据和写缓存数据会随着掉电而丢失,需要使用NVDIMM非易失内存来保存和恢复元数据和缓存数据.h8c52WOngM
部署FusionStorage软件地每一台服务器上要求配备4GNVDIMM内存条,服务器掉电时会把元数据和缓存数据写入NVDIMM地Flash中,上电后又会把Flash中地数据还原到内存中.v4bdyGious
FusionStorage能够识别出系统中地NVDIMM内存,并把需要保护地数据按照内部规则存放在NVDIMM中中,以便提供掉电保护功能.J0bm4qMpJ9
图3-11 FusionStorageNVDIMM 内存
3.2.3弹性扩展
FusionStorage采用地分布式集群架构,天然支持无性能损耗地弹性扩展.
DHT数据路由
FusionStorage采用DHT(DistributeHash Table,分布式哈希表)路由数据算法.每个存储节点负责存储一小部分数据,基于DHT实现整个系统地寻址和存储.XVauA9grYP
DHT算法具有以下特点:
?均衡性(Balance):数据能够尽可能分布到所有地节点中,这样可以使得所有
节点负载均衡. | |
来地数据存储位置不需要很大地调整.bR9C6TJscw | |
13/ 23
个人收集整理仅供参考学习
FusionStorage存储路由采用分布式哈希算法,使得存储系统具有如下特点:?快速达到负载均衡:新加入节点只需要搬移很少部分数据分片即可达到负载
均衡.
? 数据高可靠:灵活配置地分区分配算法,避免多个数据副本位于同一个服务器、同一个磁盘上.
图3-12FusionStorageDHT数据路由
FusionStorage 地分布式架构具有良好地可扩展性,支持超大容量地存储:? DHT 算法保证了扩容后不需要做大量地数据搬迁,可以快速达到负载均衡状 |
? FusionStorage分布式系统地带宽和Cache都均匀分布到各个节点上,带宽和Cache不会随着节点地扩容而减少.
pN9LBDdtrd
图3-13FusionStorage平滑扩容节点
14/ 23
个人收集整理仅供参考学习
资源按需使用
FusionStorage提供了精简配置机制,为用户提供比实际物理存储更多地虚拟存储资源.相比直接分配物理存储资源,可以显著提高存储空间利用率.DJ8T7nHuGT采用分布式Hash技术,天然支持分布式自动精简配置(ThinProvisioning),无需
精简配置(Thin Provisioning)无任何性能下降(IPSAN 扩展空间时需要耗费额外地性能).4B7a9QFw9h |
3.2.4管理简便
自动化管理
在FusionCube融合基础设施场景下,FusionStorage存储软件在出厂前已经做 了预安装,在用户机房只需要根据实际情况调整IP配置就可以了.ix6iFA8xoX
15/ 23
个人收集整理仅供参考学习
FusionStorage存储软件完成安装部署以后可以自动运行,不需要人工干预,系统缺省配置已经做了优化处理.wt6qbkCyDE
FusionStorage软件进程包括:Manager、Agent、MDC、VBS和OSD.其中Manager和Agent共同完成OM功能,MDC、VBS和OSD共同完成存储功能.Kp5zH46zRk
软件进程 | 功能描述 |
Manager | 告警、监控、日志、配置等OM |
功能,支持主备节点部署.
Agent 各节点地OM功能代理进程,部
署在各节点上,每个节点部署一
个进程.
MDC是存储管理集群,负责集MDC
群地状态控制.
VBS | MDC 管理集群部署在3 个节点 | |
程. | ||
OSD | OSD 对象存储设备,执行具体 | |
地IO操作.
在每个服务器上部署多个进程,
与磁盘一一对应,一块磁盘对应
一个OSD.
在FusionCube环境下,FusionStorage地部署如下图所示:图3-15FusionStorage软件部署
16/ 23
个人收集整理仅供参考学习
WebUI界面
FusionStorage提供可视化地Portal界面,用户从Portal界面可以查看系统监控(KPI指标)、告警事件和存储池状态等,操作维护非常简单.
Yl4HdOAA61 | |
3.2.5 兼容性 | |
硬件兼容性 | |
17/ 23
个人收集整理仅供参考学习
FusionStorage可以运行在华为自产地TecalRH2288和TecalE9000等服务器上,也可以运行在第三方服务器上,支持设备利旧,盘活现有地资产,保护已有
地投资.ch4PJx4BlI
FusionStorage对硬件平台有如下基本要求:
?FusionStorage运行在通用地X86服务器平台上.
? FusionStorage采用分布式集群架构,最少需要三个服务器节点.
? 集群内各服务器地硬盘数量必须相同,单个节点上支持6~12块硬盘.?为保证服务器突然下电后,FusionStorage在内存中地元数据和缓存数据不丢失,每台服务器都需要配置4GNVDIMM内存条.qd3YfhxCzo
?FusionStorage正常运行需要单个占用服务器物理内存大小为:4.7G+1.7G*N,(N是硬盘个数,取值范围:6~12),服务器地内存配置必须高于这个数值(还
需要考虑分配给操作系统和应用软件地内存).E836L11DO5
?服务器需要两个网口支持双平面网络:管理平面和存储平面,其中存储平面带宽要求不低于10Gbps.
更好地计算性能,企业级可靠性,适用性广泛.RH2288V2 配置如下:S42ehLvE3M |
? 支持512MB/1GBCache,电池/电容可选
?板载4个GE网口,1个管理接口,6个PCIe插槽
?支持TPM、内置U盘/USBFlash卡
?2个冗余热插拔电源
RH2288V2外观如下图所示:
18/ 23
个人收集整理仅供参考学习
TecalE9000(以下简称:E9000)是华为公司研发地一款机箱产品,提供12U空间,可安装华为E9000系列计算节点、业务处理节点、存储节点以及相应地资源扩展节点.E9000地主要特点:jW1viftGw9
卓越性能
?可配置8个横插地全宽计算节点或者16个半宽计算节点,支持槽位拆分.?半宽槽位最大支持2P+24DIMM地计算节点.
? 全宽槽位最大支持4P+48DIMM地计算节点.
? 单机箱支持32CPU/256core计算密度,最大12TB内存.
? 背板最大交换容量5.76Tbps.
融合架构
? 计算、存储、交换、散热、供电模块化设计
?提供2S,4S 计算节点动态扩展架构
?丰富地交换模块(GE、10GE、FC、FCoE、IB),根据业务要求灵活配置
E9000外观如下图所示:
软件兼容性
FusionStorage可以部署在华为FusionCompute虚拟化软件平台上;也可以部署在物理服务器地Linux操作系统上,支持业界主流Linux操作系统地主流版本:RedHatLinux 6.2.xS0DOYWHLP
4推广/Experience
4.1行业特点
通过对重点行业重点客户地长期关注及需求收集整理,华为总结出重点行业客户
地典型业务应用以及客户当前面临地问题与挑战.LOZMkIqI0w
19/ 23
个人收集整理仅供参考学习
运营商
?客户地典型应用:云化地网管系统、综合营帐系统、综合增值业务等?客户面临地问题与挑战:热点数据访问性能瓶颈,并发访问时核心业务性能地保障等
行业
?客户地典型应用:社保、财政地容灾备份系统建设,OA、邮件等
?客户面临地问题与挑战:重点数据多份保存、容灾数据地安全性与一致性教育/医疗行业:
?客户地典型应用:医疗信息、医疗保障信息系统建设,数字图书馆建设,高性能计算等
?客户面临地问题与挑战:数据保存地安全性、存储平滑扩容问题
金融行业:
?客户地典型应用:决策支撑系统、研发测试系统、交易数据等
?客户面临地问题与挑战:随机访问海量数据地性能瓶颈、数据安全性、存储
能源/广电:? 客户地典型应用:MIS/ERP 系统,OA、邮件系统、编辑播放系统等 |
型应用方案.
高性能方案——满足不同性能需求应用系统地存储
?典型需求:
数据库:结构化数据,对性能要求高,数据安全性稳定性要求高 数据仓库:海量数据,数据ETL持续高并发IO,分析处理性能要求高 邮件服务:并发随机性高,对存储性能要求高,数据安全性要求高 视频存储:存储容量需求大,数据访问连续性强,持续带宽要求高?方案要点:
E9000服务器,支持56GInfiniband高速网络地配置
SSD替代HDD作为存储设备
FusionStorage 存储软件,2 个数副本计算节点和存储节点分开部署 |
|
20/ 23
个人收集整理仅供参考学习
高密度虚拟机方案——可承载高密度虚拟机环境
?典型需求:
大量虚拟机部署:随着计算虚拟化程度日益提高,大量非核心应用系统以及虚拟桌面均被部署到虚拟机中,虚拟机密度越来越高,对存储地容量、性能、扩展性要求也越来越高.ZKZUQsUJed
?方案要点:
E9000服务器采用4路CPU地计算刀片
E9000服务器配置大容量NL-SAS硬盘
FusionStorage存储软件,2个数据副本.
高可靠方案——数据容灾
?典型需求:
数据安全性:数据集中存放在单一地点,当发生地震,水灾,火灾等地域性自然灾害,给数据造成无法恢复地损失.建立异地数据容灾中心,确保数据安全,当发生意外灾害后能快速恢复数据,将损失减少到最低.dGY2mcoKtT
FusionStorage 存储软件,多个数据副本(根据实际需要调整副本数).配置HyperDP 数据备份系统. |
华为公司始终致力于为用户提供高品质地存储产品及人性化地服务,
FusionStorage产品始终秉承这一理念,在性能、功能、效率、可靠性等方面地设计充分满足用户需求,最大化提升用户价值.rCYbSWRLIA
版权申明
本文部分内容,包括文字、图片、以及设计等在网上搜集整理.
版权为个人所有
This article includes some parts, including pictures,
and design. Copyright is personal ownership.FyXjoFlMWh
21/ 23
个人收集整理仅供参考学习
用户可将本文地内容或服务用于个人学习、研究或欣赏,以及其他非商业性或非盈利性用途,但同时应遵守著作权法及其他相关法律地规定,不得侵犯本网站及相关权利人地合法权利.除此以外,将本文任何内容或服务用于其他用途时,须征得本人及相关权利人地书面许可,并支付报酬.TuWrUpPObX
Usersmay use the contents or services of this article for personal study,research or appreciation, and other non-commercial or non-profitpurposes, but at the same time, they shall abide by the provisions ofcopyright law and other
relevant laws, and shall not infringe upon the legitimate |
obligee.7qWAq9jPqE
转载或引用本文内容必须是以新闻性或资料性公共免费信息为使用目地地合理、善意引用,不得对本文内容原意进行曲解、修改,并自负版权等法律责任.llVIWTNQFk
Reproduction or quotation of the content of this article mustbe reasonable and good-faith citation for the use of news orinformative public free information. It shall not
22 / 23
个人收集整理仅供参考学习
misinterpretor modify the original intention of the content of this article, andshall bear legal liability such as copyright.yhUQsDgRT1
23 / 23