运维教程-大话蓝光存储(4)光存储系统生态

跨零代码为大家提供高品质的解决方案,请大家多多来访,跨零不胜感激,在此谢过。

大话蓝光存储(4)光存储系统生态

上一篇中,冬瓜哥为大家讲述了光盘库系统以及紫晶存储推出的光盘库系统。那么,哪些场景适合使用光盘以及光盘库系统呢,光盘库系统在整个存储生态中与上下游的适配情况如何呢,有什么需要改进?本篇冬瓜哥就这个问题作简要介绍。

光盘的优点是显而易见的:成本极低;存储密度高、体积小、重量轻、不怕光、不怕水、不怕磁、不占用太多物理空间;可随机存取,使用中无磨损(磁盘和磁带均有磨损,比如磁盘可能会随机产生坏道,磁带被磁头读写的次数也是有限的),存储寿命较长、低能耗,稳定性高,数据不可被篡改,安全性高。未来单盘片存储容量规划可达1TB、2TB、4TB。

当然,缺点也是不少,比如:单盘容量同时代与其他介质对比相对较小;与磁盘相比存储速度较慢、实时性差;定位数据繁琐;盘片离散管理不方便。

扬长避短,蓝光存储最适合的场景,莫过于温数据以及冷数据的长期保存和管理。冬瓜哥看重的一点是,蓝光盘的寿命,以及其介质与驱动器分离的特点。用移动硬盘保存数据风险极高,机械硬盘就算放着不动,指不定哪天再用就不认了。有人说了,现在闪存这么便宜,将来更便宜,用闪存卡、U盘等不适很适合永久保存珍贵资料么?大错特错。目前的NAND闪存存在数据持久性问题,NAND Cell中的电荷在一段时间之后就会自动漏电,目前看来唯独光盘适合于长期保存资料而且还可以做到随机读取,磁带则非常不便利,驱动器尺寸庞大,普及度更加有限,云哥和强哥那里基本搜不到,有也是一些二手的,价格也较高。

【消费类应用场景】

先看看个人用户的需求。冬瓜哥在某个网盘里保存了大概2TB的数据,基本是一些陈年的工作相关文档,经典电影电视剧,家庭照片视频等东西,相信多数人保存的东西也不外乎这几大类吧。其实随着时间的推移,冬瓜哥发现,工作上所保存的那些文档,基本可以说是破烂,访问的几率非常低,而那些保存的经典电影电视剧,基本上也不会再去看,除非将来孩子长大给孩子看,比如冬瓜哥还保存了六七十年代中国经典情怀儿童童话故事比如小蝌蚪找妈妈,雪孩子等等,但是谁知道五年后的社会会是一副什么熊样,到处充斥着垃圾网游,无底线的所谓“互联网思维”,不敢想啊。但是有一点是亘古不变的,那就是家人的照片和视频,尤其是小孩的,一定要存好,不厌其烦的存多份,在各种介质上,包括网盘、移动硬盘、刻录光盘。

冬瓜哥手一抖搜了一下号称能买整个宇宙所有物质的云哥和强哥开的店。本以为蓝光光盘和光驱的市场价格还是很不接地气的,结果却大跌眼镜。强哥那里的25GB的蓝光刻录盘平均每张的价格在两三块钱,50GB的则普遍在8元上下,100GB的只在更屌丝的云哥那里搜到了,但是质量没有求证过。

大话蓝光存储(4)光存储系统生态

透露一下,目前国产的蓝光盘,绝大多数都是从广东紫晶存储的产线下来然后贴牌的。目前紫晶的6条蓝光盘产线处于24小时连续生产供不应求状态。

至于刻录机,100到1000的都有,直觉告诉冬瓜哥,六七百左右的应该算靠谱,要想刻废的盘少点,买个九百的应该差不多。

冬瓜哥其实从来就没关注过光存储,相信多数人也基本不会关注。第一次听到蓝光那是五六年前了,那时候一听还是高大上的东西,产能和生态都非常局限。目前看来,蓝光应该说是已经大规模普及了。看来冬瓜哥有必要买个蓝光光驱了,将一些私有内容刻录保存,也是个不错的选择。冬瓜哥拍了一下自己手头的移动硬盘,连自己看了都觉得感叹,从最早的80G,120G,320G,500G,1TB,4TB,基本是每个档位都有一个,最后连自己都不知道什么数据放在哪了。

大话蓝光存储(4)光存储系统生态

设想一下,一个刻录机,一个200槽位的光盘匣,也能保存接近10TB的数据。也不失为另一种选择。由于每张盘也就100G级别容量,这样还可以制作标签贴上去表示里面存的是什么。

大话蓝光存储(4)光存储系统生态

【企业级应用场景】

再看看企业应用领域哪些行业会产生大数据量的温冷数据。网盘、数字图书馆、工业设计、CAD制图/素材、电视台媒资系统、医疗影像、地质勘探大数据、金融数据、档案保存、常规备份(替代磁带)等等。可以看到,在目前的大数据环境下,温数据和冷数据的绝对量也是爆发式增长的,这就给光存储系统提供了温床。

网盘、微博等是个典型冷热非常分明的场景。刚上传的数据或者刚发的微博很热,然后访问频率直线下降,但是又不能将冷数据直接离线,还得让其访问有一定的速度。对于数字图书馆,更是利用蓝光存储的绝佳场景,因为该场景属于只读不写的场景,对速度要求也并没有那么高,比如用户调取某个文档/视频,可以等待几十秒或者一分钟,也不是不可以接受。对于工业设计领域或者播出系统中需要保存的大量素材资源,用光盘存储系统也非常合适,能够满足低成本,不要求很高的实时性,要求保存时间长,只读不写等特性。

对于常规的数据备份场景,使用更加开放的光盘系统取代磁带系统也是一个发展趋势,目前越来越多的用户开始尝试使用光盘库取代磁带库,因为前者成本更低(介质和驱动器的成本都相对较低),最重要的是,利用光盘存储系统可以实现数据的随机直接访问,而并非磁带那样需要快进快退,实时性好了太多。所以,冬瓜哥认为磁带存储虽然还在发展过程中,但是其封闭的设备、技术、数据存取格式以及不方便的数据管理,会让其逐渐失去备份场景下的领导地位。

【面临的挑战】

然而,光存储系统在当前的生态下,也面临一些挑战:

1.   数据的迁移策略,需要精确适配业务场景。上述的众多业务场景,每种场景的冷热分界点不甚相同,比如微博的数据冷热分界线比如可能是2天(也就是说没人再去翻看2天前的内容),而网盘的冷热分界可能相比微博更模糊,比如上传一周之后,还有可能被自己或者他人频繁访问。正因如此,数据管理层需要提供精细的、可调的触发迁移的策略,可以根据生成时间、占用空间、访问频率、访问类型(读、写、每次读写的数据量等)、数据类型(视频、文档、app等)等等维度来精确设置组合式策略。

2.   数据管理层需要感知到光盘库系统的实时性,尤其是调取数据时。数据被迁移到光盘库时一般是通过CIFS/NFS方式写入到光盘库前置服务器的缓冲空间的,所以写入速度和实时性并不是问题。但是在调取数据时,如果数据已经被刻录到光盘,那么调取时间是比较长的,通常在数分钟级别。这需要上游一系列的层次对此感知和处理,比如在用户体验接口方面需要安抚住焦急等待的用户,数据管理层则需要使用异步方式来调取数据。

3.   光盘库系统自身的数据缓存及持久化策略的制定。光盘库内部其实也是有一级缓冲空间的。光盘库内置一个前置服务器,上面有一定数量的硬盘,对外采用CIFS/NFS(NAS)方式,接收上层迁移下来的数据。数据先被写入NAS目录,然后系统在后台,根据一定的策略,将数据刻录到光盘,并在NAS目录中留下一个stub占位符,底层驱动截获针对这些占位符的访问,从而在后台异步从光盘读出数据并填充。数据会在什么条件下从缓冲区迁移到光盘,这就是持久化策略,这个策略需要在光盘库的配置工具中配置,这一级的策略也会影响数据调取的实时性。

4.   光盘库向上层系统所展示的访问方式。冬瓜哥认为NFS/CIFS的方式比较适合于这种冷数据迁移场景。第一是其可以完全松耦合,即便是没有上层数据管理层,单单使用光盘库的话,NFS/CIFS也是非常方便的。有些产品采用块设备的方式提供外界访问,那就根本做不到这种灵活性,因为基于块的数据迁移是无法保证数据边界完整性的,比如某个文件可能部分块被迁移到了光盘库,另一部分依然在热数据存储层。块级访问非常适合于高性能存储场景,光盘库显然不适合这种场景。除此之外,对象访问方式也非常适合于光盘库。所以,NAS、对象应该是光盘库首选的外层访问协议。

冬瓜哥认为,蓝光光盘库系统在硬件上已经没有什么问题了,关键在于软件上如何与上下游的数据管理体系适配起来,蓝光存储厂商需要在数据管理和访问流程方面加大生态建设力度。 

【光存储典型场景分析 – 医疗影像】

对于一个 大型医院而言,平均每年会增加几十个TB的数据,其中有20TB是医学影像数据。也难怪,目前白大褂们的原则似乎是能拍片的尽量拍,而不是能不拍的尽量不拍,产生如此多数据量也不足为奇了。

比如某三甲医院,目前有130TB数据,按现在年增长速率(100%)来算,5年之内将突破1PB 。而一个中等规模城市的卫生中心的数据量能够达到10PB级别。

医疗系统数据主要包含两大类:

非结构化数据:

•  PACS影像,B超、病理分析、医学显微等业务所产生的非结构化数据

•  影像数据大小不一,从数百KB到数百MB;

•  单个病人一次诊断需要存储或者调阅数百张影像

半结构化数据:

•  电子病历等数据采用HL7或者其他XML格式

•  这些格式随时间变化,在不断演变中

•  很难制定统一的标准,给数据访问和交换带来挑战

这些数据的特点是:

•       影像分辨率高,单个文件尺寸大

•       每一次检查生成的影像数量多

•       每年医院的检查次数多

•       要求影像保留的时间长

影像访问频率在生成后最初一两个月最高(主要用于治疗),在最初的一到两年内有所降低(主要用于分析和研究),之后会很低,但必须能够被访问到(用于查询)。具有很明显的冷热梯度和界限,刚好适合蓝光存储发挥作用。比如紫晶ZL系列光存储系统,一个标准机架就可以存储1.2PB容量的数据了,我们换算一下,如果利用4TB的SATA盘,4U60盘位中等密度方案,一个42U机柜总容量为3.2PB,其成本大致估算一下,1台4U48盘的服务器,外加9台4U 60盘位JBOD,差不多要65万人民币,相比蓝光存储系统高太多,还没有算上用电成本。

大话蓝光存储(4)光存储系统生态

【光存储典型场景分析 – 档案系统】

大话蓝光存储(4)光存储系统生态

以地质资料档案系统为例,地质资料馆经过多年的信息化建设已初具规模,如两化(集群化、产业化)项目积累了大量的信息化数据。现正实施的 “全国矿产资源普查和矿产资源潜力评价”项目也将产生大量数据。

大话蓝光存储(4)光存储系统生态

其特点主要是:

l 数据量大

现有原史数据量为100TB,每年以20%以上的速度增长。

l 数据类型多

文档、图片、GIS、卫星数据等等。

l 文件数量多,目录复杂

6TB数据多达1200万个文件,

平均粒度仅45K,

超过200层目录结构。

l 文件跨度大

单个文件的大小从KB到GB全部都有

目前面临的主要挑战为:

l 用户刻录的数据无法在线查找,需要人为查询,速度慢、时间久

l 现在需要5-7人来刻录和管理光盘,人员紧张,人力成本攀升。

l 随着数据量爆炸式的增长(预计年增长率在20%以上),数据保有成本越来越高。

很显然,该场景可以利用光存储系统极大降低成本。

大话蓝光存储(4)光存储系统生态

最后,作为国内光存储系统的全自研厂商,附一张紫晶存储的光存储系统优势对比表。

大话蓝光存储(4)光存储系统生态

在下一篇中,冬瓜哥将展望一下未来,向大家介绍一下光以及光计算、光存储的前言科技和展望,敬请关注!

作者:冬瓜哥

文章出处:大话存储

从零到一,创造未来!跨零综合IT问题解决服务站,欢迎你的到来。运维教程 只为你绽放。

本文固定链接: http://kua0.com/2019/01/03/运维教程-大话蓝光存储4光存储系统生态/

为您推荐

发表评论

电子邮件地址不会被公开。 必填项已用*标注