先智数据使能AI,让存储先知先觉

摘要: 这年头,没有AI(爱)是可耻的,存储也不例外

11-11 16:09 首页 高端存储知识

AI(人工智能)是当代最火的话题之一,特别是在云计算的相关展会上,谈云必谈AI。比如华为刚刚在其HC大会上,宣布了新一代的智能云硬件平台 “Atlas”,通过GPU计算加速云服务器和GPU推理加速云服务器,Atlas的云服务可以为云上AI与HPC提供极致性能。


AI其实是一种使能技术,存储行业也会从中受益。IT BRAND PULSE认为,未来的存储就像自动驾驶汽车一样,也会自动‘’驾驶“。也就是说,存储自己足够智能,他在周围布满了传感器,他会实时调节自己的工作状态,实现自动调优,自动运维。


虽然目前还不能完全实现存储的“自动驾驶”,但是在一些可预测的分析领域,已经有了一些类似的应用实践。比如不久前HPE收购的Nimble Storage,其InfoSight预测分析平台号称可以提前发现存储的故障隐患,防患于未然。只是可惜Nimble Storage的技术是封闭的,只给自己的存储设备使用,这也是HPE收购它的一个原因之一,据说HPE比较看好InfoSight,收购Nimble Storage后,打算在今年年内把3Par的存储也接上去。


有没有一个公司做一个类似的AI系统,让其他存储产品也可以利用呢?特别是在Server SAN/SDS环境,针对硬盘做好寿命预测分析就能够解决大部分问题了。你别说,还真有这样的公司和产品。


有一个叫ProphetStor的美国公司,国内叫先智数据,最近比较火,刚刚完成C轮3000万美元融资。


其公司核心团队来自飞康公司,其公司CEO就是原来飞康的联合创始人Eric Chen,据说飞康的第一行代码就是他写的。


大家知道,飞康在存储这块还是非常有历史积累的,比如其CDP和VTL产品就深为人知。虽然现在飞康有点走下坡路,但产品的技术还是不错的。


但真正能够吸引投资人的,除了团队,还得有产品。我们来看一下先智数据的产品。


目前先智数据主要有四个产品系列,第一个Federator,它其实是一个带外存储资源调控平台。Federator是可以通过机器学习,认知客户应用负载的变化模式,并且对于应用的性能和容量的变化作出预测,而且可以提前考虑资源到位。第二个产品是DR Prophet,是基于Dederator平台实现,面向业务需求的数据保护方案。第三个就是StellarFlash,这是一款包含了智能预测能力的闪存设备。

但我认为其最重要的是第四个产品系列,DiskProphet。看产品的功能其实就是对磁盘的故障进行预测,就给磁盘算命。据说它的背后包含了大量的机器学习,是磁盘故障细节知识的跨界应用,在这个功能的帮助下,存储当中存在的很多问题都可以得到解决。


为什么我比较感兴趣这个产品,因为现在存储正在从传统存储向SERVER SAN架构转型,SERVER SAN由于采用分布式架构,一般采用副本的方式来保存数据,一个节点只有一个副本,如果硬盘发生故障,需要跨节点进行数据的重构,会大量消耗网络的带宽,甚至在业务高峰时引起连锁反应,造成性能的抖动。


根据先智数据提供的可靠性计算数据,如果要做到5个9的可用性,两副本保护上限是96块盘,三副本才能保护512块盘。当然,这是指把所有硬盘放在一个池里。但是实际SERVER SAN部署的时候,一个节点只有一个副本。因此,可以理解为一个节点是一块逻辑大硬盘,不过,就算这样,两副本也不建议超过96个节点(实际肯定做不到,因为这个节点的MTBF肯定不如一个硬盘)。因此,如果你的集群很大的话,还是需要划分故障域才行。


但是如果能够提前预测硬盘故障,提前更换硬盘,那么系统的可靠性必将大大提高。因此,我认为DiskProphet对于Server SAN产品来说,有非常大的价值。


作为技术控,我们来稍微了解一下DiskProphet的技术原理。


其实,磁盘的寿命预测是所有存储厂商都研究过的课题。但一般的厂商都是仅仅采用硬盘的S.M.A.R.T.的静态数据来进行预测,大家都知道,这个很难预测准确,支持的硬盘种类也有限。预测不准确,成本的代价是比较大的。比如你预测某个硬盘快坏了,更换后发回硬盘厂商,一检测,还可以用很长时间,人家就不给你换了。


先智数据虽然也主要利用了SMART数据,但是采用AI来动态分析SMART参数的变化,可以支持更多的硬盘(只要能读出SMART数据就行),而且结合性能负载关联分析,预测更加准确,而且可以给出寿命的预测。



甚至可以根据预测给出处理预案,比如建议你在某个这个硬盘最低负载的时间点提前更换它。



如果在深入了解,就是AI算法层面了。DiskProphet采用多层神经网络(MLP)来预测硬盘的寿命。


采用支持向量机(SVM)来预测硬盘在某段时间失效的可能性。


可惜我的AI基础太差,无法深入了解这些算法的精髓。先智数据把他们的预测方法申请了美国专利,说明这是一个创新的方法,不是COPY别人的。



大家可能非常关心DiskProphet预测的准确率,我们来看看先智数据给出的一个Cisco内部测试的结果(只用了SMART数据),准确率可以做到96.1%。


仅仅采用SMART数据就可以预测这么准确,如果加上主机的性能数据和Log信息等等,应该会更准确吧?据说现在预测算法有所改进,预测准确率可以到98%,远超AI在语音识别领域的水平了。


目前,DiskProphet支持各种硬盘的预测,包括HDD和SSD,甚至NVMe SSD,还有各种RAID卡。虽然现在有些SSD盘厂商也提供类似的工具,但是如果你不想被特定的SSD厂商绑定,DiskProphet还是全闪存时代也是有价值的。

还有,DiskProphet还支持和Nutanix,VMware vSAN,Ceph等SDS产品集成,提供统一监控等高级功能。DiskProphet对磁盘阵列形态也是支持的。目前先智数据自家的闪存存储就内置了这个硬盘寿命预测功能。其他EMC、NetApp和华为据说正在适配中。


未来,先智数据打算把AI功能扩展到整个数据中心的运维,包括风火水电,这是一个宏伟的愿景。


正是先智数据的AI基因,让其有别于其他存储初创公司,使得其C轮顺利融资3000万美金,也吸引了中国存储界的老炮儿董唯元加盟,担任北京代表处的负责人,负责中国区的业务。


祝贺老董,也希望DiskProphet尽快支持华为等国产存储,毕竟现在国内国产存储的份额已经超过一半了。

不管这样,存储的AI时代来了,Are You Ready!InfoSight


首页 - 高端存储知识 的更多文章: