推广 热搜: APP  存储  设备  企业存储  闪存  交换机  华为  联想  思科  监控 

  • 匿名
点击 197回答 0 2015-09-30 00:00

GPFS整合Hadoop,IBM的大数据分析野心不小

已关闭 悬赏分:0
GPFS整合Hadoop,IBM的大数据分析野心不小

问:目前谈到云存储和大数据,关注的焦点有对象(目标)存储设备和Hadoop(包括HDFS文件系统)两个方面:

>

关于对象存储,目前有EMC Atmos、NetApp收购的Bycast、HDS HCP(Hitachi Content Platform),可以用于云存储服务商的后端;另外Dell也推出DX针对医疗等行业归档应用。IBM在这方面有什么产品或者计划吗?

>

开源是Hadoop的一大优势,比如EMC收购的Greenplum就在与Hadoop结合,NetApp也在研究相关方案。IBM对Hadoop持何种态度?Netezza可能会和Hadoop产生某种联系吗?

>

Vincent Hsu:我们现在正在做对象存储的研发,以后你会看到在我们的SONAS平台上会有对象存储的这种技术出来。

>

问:也就是说在现有SONAS基础上增加元数据服务器这种类似的形式?

>

Vincent Hsu:对,没错。SONAS将来会和IBM其它的存储设备做进一步的整合。

>

Hadoop是一个大的趋势,非常适合做大数据分析的。IBM有一个很有亮点的技术叫做GPFS(通用并行文件系统),我们正在做GPFS和Hadoop的整合,将来你会看到IBM有针对Hadoop优化环境的(存储/设备)来运行相应的工作负载。

>

今年的 SNW2011大会上,在SNIA(全球网络存储工业协会)的一个演讲中,我们看到IBM GPFS可以替代HDFS作为Hadoop架构的底层文件系统/数据存储。而在上面的应用开发层,商业方案/接口(Commercial Project / Interface,相对于Hadoop开源方案而言)中第一个列出的就是IBM Bigsheets(大数据表)。

>

问:我记得用Hadoop自己的HDFS文件系统,存储成本应该比较低。那我们如果用GPFS,成本上是否会不占优势?

>

Vincent Hsu:Hadoop本身并没有特别的技术让(存储)成本降低。它主要是能够做DAS直连存储,(位于各个节点上的)硬盘是分布式的,所以数据会拷贝 3-4份进行保护。Hadoop不需要高端的产品,不用共享存储,而是用分布式存储。所以它的成本相比共享存储(比如DS8000)要低。

>

我认为不会因为GPFS的关系而让(Hadoop)价格变高。现在市面上我们看到GPFS的可扩展性上还是最好的。把二者的优点结合起来,在基础上

>

还是用直连的方式。

>

GPFS和SONAS在有些观念上是不一样的,SONAS虽然也是Scale-out,但它所有的存储还是以共享式的存储为主;而Hadoop(也包括 HDFS)本身是分开的。我们现在让GPFS也能处理这些分散的、分布式的数据存储,与SONAS使用同样的技术,但支持的工作负载和架构是完全不一样的。

>

IBM SONAS集群NAS系统组成结构示意图。它的接口节点(Interface Node)和存储节点(Storage Node)之间通过交换式的Infiniband数据网络来连接。因此对于多个接口节点来说,后端的存储节点(包括其连接的存储控制器和磁盘)就是共享式的,任何一个节点的故障都是可以实现容错的。

>

点评:GPFS与Hadoop的结合是一种分布式文件系统的形式,专门针对大数据分析的应用;而作为集群NAS产品的IBM SONAS则具备更多的适应性,主要面向高性能计算、海量媒体(音/视频)数据的存储。

>

Vincent Hsu:IBM在过去这5年收购了一些做分析工作负载的软件(包括Netezza?笔者注),现在我们正在做分析软件和Hadoop环境的结合。

>

分享分享0 收藏收藏0 评分评分 邀请邀请

反对 0举报 0 收藏 0
网站首页  |  物流配送  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  违规举报  |  京ICP备14047533号-2
Processed in 0.019 second(s), 7 queries, Memory 1.17 M