高效、低风险的管理PB级数据将是大矿工长期收益的重要保障。
Ceph存储将是首选方案。
什么是ceph存储?
Ceph是当前非常流行的开源分布式存储系统,具有高扩展性、高性能、高可靠性等优点,同时提供块存储服务(RBD)、对象存储服务(RGW)以及文件系统存储服务(Cephfs)。
多台存储机器安装Ceph各单元以后,即组建为一个Ceph存储集群。当集群开始存储数据时,Ceph会充分利用存储节点的计算能力,高效科学的分配数据的存储位置,实现数据在存储集群内的所有硬盘上分布均衡。
Ceph消除了对存储系统对单一中心节点的依赖,实现了数据存储无中心结构的设计理念。
Ceph存储架构图
Ceph存储包含多个构成单元,以下为几个核心单元的定义与功能:
- OSD:全称ObjectStorageDevice,Ceph对象存储设备,可以将一块硬盘一个Ceph集群的OSD可以灵活增减。 - Monitor:Ceph集群内负责监控集群各构成单元状态的进程,集群内所有节点都向Monitor节点报告状态以及每个状态变化的信息。 - MDS:全程CephMetadataServer,是CephFS服务依赖的元数据服务。负责跟踪文件层次结构,存储和管理Ceph存储的元数据。 - Object:Ceph最底层的存储单元是Object对象,每个Object包含元数据和原始数据。 - CRUSH:Ceph使用的数据分布算法,类似一致性哈希,让数据合理的分配到OSD。
Ceph存储的结构特性,使得数据存储集群可以无限拓展,同时也降低单一节点或单一硬盘故障带来的数据丢失风险。Ceph存储逐步发展成为OpenStack(云计算管理平台,由美国航天局发起的开源项目)的主流后端存储。
为什么要选用Ceph存储?
目前,Filecoin挖矿已经呈现集群化、大规模化、专业化。Filecoin的存储服务器密封扇区后,是需要将数据在集群内做本地化存储的。
为什么Filecoin集群需要选择走Ceph存储呢?我们首先确定一下Filecoin集群在数据存储与安全性方面的可能会面临的核心问题:
1、Filecoin集群开始挖矿后,密封数据量将呈现线性增长,初期密封数据量小,随着算力增长,对存储空间的需求也将呈现线性增长,存储空间需要灵活低成本弹性拓展,并且支持PB级或EB级数据量拓展。 2、为降低数据丢失的惩罚风险,需要降低坏盘率,同时丢失数据能够快速自动恢复。 3、为降低单存储节点故障带来的整体性风险,存储集群需要尽可能采用分布式架构。
基于以上Filecoin集群挖矿的需求,Ceph存储将是不二选择。Ceph存储是一种开源的存储架构,具有以下特点:
高性能 - 采用Crush算法,数据分布均衡,并行度高(不是传统的集中式存储元数据寻址) - 能够支持上千个存储节点的规模,支持PB甚至EB级的数据。
高可用性 - 可依据风险承受能力灵活设置副本数。 - 支持故障域分隔,数据强一致性。 - 多种故障场景自动进行修复自愈。 - 没有单点故障,自动管理。
高可扩展性 - 没有中心节点,所有存储节点均对等 - 扩展弹性灵活,扩容与缩容只需增减硬盘即可。 - 节点数增加,数据的访问带宽也线性增加
Ceph存储本身自带特性天然能满足Filecoin大规模集群的存储需求:PB级存储空间