相比于存储系统的混沌不清,数据的类型划分相对比较明确。数据分为结构化、半结构化和非结构化三种类型,其中非结构化数据是数据量激增的主要原因。无论何种类型的数据都有其极热/热、温、冷、极冷等生命周期阶段,对处理需求也不一样。例如处理热数据需要拥有高IOPS、低延迟的能力,而对冷数据则要求不高的IOPS和延迟,重点在于存储容量和$/GB成本。
目前还没有一种存储技术能够同时满足数据生命周期的所有需求。在现实中的选择中,NAND SSD主要用于满足性能需要,而大容量硬盘则主要用于满足容量型需求,全闪存阵列和分布式存储并存。
需要注意的是,集中式存储是中心化的存储,访问方式是通过http协议进行集中访问。由于数据是集中化存储的,高峰时会面临拥堵和卡顿等现象,并且易受攻击导致数据丢失和盗窃,并且运维成本也比较高。而分布式存储是一种去中心化存储,数据访问采用点对点的超媒体传输协议。
构建分布式存储需要构建计算集群和存储集群,计算集群用于生成和验证复制证明(PoRep)、时空证明(Post)等鉴权数据,存储集群用于海量分布式数据的存储。两种集群所需的存储支撑技术也不相同。计算集群需要高IOPS、稳定性和可靠性,适合采用企业级SSD产品。存储集群则对单盘容量、成本更敏感,SMR等大容量硬盘可以更好地满足其需求。
分布式存储的解决方案在数据生命周期管理上具有创新性的思路,对源数据的确权以及重复数据、副本数据的甄别都能够在$/GB成本表现上更占优势。外部环境的加持也为数据生命周期管理带来了新的思路。
西部数据一直在为分布式存储领域提供先进的数据存储架构和解决方案,与多位行业合作伙伴一起推出了优化的存储解决方案。例如,与腾讯合作推出的分布式存储服务TencentCOS,与杉岩数据、灵动以及星辰天合相结合的分布式存储解决方案。