大规模存储系统可靠性参数最优化分析

时间:2024-06-27 08:13:59 计算机毕业论文 我要投稿
  • 相关推荐

大规模存储系统可靠性参数最优化分析

  摘 要:在大规模的存储系统中,数据的可靠性变得越来越重要,过往的研究大多数都是在已知的系统规模下,分析基本的系统参数,但较少考虑它们的最优组合。本文将简要分析大规模存储系统的可靠模型下,各个系统参数的最优值及它们组合在一起的最优值,促进更可靠的大规模存储系统的发展。

  关键词:大规模存储系统 最优值 可靠性参数

  当前,很多依托大规模存储技术的实际应用已经出现在互联网搜索、电信通讯、科学实验等领域之中。在大规模存储技术的实际运用中,许多研究都在关注数据的可靠性问题。为了克服应用中的局限,就要针对实际需求和相关参数来构建可靠的存储系统,这对于存储系统的实际应用有重要意义。

  一、大规模存储系统可靠性参数概况

  大规模的存储系统一般都是由相应的存储节点的集群构成,其中每一个存储节点都相应配备有内存、CPU及磁盘,其中较为有代表性的系统主要是NASD、FAB及GFS等。大规模存储系统应用与实际的一个主要趋势是很多应用都需要存储WORM数据,即Write Once Read Many类型数据,也被称作“写一次读多次”数据。磁盘宽带自身的增长速度要远远低于磁盘本身空间的增长速度,因此大规模存储系统一般具有很高的故障率,需要较长的时间才可以恢复,这就需要为WORM数据建构可靠的大规模存储系统。

  当前关于数据可靠性的研究显示,复制冗余机制是一种被广泛应用的防止数据丢失的有效技术,在实际操作系统中,操作人员在其中部署了多样的副本分布策略,比如在RAID中的PTN、在GFS中的RANDOM。操作人员对这几种主要策略进行分析,研究它们对系统可靠性的影响,在具体的研究分析中,假设有n个不同的对象,把这些对象都存储于N个节点上,每一个对象都有K个副本,每一种副本的放置用来表示存储节点和副本之间的关系。第一种策略是PTN,它将所有的对象副本进行分组,再将每一组放置在K个节点上,PTN主要应用于Coda及RAID;第二种策略是RANDOM,它将所有副本随机分散到各个节点上,主要应用于GFS、RIO、FARSITE等;还有一种策略是Q-rot,它将所有的存储节点分成了K个站点,每一个站点都是其他对应站点的副本。存储系统的设计者在根据需求确定了系统的规模以后,往往难以确定其他相关的系统参数,这样就会给构建可靠安全的系统带来一系列问题。因此,将相应的可靠性参数进行优化分析是必要的。

  表1:主要系统参数表

  参数 定义 默认值

  N 总节点数 变量

  B 网络带宽 变量

  m 单个节点的存储评价对象个数 变量

  b 单个节点上IO带宽 变量

  K 每个对象的副本数 3

  S 数据总量 1PB

  s 单个对象的平均大小 S/(N×m)

  n 不同对象的总数 N×m/K

  ni 独立对象数目 N/K

  二、大规模存储系统可靠性参数的最优化分析

  2.1 数据可靠性的概念

  数据可靠性一般指丢失的第一个存储对象的前一个存储系统可以提供相应服务的时间。存储对象的可靠性是单个对象的所有副本集体丢失的平均用时,一般用MTTDL0来表示,MTTDL0主要受对象的恢复速度和对象的自身故障率的影响。这里面,对象恢复速度受对象自身的平均大小影响,对象故障率受磁盘故障率的影响。

  2.2 Markov可靠性模型

  Markov可靠性模型也被称作马尔可夫模型,可以综合分析系统的可恢复性及其脆弱性,在可靠性分析方面具有很强的功效性,这种模型可以很好地描述对象副本的运行故障及具体恢复过程。Markov可靠性模型替换掉了以前模型中的故障节点方面的细节,着重研究的是在假设的平均故障节点数的时候,对象的相关恢复情况。

  2.3 进行可靠性参数最优化分析的相关工作

  在大规模的存储系统中,数据的可靠性是无法被忽视的一个重要问题。在存储规模达到更大的时候,系统的故障率就会增高,相应的恢复速度就成为了一个关键因素,如何在RAID的基础上,提高数据的可靠性,成为了研究人员的工作重点。下面简单介绍几种参数最优化分析的相关工作。

  第一,研究怎样在RAID之间和RAID内部实现良好的分布式恢复,但很少关注分布的策略对于恢复速度的具体影响。有的研究分析了在运行的副本系统中单个对象自身的可靠性,但没有考虑到恢复带宽的因素。

  第二,有的研究指出了分布策略,还利用了用于节点恢复的马尔可夫模型,对影响系统可用性的具体因素进行了分析,主要分析的是具体的访问模式和读写模式如何对系统产生影响。

  第三,还有很多相关研究是关于大规模存储系统的可用性,而不是可靠性。比如研究广域网中不同的副本在分布策略方面的多对象可用性;利用动态副本的分布策略来提高系统整体可用性;随机分布策略对分布式的存储系统可用性的影响和作用等。

  要想系统分析可靠性参数的最优化,要在两个方面进行突破。第一,提出一个全新的基于研究对象本身的马尔可夫模型,基于马尔可夫模型量化分析在系统的规模已知的具体情况下,三个最常用的副本放置策略当中,系统参数对于可靠性的影响。这些系统参数主要有对象总数、存储节点总数,磁盘的带宽等,相比于过去很复杂的模型,马尔可夫模型规模较小、简洁直观,以自身小规模的状态来进行矩阵转换,易于求解。此外,还便于研究者获得综合性很强的结果。第二,在研究过程中,提出一个“两阶段”的分析过程。其中,第一阶段以固定其他相应参数为前提,对各个参数的影响进行独立分析,找出相对来说最为精确的最优值。第二阶段在所有的参数都可以进行变化的前提条件下,通过对它们复杂综合的影响进行分析,进而得到参数的最优组合。

  三、结语

  大规模的存储系统在运行中会面临很多的问题和挑战,想要让数据更加的可靠和精确,就要注意分析相应的可靠性参数,对其进行有效的整合和优化。这样,才能让系统运行的更有效率,最大程度的发挥自身的功效和作用。

  参考文献:

  [1]章宏灿,薛巍.集群RAID5存储系统可靠性分析[J].计算机研究与发展,2010(04).

  [2]郑胜,李通.一种应用于大规模存储系统的数据分布算法[J].计算机科学,2013(S2).