海量数据的产生
尽管在近十年中技术不断进步、资金不断投入,但数据管理仍然是困扰大多数企业的问题,急速膨胀的数据量使硬件以及人力、时间成本剧增。
持续造成数据保护问题的根本原因几乎是相同的:数据持续的爆发性增长!按信息生命周期管理原理,我们把数据分成五个层次:应用层、生产层、恢复层、保护层和归档层。数据在应用层产生,首先被存放在生产层,恢复层是为了快速恢复生产数据而设立的,保护层就是存放传统的备份数据,归档层是存放归档数据的。通常在生产层产生一份数据,那么在恢复层会产生3-5倍的数据,在保护层会产生6-10倍的数据,而在归档层将是25-50倍的数据。随着生产数据的不断增加,可以想象数据将带给我们巨大的挑战,我们要同时管理不同层次的数据,并要确保数据能在不同层次之间快速传送。

数据太多、应用太多,以致人们没有足够的时间来备份和恢复它们。ESG在2005年对目前的备份和恢复方案进行了调查和分析,问题最多的前5项表明都与时间有关,66%的人认为“备份时间太长”,49%的人认为恢复时间太长。

这么多的数据,来自哪里?2006年春,InfoPro发表的研究报告表明,数据来自数据库和内容知识库、共享文件系统和邮件系统。简而言之,您不必吃惊,数据来自每个用户的每一项业务之中。数据的增长来源于我们需要把同样的数据复制多份:多重备份作业产生的副本、为满足法规依从和查询而归档的副本、副本的副本,等等。
这些数据副本通常需要保存7年,有的甚至要无限期保留。为什么呢?因为根据现行的法律,我们不知道那些数据能安全放弃,一旦发生错误将会带来数百万美元的损失。
所以我们要保留数据,并对它进行索引,以便即使在六、七年后,一旦需要还能有机会找到它。我们还要保留索引,如果索引丢了,我们必须花钱让服务公司来扫描老的介质,找出需要的数据。
为什么传统的备份软件不能应付海量数据集
目前全球大部分的备份软件基础架构都是在上世纪九十年代设计的。在那个互联网技术尚未起步的年代,只有选择磁带或光盘作为介质存储来备份数据副本,通常100盘磁带就能顺利容纳整个数据集,并且还绰绰有余。如果需要用哪一盘磁带,事先得把磁带放进顶端的驱动器,磁带的跟踪都记录在墙上的表格或电子表格里,真是一个简单的年代!
有趣的是,磁带采用的是顺序技术,磁盘采用的则是随机存取技术。当磁盘的费用开始普遍下降时,由于随机存取技术比磁带备份数据更快、更有效、更灵活,因而备份到磁盘已经被广泛利用到数据保护环境中,大约一半以上的跨国企业采用该方案,目前比例还在不断上升。按理说磁盘的高效率能够帮助我们处理不断增长的数据,但由于还有必要作数据的“离场保存”,所以磁带至今仍有用武之处,并且在今后相当长的一段时间内还不会完全退出历史舞台。
当世界已经从“顺序介质”进化到“随机介质”时,大部分传统的备份软件却并没有随之进步。大部分备份软件在把数据备份到磁盘时,仍旧像在使用磁带,写入数据时顺序的,索引也是顺序的,当要恢复数据时,备份软件必须从头到尾从磁盘上读数据,就像在磁带上一样。
那传统的备份软件为什么会这样低效呢?因为在大多数情况下,一个被广泛使用的备份软件不能有太大的变化,如果改变大到要“伤筋动骨”,就会无法“向后兼容”,而向后兼容对备份软件来说是非常关键的。否则,很难更新客户的环境。如此一来,上世纪90年代中期设计的备份软件技术被冰封了!
集中式索引与分布式索引
CommVault相信,一切的数据备份、保护操作都是为了在需要使用数据的时候,能够快速恢复。而在恢复管理中,有效的索引无疑是一大利器。
传统备份软件采用的是集中索引方式,备份产生的索引数据由一台服务器集中管理并存放在同一台服务器上,当备份数据不断增加时,索引数据也会随之增加。如果备份数据量达到几十TB,甚至PB级时,索引数据量也将达到TB级,对于传统备份软件,这将是一个重大的性能瓶颈和管理上的麻烦。
与其他众多备份软件所不同是CommVault的分布式索引方案,使快速检索和快速恢复成为可能。CommVault采用两级索引模式
为了确保索引数据的安全和性能,CommVault能对索引进行智能的管理:
l 自动归档:每次备份后就将索引写入到备份介质中,备份数据和相关的索引成为一个整体进行保存,消除了索引损坏的风险。
l 自动裁剪:为了保证索引高效而少占资源,对过期的索引进行自动裁剪。
l 自动索回:被裁剪的索引能被自动找到,重新装回介质代理服务器中。





