经营分析系统数据仓库分库方式研究项目报告
经营分析系统数据仓库分库方式研究项目报告
目录
研究背景调研情况
技术体系研究结论
-2-
背景1:数据仓库规模加速膨胀对技术和产品提出了高要求 原本数据仓库平台并未预见到如此快速的数据膨胀,部分数据仓库产品无法线性扩张满足需求。例如:XX公司ORACLE分库案例 数据仓库数据的检查、清晰、加载等技术有待升级以改善性能
成本增长太快,扩容压力加大 WinterCorp研究结果数据仓库近10年间,每 2年规模增长3倍,超过摩根定律20000
15000 10000 50000
数据仓库采用小型机+磁盘阵列的方式构建,构建在高端硬件平台上,且软件费用也较贵。高性能同时带来了高成本 未将数据处理功能和数据存储功能分散考虑,导致架构单一,扩容需要综合考虑处理性能和磁盘容量的时候要取最大值
快速扩张的数据规模加大了管理难度 无法在限定的时间窗口内对数据仓库进行有效备份,即使备份后也无法有效进行恢复测试。例如:XX公司BCV备份的案例 同样在安全审计,数据库优化方面的管理难度都相应加大
-3-
一经TD仓库总磁盘容量从03年的24TB增长到 2010年的247TB,超过10倍 省经到2010年总裸磁盘容量已达17PB,TPMC值达到7.15亿
背景2:数据仓库中不同的数据有不同特点XX公司
XX公司
80%的数据访问集中在21%的磁盘空间上。
80.08%的数据访问集中在9.07%的磁盘空间上。
*纵轴是存储空间,横轴是访问量,其中访问量为访问次数×数据块大小
*纵轴是存储空间,横轴是读写的记录数
汇总表占据了大量的磁盘访问,例如 tf_fact_rept_base_day仅占0.21%的磁盘空间,但是却占了25.61%访问比例
ST_REPORT_MARKET_SHARE_MM仅占用了0.1%的磁盘空间,但却占了20.29%访问比例
*两种数据仓库产品由于数据分布的具体技术不同,记录的数据情况有所不一样,所以不能进行对比,但它们都显示了相同的统计规律-4-
背景3:产品的限制导致被迫分库期望现实
超强数据处理能力的Oracle最优秀负载均衡的 Teradata
Oracle的性能瓶颈? Teradata扩容的高成本?
如何进行有效备份
几乎可以无限扩展的DB2
DB2的高可用性存疑?
新旧设备兼容问题
-5-
数据膨胀
研究目标
经分数据仓库的高速膨胀带来无休止的扩容分级存储是解决这个难题的一个思路。经分数据仓库中,不同特点的数据需要分级存储分库是解决这个问题的另一个思路,并且已经得到实践的验证。本研究主要针对分级存储和分库这两项技术,进行研究。现有的数据仓库技术在经分的超大数据量面前遇到了种种限制
-6-
研究内容
分级存储相关技术研究
12 3-7-
主
要研究现阶段各个层面的数据分级存储技术,针对移动的数据服务特点,对这些技术进行详细的调研和比较,为分级存储技术的选型提供技术支持。
分级存储和分库省公司调研 在相关技术研究的基础上,对移动各省公司经营分析系统的建设中,如何运用分库和分级存储技术解决现实问题,做一个全面细致的调研,得出全面的调研报告,总结其中的规律,分析出现的问题,为分级存储和分库在移动经营分析系统中的应用积累经验,为最终指导意见的形成积累素材。
分级存储和分库软课题研究报告 结合技术调研和省公司调研,得出分级存储和分库技术选择的指导意见,为移动经营分析系统数据仓库的未来发展和规划提供支持。
研究历程2011 4
5
6
7
8
9
10
11
12
开题
完成开题报告厂商集成商技术交流6月到7月,完成与XX、XX、XX、XX等交流 7月到8月,完成与EMC、Teradata、IBM、Oracle、Sybase、Symantec等交流
技术交流
省公司调研
省公司调研7月底,完成全部省份问卷调研 7月到8月,完成重点省份XX、XX、XX、XX的现场调研 8月,利用小汤山培训,进行现场交流 9月到10月,利用经分规范评审的机会,在XX、太原、杭州、福州、石家庄与参会各集成商和省公司代表进行进行交流
研究
技术研究7月到8月,整理厂商和集成商交流资料,进行归类、分析、比较和研究
分库现状研究7月到10月,整理各省调研结果,进行归类、分析、比较和研究
结题开题报告 -8技术交流汇报省公司调研报告
完成项目报告项目汇报报告
目录
研究背景调研情况
技术体系研究结论
-9-
分库类型为了解决各省的实际问题,很多省都对数据仓库进行了拆分,主要的拆分方式有如下四种:按照数据的生命周期拆分成生产库和历史库,比如3+1的数据存放在生产库,12+1的数据存放在历史库,这周方式最为普遍,有些省历史库还包含部分生产库的数据
生产库
历史库
按照数据的粒度拆分成汇总库和明细库,汇总之后的数据存放在汇总库,明细数据存放在明细库按照地市拆分成若干地市库,通常会根据用户数均分成几个地市库,使用该方式的省较少。这种拆分跟面向地市应用的地市数据集市不同,存放的全部的数据仓库数据
汇总库经分数据仓库主库地市库 1按照应用拆分成若干应用库,通常会根据各个应用的负载均衡分库。有些省拆分出单独的一经库、挖掘库,也属于这种方式。
明细库
地市库 2
地市库 N
应用库 1
应用库 2
应用库 N
-10-
*很多省并非只有一种分库方式,很多省同时存在多种分库
分库现状截止8月底,已经实施的有XX、XX
、D、尚无打算 8 C、正在调研论证
XX;正在实施的有XX、XX;A、已经实施 10
8
B、正在实施 5
*调研时间为2011年8月,下同。
8 7 6 5 4
7
Oracle的分库主要是因为其性能瓶颈 DB2的分库主要是因为对其高可用性担忧 Teradata的分库主要是因为成本-11-
4 3 2 1 0
2 1 1
Oracle XX、XX、 XX、XX
DB2 XX、XX、XX、 XX、XX、XX、 XX
Teradata XX
Oracle+ Teardata XX
DB2+ Teardata XX、XX
分库的方式和效果采用或计划采用按照生命周期分库和按照应用E、其他 D、按照汇总粒度 C、按照应用 B、按照地市 1 XX 16 0 5 10 15 1 XX 3
分库两种方案的省最多,其他的分库方法较北京、XX、 XX7安徽、 XX、 XX、 XX、XX、 XX、 XX
少,一些省建议这两种方式可以结合实施,其中按照应用分库包括一经库、挖掘库的拆分*该问题是多选,很多省同时采用了多种分库方式XX、安徽、XX、XX、XX、 XX、 XX、 XX、XX、 XX、 XX、黑龙江XX、云南、XX、 XX 20 F、其他
A、按照数据生命周期
几种分库方式都能提升性能,也都能降低扩容成本压力;按照生命周期分大,尤其是那种历史库包含生产库数
29 18 3 20 18 0 5 10 15 20 25
E、软硬件平台限制
库的方式对高可用和数据安全提升较 D、高可用和数据安全
据的方式,该方式也是大家突破软硬件平台限制的优先选择*该问题是多选-12-
C、管理复杂度 B、性能压力 A、扩容成本压力
按照生命周期分库——XX公司(XX)由于成本的原因,XX公司按照数据生命周期对数据仓库做分库,于2008-2010年完成了分库工作,将数据仓库一分为二。在线应用访问
历史应用应急访问访问
说明:XX历史库存放全量数据,承担部分应用,并且可以作为生产库的备份库,未来的目标是异构双中心数据仓 …… 此处隐藏:2804字,全部文档内容请下载后查看。喜欢就下载吧 ……
- 基于PLC控制的航空电镀生产线自动输送
- 中考预测课内外文言文对比阅读2
- 2018-2023年中国商业智能(BI)产业市场
- 中国金融体制改革研究2011new
- 外窗淋水试验方案
- 精益生产(Lean Production)
- 学校安全事故处置和信息报送制度
- Chapter 5 Human Resources Management
- 【小学数学】人教版小学六年级上册数学
- 初中数学解题方法与技巧
- 山东省创伤中心建设与管理指导原则(试
- 函数与数列的极限的强化练习题答案
- 10分钟淋巴按摩消脂
- 网络应急演练预案
- 服装设计入门基础知识
- 初二数学分式计算题练习
- (人教新课标)高二数学必修5第二章 数列
- 最新自主创业项目
- 北京大学 无机化学课件 4第4章 配合物
- 贸易公司业务管理制度




