教学文库网 - 权威文档分享云平台
您的当前位置:首页 > 范文大全 > 工作报告 >

2017年中国数据分析行业年度发展报告(3)

来源:网络收集 时间:2026-01-02
导读: 4、大数据的应用 大数据的应用范围非常广。有机构预测,“大数据”的发展,将使零售业净利润增长60%以上,制造业的产品开发、组装成本将下降50%以上。 在制造行业,企业通过对网上数据分析了解客户需求和掌握市场动

4、大数据的应用

大数据的应用范围非常广。有机构预测,“大数据”的发展,将使零售业净利润增长60%以上,制造业的产品开发、组装成本将下降50%以上。

在制造行业,企业通过对网上数据分析了解客户需求和掌握市场动向,并对大数据进行分析后,就可以有效实现对采购和合理库存量的管理,大大减少因盲目进货而导致销售损失。

在商业上,国外一些超市利用对手机的定位和购物推车获得商场内顾客在各处停留时间,利用视频监视图像软件分析顾客购物行为,优化商场布局和货架排列。

在政府决策上,分析几十年来的天气数据,将各地降雨、气温、土壤状况和历年农作物产量做成精密图表,就可以预测农产品生产趋势,政府的激励措施、作物存储量和农业服务也可以随之确定。

5、大数据处理方法

大数据的处理方法有很多,普遍适用的大数据处理流程,可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。

(1)、采集。大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。在大数据的采集过程中,其主要特点和挑战是并发数高,因

为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片是需要深入的思考和设计。

(2)、导入/预处理。虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

(3)、统计分析。统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

(4)、挖掘。与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。

该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

2017年中国数据分析行业年度发展报告(3).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.jiaowen.net/fanwen/2294.html(转载请注明文章来源)
Copyright © 2020-2025 教文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:78024566 邮箱:78024566@qq.com
苏ICP备19068818号-2
Top
× 游客快捷下载通道(下载后可以自由复制和排版)
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
VIP包月下载
特价:29 元/月 原价:99元
低至 0.3 元/份 每月下载150
全站内容免费自由复制
注:下载文档有可能出现无法下载或内容有问题,请联系客服协助您处理。
× 常见问题(客服时间:周一到周五 9:30-18:00)