HCR大数据研究常用软件工具与应用处

2019年05月15日 来源:

作者:HCR大数据平台部马亮

如今,大数据日益成为研究行业的重要研究目标。面对其高数据量、多维度与异构化的特点,以及分析方法思路的扩大,传统统计工具已经难以应对。工欲善其事,必先利其器。众多新的软件分析工具作为深入大数据洞察研究的重要助力,也成为数据科学家所必须掌握的知识技能。然而,现实情况的复杂性决定了并不存在解决一切问题的工具。实际研究进程中,需要根据实际情况灵活选择合适的工具(乃至多种工具组合使用),才能更好的完成研究探索。

图-0:大数据工具和应用方式

为此,本文针对研究人员(非技术人员)的实际情况,介绍当前大数据研究涉及的一些主要工具软件(由于相干软件众多,只介绍常用的),并进一步论述其运用特点和合适的场景,以便于研究人员能有的放矢的学习和使用。

【基础篇】

1传统分析/商业统计

Excel、SPSS、SAS这三者对于研究人员而言并不陌生。

◆Excel作为电子表格软件,合适简单统计(分组/求和等)需求,由于其方便好用,功能也能满足很多场景需要,所以实际成为研究人员常用的软件工具。其缺点在于功能单一,且可处理数据规模小(这一点让很多研究人员尤为头疼)。这两年Excel在大数据方面(如地理可视化和络关系分析)上也作出了一些增强,但运用能力有限。

SPSS(SPSSStatistics)和SAS作为商业统计软件,提供研究常用的经典统计分析(如回归、方差、因子、多变量分析等)处理。

◆SPSS轻量、易于使用,但功能相对较少,适合常规基本统计分析

◆SAS功能丰富而强大(包括绘图能力),且支持编程扩大其分析能力,适合复杂与高要求的统计性分析。

上述三个软件在面对大数据环境出现了各种不适,具体不再赘述。但这并不代表其没有使用价值。如果使用传统研究方法论分析大数据时,海量原始数据资源经过前期处理(如降维和统计汇总等)得到的中间研究结果,就很适合使用它们进行进一步研究。

2数据发掘

数据挖掘作为大数据应用的重要领域,在传统统计分析基础上,更强调提供机器学习的方法,关注高维空间下复杂数据关联关系和推演能力。代表是SPSSModeler(注意不是SPSSStatistics,其前身为Clementine)

图-1:SPSSModeler

SPSSModeler的统计功能相对有限,主要是提供面向商业发掘的机器学习算法(决策树、神经元络、分类、聚类和预测等)的实现。同时,其数据预处理和结果辅助分析方面也相当方便,这一点尤其合适商业环境下的快速发掘。不过就处理能力而言,实际感觉难以应对亿级以上的数据规模。

另一个商业软件Matlab也能提供大量数据发掘的算法,但其特性更关注科学与工程计算领域。而的开源数据挖掘软件Weka,功能较少,且数据预处理和结果分析也比较麻烦,更合适学术界或有数据预处理能力的使用者。

【中级篇】

1、通用大数据可视化分析

近两年来出现了许多面向大数据、具备可视化能力的分析工具,在商业研究领域,TableAU无疑是卓着代表。

图-2:tableau

TableAU的优势主要在于支持多种大数据源/格式,众多的可视化图表类型,加上拖拽式的使用方式,上手快,非常适合研究员使用,能够涵盖大部分分析研究的场景。不过要注意,其并不能提供经典统计和机器学习算法支持,因此其可以替代Excel,但不能代替统计和数据挖掘软件。另外,就实际处理速度而言,感觉面对较大数据(实例超过3000万记录)时,并没有官方介绍的那末迅速。

2、关系分析

关系分析是大数据环境下的一个新的分析热门(比如信息传播图、社交关系等),其本质计算的是点之间的关联关系。相关工具中,适合数据研究人员的是一些可视化的轻量桌面型工具,常用的是Gephi。

图-3:gephi

Gephi是免费软件,善于解决图络分析的很多需求,其插件众多,功能强且易用。我们常常看到的各种社交关系/传播谱图,很多都是基于其力导向图(Forcedirectedgraph)功能生成。但由于其由java编写,限制了处理性能(感觉处理超过10万节点/边时常陷入假死),如分析百万级节点(如微博热点传播路径)关系时,需先做平滑和剪枝处理。而要处理更大范围(如亿级以上)的关系络(如社交络关系)数据,则需要专门的图关系数据库(如GraphLab/GraphX)来支撑了,其技术要求较高,此处不再介绍。

3、时空数据分析

当前很多软件(包括TableAU)都提供了时空数据的可视化分析功能。但就使用感受来看,其大都只适合较小规模(万级)的可视化展现分析,很少支持不同粒度的快速聚合探索。

如果要分析千万级以上的时空数据,比如新浪微博上亿用户发文的时间与地理分布(从省到街道多级粒度的探索)时,推荐使用NanoCubes(。该开源软件可在日常的办公电脑上提供对亿级时空数据的快速展示和多级实时钻取探索分析。下图是对芝加哥犯罪时间地点的分析,站有更多的实时分析的演示例子

12下一页

平时白带多怎么办
子宫内膜炎症状及治疗
得了盆腔炎吃什么药
相关文章
  • 当酒酿小丸子遇到蔬菜沙拉的做法
    当酒酿小丸子遇到蔬菜沙拉的做法

    当酒酿小丸子遇到蔬菜沙拉的做法早上赶时间的话可以晚上提前准备难度:切墩(初级) 时间:10-30分钟主料速冻糯米小丸子吃多少放多少甜酒一杯沙拉酱一大勺水果适量蔬菜适量枸杞三五颗 当酒酿小丸子遇到蔬菜沙拉的做法步骤1. 放甜酒,加水煮开,放...

  • 市领导率经贸代表团赴港考察
    市领导率经贸代表团赴港考察

    淮安讯 11月10日—11日,市长曲福田率淮安经贸代表团赴香港访旧友、交新朋,进企业、看项目,密集走访了香港金轮集团、摩根士丹利、香港物流协会、香港明骏国际投资公司、香港国泰航空货运中心、香港诺贝尔国际教育机构等多家机构和企业,增进交流与合作,...

  • 福州8个便民自行车站点停用2个旧站点恢复使用
    福州8个便民自行车站点停用2个旧站点恢复使用

    昨日从福州市公共自行车管理公司了解到,近期有8个便民自行车站点停用,同时2个旧站点恢复使用。恢复使用的站点是磐石佳园和茶亭公园站。已暂停使用的包括福中路西(安泰),此处因地铁施工造成电源被切断。此外,因道路改造施工,淮安新村、农林大学站...

  • 林志颖获封实力奶爸慷慨分享喂奶经验
    林志颖获封实力奶爸慷慨分享喂奶经验

    据报道讯 据香港媒体报道,,林志颖上月初宣布太太生下双胞胎儿子。林志颖写道:“哥哥喝完换弟弟喝,弟弟喝完换我吃夜宵啰!”他还分享经验说:“如果喝奶时宝宝快睡着时,可以轻轻的拍奶瓶或转动奶瓶叫醒他,才能确保这餐有吃饱!记起来了吗?”民都赞...

  • 大户假后借口再造淡大市
    大户假后借口再造淡大市

    大户假后借口再造淡大市东京、新加坡等亚洲一众主要股市持续反覆向俏的良性发展势头,终使若干大户无法再在下周二期指结算日前夕刻意造淡,只能以小幅低收,足见造淡力量相对有限。要是港股在渡过今日的本地公众假期后复市时,纽约以至上海等市仍维持...

  • 猪肉价年内首次回落但四季度仍会有波动
    猪肉价年内首次回落但四季度仍会有波动

    昨日,成都晚报从省商务厅获悉,10月中旬我省猪肉价格终于出现今年以来的首次回落。但四季度仍是猪肉需求的旺季,省商务厅、省教育厅又在我市召开国家储备肉投放四川高校对接会,1300吨中央储备冻猪肉今年将首次投放大中专院校食堂。据悉,这次中央储备冻...