查看原文
其他

WeChat ID h-b-q-y-j Intro 《湖北企业家》杂志由湖北省新闻出版广电局批准,湖北省工商业联合会主管,湖北省职业经理人协会主办,湖北省职业经理人学院、FPEC资源库协办的不定期期刊。专注湖北企业家的思想和人文背书,构建湖北企业智库和企业家的精神家园。 目录 一、数据分析行业现状 二、数据采集处理流程 三、数据分析方法选取 四、数据分析主题选取 五、数据分析工具网站   互联网、移动互联网、物联网对人们生活的影响逐渐增大,数据正在疯狂增长之中,未来只会越来越多。在没有做数据简化前,我们必须通过数据挖掘来寻找数据价值和辅助决策。碎片化时间的使用,人们交互的机会变的越来越频繁,从而保障了人类数据的丰富多样。在大数据技术支撑下,今天的系统能够允许对这些大规模数据量进行高效分析。数据分析人员使用一些较为抽象的算法来对数据做更为丰富的分析,数据分析全面进入数据挖掘时代。本文总结一下网络上经常可以看到的数据分析过程中常规架构及方法,并推荐部分大数据分析工具网站,本文内容源于多篇网文整理,请大家关注微信公众号“数据简化DataSimp”、“科学Sciences”获得科普知识和技术。 一、数据分析行业现状 企业数据分析岗位的核心任务是支撑运营和营销,将企业内部数据、客户数据进行分析和总结,形成以往工作情况的量化表现,以及客户的行为趋势或特征等,以辅助管理和决策。宏观角度来认识数据分析岗位,要达到的目标就是希望通过数据来发现潜在规律、预测未来,这同数据挖掘的目标一致。多数公司在具备数据分析岗位的基础上,还反复提数据挖掘这个概念?需要我们看看数据分析岗位没做到哪些内容。 1、数据分散 多数公司数据分散,其数据分析岗位隶属单一业务部门、作为一个支撑岗,少数公司将数据分析作为一个独立部门、不断整合公司各部门数据。前者的数据分析岗位仅能分析自身部门所输出的指标,比如投诉部门只看投诉处理过程中的数据,销售部门只看销售过程中的数据,一旦涉及到需要将各类指标汇总分析的情况,这种组织架构就会带来极大的负面影响,由于不同部门具备自己部门指标导出的权限,且与其他部门的配合并不影响绩效任务,所以这种跨部门采集数据的过程往往效率奇低。而数据分析最关键的就在于汇集更多的数据和更多的维度来发现规律,所以以往的数据分析多是做最基础的对比分析以及帕累托分析,少有使用算法来对数据进行挖掘的动作,因为越少的指标以及越少的维度将会使得算法发挥的效果越差。 2、指标维度少 企业数字化管理体现在日常运维工作中,对客户端的数据采集从CRM系统诞生已经有很久时间了,但客户端数据维度却十分有限。CRM系统所获得的数据多为客户与企业产生交互之后到交互结束之间的数据,这段时间只是这个客户日常生活中很少的一部分内容,客户在微博、微信上的行为特点,关注的领域或是品牌,自身的性格特点等客户真正的特点、习惯,仅通过与企业的交互是无从知晓的,因此难以挖掘出有效的结论。 3、少使用算法 上述制约条件下,数据分析人员很少使用算法。数据分析依赖于大量的指标、维度以及数据量,没有这三个条件是难以发挥算法的价值的,而在排除掉算法后,数据分析人员更多的只能是针对有限的数据做最为简单的分析方法,得出浅显易懂的分析结论,为企业带来的价值则可以想象。 4、数据分析系统较弱 目前大部分公司多采用excel做数据分析,少部分数据分析人员能用到R或SPSS等软件,但当数据量达到TB或PB单位级别时,这些软件在运算时将会消耗大量时间,同时原始的数据库系统在导出数据时所花费的时间也是相当长的,因此对大数据量的分析工作,常规的系统支撑难以到达要求。如果要对客户或其他业务对象进行有效分析,势必需要引进强力的大数据分析系统。 二、数据采集处理流程 数据分析也即是数据处理的过程,这个过程是由三个关键环节所组成:数据采集,数据分析方法选取,数据分析主题选择。这三个关键环节呈现金字塔形,其中数据采集是最底层,而数据分析主题选择是最上层。数据采集是如何将数据记录下来的环节,有两个原则——全量而非抽样、多维而非单维。 1、全量而非抽样 非大数据系统支撑的公司中,系统分析速度、数据导出速度制约数据分析人员能够做到完全全量数据收集和分析。在大数据系统中,这将不再成为问题。 2、多维而非单维 数据维度方面,对客户行为实现5W1H细化,将交互过程的什么时间、什么地点、什么人、因为什么原因、做了什么事情全面记录下来,并将每一个板块进行细化,时间可以从起始时间、结束时间、中断时间、周期间隔时间等细分;地点可以从地市、小区、气候等地理特征、渠道等细分;人可以从多渠道注册账号、家庭成员、薪资、个人成长阶段等细分;原因可以从爱好、人生大事、需求层级等细分;事情可以从主题、步骤、质量、效率等细分。通过这些细分维度来增加分析的多样性,从而挖掘出业务对象的某些方面规律。 三、数据分析方法选取 数据分析方法是通过什么方法去组合数据从而展现规律的环节。根本目的是通过数据分析任务,抽象数据形成有业务意义的结论。单纯的数据是毫无意义的,直接看数据没有办法发现其中的规律,只有将数据抽象处理后,人们才能看出隐藏在数据背后的规律。数据分析方法选取是整个数据处理过程的核心,从分析方法复杂度分为三个层级:常规分析方法、统计学分析方法、自建模型。 从数据的抽象程度及定制程度两个层面上考虑做区分,抽象程度是说有些数据不需要加工,直接转成图形的方式呈现出来,就能够表现出业务人员所需要的业务意义,但有些业务需求,直接把数据转化成图形是难以看出来的,需要建立数据模型,将多个指标或一个指标的多个维度进行重组,最终产生出新的数据来,那么形成的这个抽象的结果就是业务人员所需要的业务结论了。基于这个原则,可以划分出常规分析方法和非常规分析方法。 定制程度层面,数学已经发展很长时间了,一些经典分析方法已经沉淀,可以通用在多用分析目的中,适用于多种业务结论中,这些分析方法就属于通用分析方法。但业务需求特别少见的分析,所需要的分析方法就不可能完全基于通用方法,因此就会形成独立的分析方法,也就是专门的数学建模,这种情况下所形成的数学模型都是专门为这个业务主题定制的,因此无法适用于多个主题,这类分析方法就属于高度定制的。基于此原则,非常规分析方法细分为统计学分析方法和自建模型类分析。 1、常规分析方法 常规分析方法不对数据做抽象处理,主要是直接呈现原始数据,多用于针对固定的指标、且周期性的分析主题。直接通过原始数据来呈现业务意义,主要是通过趋势分析和占比分析来呈现,其分析方法对应同环比及帕累托分析这两类。同环比分析其核心目的在于呈现本期与往期之间的差异,如销售量增长趋势;帕累托分析则是呈现单一维度中的各个要素占比的排名,比如各个地市中本期的销售量增长趋势的排名,以及前百分之八十的增长量都由哪几个地市贡献这样的结论。常规分析方法,诸如柱饼折三图等最为基础的分析方法,在此不详说。 2、统计学分析方法 统计学分析方法是基于以往数据规律来推导未来趋势,根据原理可分为多种规律总结的方式:有目标结论的有指导学习算法、没有目标结论的无指导学习算法、回归分析。统计学分析方法还有很多,企业多用上述几大类分析方法。各个分析方法中有很多的不同算法,这部分也是需要分析人员多多掌握、不断学习。 有指导的学习算法简单说就是有历史数据里边已经给出一个目标结论,然后分析当各个变量达到什么情况时,就会产生目标结论。比如我们想判断各项指标需要达到什么水平时我们才认定这个人患有心脏病的话,就可以把大量的心脏病人的各项指标数据和没有心脏病的正常人的各项指标数据都输入到系统中,目标结论就是是否有心脏病,变量就是各项指标数据,系统根据这些数据算出一个函数,这个函数能够恰当的描述各个指标的数据与最终这个是否是心脏病人之间的关系,也就是当各个指标达到什么临界值时,这个人就有心脏病的判断,这样以后再来病人,我们就可以根据各项指标的临界值。案例中函数就是算法本身,其中的算法逻辑有很多种,包括常见的贝叶斯分类、决策树、随机森林树以及支持向量机等,有兴趣的朋友可以看看各种算法逻辑是怎么样的。 无指导的学习算法没有给定的目标结论,是将指标之中所有有类似属性的数据分别合并在一起,形成聚类的结果。比如经典的啤酒与尿布分析,业务人员希望了解啤酒跟什么搭配在一起卖会更容易让大家接受,因此需要把所有的购买数据都放进来,然后计算后,得出其他各个商品与啤酒的关联程度或者是距离远近,也就是同时购买了啤酒的人群中,都有购买哪些其他的商品,然后会输出多种结果,比如尿布或者牛肉或者酸奶或者花生米等等,这每个商品都可以成为一个聚类结果,由于没有目标结论,因此这些聚类结果都可以参考,之后就是货品摆放人员尝试各种聚类结果来看效果提升程度。在这个案例中各个商品与啤酒的关联程度或者是距离远近就是算法本身了,这其中的逻辑也有很多中,包括Apriori等关联规则、聚类算法等。 回归分析简单说就是几个自变量加减乘除后就能得出因变量来,这样就可以推算未来因变量会是多少了。比如我们想知道活动覆盖率、产品价格、客户薪资水平、客户活跃度等指标与购买量是否有关系,以及如果有关系,那么能不能给出一个等式来,把这几个指标的数据输入进去后,就能够得到购买量,这个时候就需要回归分析了,通过把这些指标以及购买量输入系统,运算后即可分别得出,这些指标对购买量有没有作用,以及如果有作用,那么各个指标应该如何计算才能得出购买量来。回归分析包括线性及非线性回归分析等算法。 3、自建模型 自建模型是在分析方法中最为高阶也是最具有挖掘价值的,在今天多用于金融领域,甚至业界专门为这个人群起了一个名字叫做宽客,这群人就是靠数学模型来分析金融市场。由于统计学分析方法所使用的算法也是具有局限性的,虽然统计学分析方法能够通用在各种场景中,但是它存在不精准的问题,在有指导和没有指导的学习算法中,得出的结论多为含有多体现在结论不精准上,而在金融这种锱铢必较的领域中,这种算法显然不能达到需求的精准度,因此数学家在这个领域中专门自建模型,来输入可以获得数据,得出投资建议来。在统计学分析方法中,回归分析最接近于数学模型的,但公式的复杂程度有限,而数学模型是完全自由的,能够将指标进行任意的组合,确保最终结论的有效性。 四、数据分析主题选取 数据分析方法应用在业务需求中,需要选取分析主题。基于业务主题的分析可以涉及太多的领域,从客户的参与活动的转化率,到客户的留存时长分析,再到内部的各环节衔接的及时率和准确度等等,每一种都有独特的指标和维度的要求,以及分析方法的要求。企业主要分析主题大都是围绕着营销、运营、客户这三大角度来开展的。 1、营销/运营分析 营销运营分析多从过程及最终的成效上来进行关联分析,包括营销活动从发布到客户产生购买的过程的分析,运营从客户开始使用到停止使用为止的过程中的分析,前者更倾向于分析客户行为的变动趋势,以及不同类型的客户之间的行为差异,后者更倾向于分析在过程中服务的及时率和有效率,以及不同类型的客户之间对于服务需求的差异。 在针对这部分分析主题时,多采用常规分析方法,通过同环比以及帕累托来呈现简单的变动规律以及主要类型的客户,但通过统计学分析方法,营销分析可以根据有指导的学习算法,得出营销成功与营销失败之间的客户特征的差异,而运营分析则可以根据无指导的学习算法,得出哪些特征的客户对哪些服务是有突出的需求的,另外营销和运营分析都可以通过回归分析来判断,各项绩效指标中,哪些指标是对购买以及满意度有直接影响的。通过这些深入的挖掘,可以帮助指导营销及运营人员更好的完成任务。 2、客户分析 客户分析除了与营销和运营数据关联分析时候使用,另外单独对于客户特征的分析也是有很大价值的。这一部分分析更多需要通过统计学分析方法中的有指导和无指导的学习算法,一方面针对高价值客户,通过有指导的学习算法,能够看到哪些特征能够影响到客户的价值高低,从而为企业锁定目标客户提供指导;另一方面针对全体客户,通过无指导的学习算法,能够看到客户可以大概分为哪几种群落,针对每个群落的客户展开焦点讨论和情景观察,从而挖掘不同群落客户之间的需求差异,进而为各个群落的客户提供精准营销服务。 通过以上这些操作,企业数据分析或数据挖掘工作的完整流程就呈现了出来。从数据采集、分析方法、分析主题几方面实操,大数据和互联网支撑基础上的大数据分析在未来都将大幅增加,数据分析人员将成为今后十几年关键的企业支撑人员。未来各个领域中都将产生大量宽客、增长黑客这样的数据分析人员带动企业发展。 五、数据分析工具网站 下面收集部分大数据分析“必备神器”,其中很多功能非常强大的,希望大家能从中找到对自己有帮助的工具。内容来源于网络,版权归作者所有。全选地址,拷贝到浏览器中,即可使用。 1、微信大数据分析工具 新媒体指数:http://www.gsdata.cn 2、数据可视化工具 百度ECharts:http://echarts.baidu.com/ Cytoscape:http://www.cytoscape.org/ 图表秀:http://www.tubiaoxiu.com/ 数据观:http://shujuguan.cn/ 微博足迹可视化:http://vis.pku.edu.cn/weibova/weibogeo_footprint/index.html BDP个人版:https://me.bdp.cn/home.html ICHarts:http://www.icharts.in/ 魔镜:http://www.moojnn.com/ 3、词频分析工具 Rost:http://www.cncrk.com/downinfo/54638.html 图悦:http://www.picdata.cn/ 语义分析系统:http://ictclas.nlpir.org/nlpir/ Tagul:https://tagul.com/ 腾讯文智:http://nlp.qq.com/semantic.cgi Tagxedo词云:http://www.tagxedo.com/ 4、舆情分析工具 清博舆情系统:http://yuqing.gsdata.cn/ 云相:http://www.weidata.cn/ 5、PPT模板工具 我图网:http://so.ooopic.com/ 51PPT模板:http://www.51pptmoban.com/ppt/ 无忧PPT:http://www.51ppt.com.cn/ 第1PPT:http://www.1ppt.com/ 站长之家:http://sc.chinaz.com/ppt/ 设计师网址导航:http://www.userinterface.com.cn/ 6、互联网趋势分析工具 微博指数:http://data.weibo.com/index 百度指数:http://index.baidu.com/ 好搜指数:http://index.so.com/#index 搜狗指数:http://zhishu.sogou.com/ 百度预测:http://trends.baidu.com/ 7、在线调查工具 腾讯问卷调查:http://wj.qq.com/ 麦客:http://www.mikecrm.com/ ICTR:http://cn2.ictr.cn/ 问道网:http://www.askform.cn/ 问卷星:http://www.sojump.com/ 调查派:http://www.diaochapai.com/ 问卷网:http://www.wenjuan.com/ SurveyMonkey:https://zh.surveymonkey.com/ 8、网站分析监测工具 H5传播分析工具:http://chuanbo.datastory.com.cn/ 百度统计:http://tongji.baidu.com/web/welcome/login 腾讯云分析:http://mta.qq.com/ 51.la:http://www.51.la/ 9、社交媒体监测工具 聚微合智:http://www.socialdatamax.com/ 孔明社会化媒体管理:http://www.kmsocial.cn/ 企业微博管理中心:http://e.weibo.com/ 知乎用户深度分析:http://www.kanzhihu.com/useranalysis 10、其他数据网站 媒体微博排行榜:http://v6.bang.weibo.com/xmt 友盟:http://www.umeng.com/ 中国新闻地图:http://vis.360.cn/open/cnnews/ 中国票房榜:http://www.cbooo.cn/ 收视率排行:http://www.tvtv.hk/archives/category/tv 农业大数据云平台:http://www.dataagri.com/agriculture/gis.action 房价指数:http://industry.fang.com/data/datacenter.aspx 中国统计局:http://data.stats.gov.cn/ 中国主要城市拥堵排名:http://report.amap.com/traffic/ 中国综合社会调查:http://www.chinagss.org/ 中国P2P网贷指数:http://www.p2p001.com/wdzs/wdzs_p2pline.html Alexa:http://www.alexa.com/ 易车汽车指数:http://index.bitauto.com/ 旅游预测:http://trends.baidu.com/tour/ 大数据和互联网支撑基础上的大数据分析在未来都将大幅增加,数据分析人员将成为今后十几年关键的企业支撑人员。综上所述企业数据分析架构及方法,我们从数据分析行业现状、数据采集处理流程、数据分析方法选取、数据分析主题选取、数据分析工具网站等几方面实操,企业数据分析挖掘工作的完整流程就呈现了出来。未来各个领域中都将大量使用数据分析人员带动企业发展,希望大家能从中受到启发、找到有帮助的分析架构及方法工具。本文内容源于多篇网文整理,请大家关注微信公众号“数据简化DataSimp”、“科学Sciences”获得科普知识和技术,欢迎案例技术投稿、加入数据简化兼职团队(暂时义务翻译)。 Forwarded from Official Account Author requires users to follow Official Account before leaving a comment Write a comment Write a comment Loading Most upvoted comments above Learn about writing a valuable comment Scan QR Code via WeChat to follow Official Account

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存