4008-953622
数据分析
数据分析的一般流程和方法
发布时间:2020-01-02    信息来源:未知    浏览次数:

  但数据分析的应用还远不止如此,利用数据分析的方法,我们还可以得到很多有意思的结论。

  数据正在变得越来越常见,而数据分析的价值也越来越凸显。在大型互联网企业(比如谷歌、阿里、腾讯、等)每天将产生海量的数据;就算是初创的互联网公司,日志、用户、运营等数据量也不可小觑;而一大波传统企业,在普及智能终端的情况下,所产生的数据,也非同小可。那么一个比较完善的数据分析流程是什么样的呢?

  这些问题可能来源于你已有的经验和知识。比如你已经知道每周的不同时间用户购买量不一样,那么你可以通过分析得出销量和时间的精确关系,从而精准备货。又比如你知道北京最近几年的空气质量是在变坏的,可能的因素是工厂排放、沙尘暴、居民排放、天气因素等,那么在定义问题的时候你就需要想清楚,需要针对哪些因素进行重点分析。

  但如果有一些经验就会好很多。比如,你要研究影响跑步运动员速度的身体因素,那么我们可能会去研究运动员的身高、腿长、体重、甚至心率、血压、臂长,而不太会去研究运动员的腋毛长度,这是基于我们已有的知识。又比如我们要分析影响一个地方房价的因素,那么我们可能会有一些通用的常识,比如城市人口、地理位置、GDP、地价、物价水平,更深入的可能会有产业格局、文化状态、气候情况等等,但一般我们不会去研究城市的女孩长相,美女占比。

  第三种是编写网页爬虫,去收集互联网上的数据。比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,爬取豆瓣评分评分最高的电影列表,获取知乎点赞排行、网易云音乐评论排行列表。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析,这算是非常靠谱的市场调研、竞品分析的方式了。

  现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据分析,或分析结果差强人意。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。把这些影响分析的数据处理好,才能获得更加精确地分析结果。

  比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。

  在这个部分需要了解基本的数据分析方法、数据挖掘算法,了解不同方法适用的场景和适合的问题。分析时应切忌滥用和误用统计分析方法。滥用和误用统计分析方法主要是由于对方法能解决哪类问题、方法适用的前提、方法对数据的要求不清等原因造成的。

  另外,选择几种统计分析方法对数据进行探索性的反复分析也是极为重要的。每一种统计分析方法都有自己的特点和局限,因此,一般需要选择几种方法反复印证分析,仅依据一种分析方法的结果就断然下结论是不科学的。

  荐:发原创得奖金,“原创奖励计划”来了!“我的个图·我的家园”,有奖征文邀您参加

分享到:
您使用的浏览器版本过低,不仅存在较多的安全漏洞,也无法完美支持最新的web技术和标准,请更新高版本浏览器!!