手机浏览器扫描二维码访问
叶风讲的虽然浅显易懂,但确实精彩万分。
“数据处理,必须经过这几个步骤,完成之后才会有智慧。”
此时台前的叶风,像极了传教老师。
下面的众人,像极了专心听弟子。
“第一个步骤是数据收集。
这里有两个方式,第一个方式是拿,专业点的说法叫抓取或者爬取,例如万象搜索就是这么做的,它把网上的所有的信息都下载到它的数据中心,然后你一搜才能搜出来。
比如你去搜索的时候,结果会是一个列表,这个列表为什么会在搜索引擎的公司里面呢,就是因为他把这个数据啊都拿下来了,但是你一点链接,点出来这个网站就不在搜索引擎它们公司了。”
“比如说网易有个新闻,你拿万象搜出来,你不点的时候,那一页在万象数据中心,一点出来的网页就是在网易的数据中心了。
另外一个方式就是推送,有很多终端可以帮我们收集数据,比如说华风智能手机上面的健康管理应用,可以将你每天跑步的数据、心跳的数据、睡眠的数据都上传到数据中心里面。”
“第二个步骤是数据传输。
一般会通过队列方式进行,因为数据量实在是太大了,数据必须经过处理才会有用,可是系统处理不过来,只好排好队,慢慢的处理。”
“第三个步骤是数据存储。
现在数据就是金钱,掌握了数据就相当于掌握了钱。
要不然别人怎么知道你想买什么呢?就是因为它有你历史的交易的数据,这个信息可不能给别人,十分宝贵,所以需要存储下来。”
“第四个步骤是数据分析。
刚才说的存储数据是原始数据,原始数据多是杂乱无章的,有很多垃圾数据在里面,因而需要清洗和过滤,得到一些高质量的数据。
对于高质量的数据,就可以进行分析,从而对数据进行分类,或者发现数据之间的相互关系,得到知识。”
“比如90年代盛传的沃尔玛超市啤酒和尿布的故事。”
叶风刚刚举了一个例子,还没说完,大家就会心笑起来。
在坐的各位,都是精英,基本上都听过这个故事。
尤其是红旗大卖场的总裁曹世茹,她知道在美国有一个有趣的现象:尿布和啤酒赫然摆在一起出售。
但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。
这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为她津津乐道,常常用来教育下面的员工。
沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。
沃尔玛数据仓库里集中了其各门店的详细原始交易数据。
在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。
一个意外的发现是:“跟尿布一起购买最多的商品竟是啤酒!
经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒“背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。
产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
叶风笑道:“即然大家都知道,我就不多说了,这就是通过对购买数据进行分析,发现男人一般买尿布的时候,会同时购买啤酒,这样就发现了啤酒和尿布之间的相互关系,获得知识,然后应用到实践中,将啤酒和尿布的柜台弄的很近,就获得了智慧,让啤酒和尿布销量双双大增。”
“第五个步骤就是对于数据检索和挖掘。
检索就是搜索,分析后的数据放入搜索引擎,从而人们想寻找信息的时候,一搜就有了。
四羊方尊这么重,古人真的拿它来拼酒?金缕玉衣这么牛的裹尸布为啥后来不用了?金属真的是你看到的那样?艾滋病毒究竟是用来干啥的?良渚玉琮是祭器?拜完财神拜寿星,我告诉你这俩货其实都很可怕!罗布泊里什么也没有,但是它很重要哦,你不相信社会上那些人说的吗?那你也别相信我写的,因为我也是瞎掰啊!...
被无数强者誉为当代最强的神话,杀手之王的赵毅接手了一栋别墅。好吧,既然如此,那便看我如何在各色美女中左右逢源,逍遥度日我的房客不好惹,我,更不好惹!...
父亲大哥出海遇事,家里欠下巨债,大学生龙海选择了回家当渔民,并意外获得五行灵珠认主,从而踏上了修真的道路。只是修真太难,还是做个渔民更加逍遥自在。什么?深海之中竟然蕴藏着各种各样的修真资源?那还有什么说的,全是我的了。嗯,一不小心再捡个蓬莱仙岛,做做神仙岛主似乎也不错嘛—...
...
那女孩早已躺在床上,一条大腿微微翘起,一只手正在解身上的第一个纽扣。可我仍坐在那里无动于衷。我可不是不想干那事,我想得要命,同时也怕得要死。不一会儿,那女孩已经将她的衣服纽扣全部解开了。...
当年的逐鹿之战,任健的肉身被毁,而他的魂魄已经飘荡了近五千年,世间万物,皆有定数。任健无法轮回,可是每过几百年,地球上便会出现一个与他长相相同的人,但往往活不过二十岁。任健想救他们,却依然改变不了他们夭折的命运!一日落在替身身上,没想到竟然成了上门女婿。...