阻火模块厂家
免费服务热线

Free service

hotline

010-00000000
阻火模块厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

发现数据挖掘的魅力孙晗专栏

发布时间:2020-03-11 11:26:42 阅读: 来源:阻火模块厂家

发现数据挖掘的魅力 数据挖掘,不知何时开始成为一个时髦的辞藻。似乎说出这四个字就是专业的象征,但究竟什么是数据挖掘呢?当然不是秀名词、堆方法。在此,尝试用三个通俗的例子,抛砖引玉的介绍数据挖掘:

1. 甲每天中午都到同一个餐馆吃饭,连续吃了一周,每次都点同样的一道菜,当他再一次来到这餐馆时,突然换了另外一道菜。那么等这位顾客再一次光顾时,是应该推荐他之前每天都点的呢?还是推荐另外那道?抑或是其他什么?

解读:数据挖掘可以理解为在获取更多资讯的同时,进行下一步的预测。然而,对于数据并不丰富的情况,数据挖掘则会因为资讯不足而难以实现。如同上例那样,这位顾客点什么菜,很有可能取决于天气、用餐时间、甚至是否存在特价菜等情况,而上述例子的描述中(实际的数据)显然没有提供这些要素,做出统计推断的风险过大,不能做出判断。

2. 有一个暗箱,里面有若干个黑球和白球,某人从箱子中无放回的抽取了3次,每次都是黑球,这人想干什么?A.该人就是喜欢黑球,想收藏;B.该人一心想拿到白球,不信自己点背拿不到。该选择哪一个答案呢?

解读:显然,对上题做出个选择最好的方式就是——随机的一猜。我们完全不知道这哥们为什么要拿球,更不知道他后面会不会再取,何谈判断?如果,存在着一种用户场景假设:连续抽取颜色一样的球会中奖,用户在碰运气。那么,显而易见可以判断出:该用户不会再抽取,因为对他而言,一切都已经结束。数据挖掘是基于场景假设,由目标进行驱动的统计分析,没有场景假设,即便能有数据上面的线索(如上例中连续3次同样结果),也不能得出对业务有帮助的推论。

3. 有位朋友A很喜欢看电影,他罗列了自己喜欢看的50部电影。像这样的朋友有1000个,当然他们各自所罗列的电影不同。那么,该为A君推荐什么样的电影呢?思路(1):每部电影都有一个分类,基于某个枚举表,为用户推荐喜欢类型的电影。思路(2):用户所罗列的电影分别聚类,A君喜欢的可能会分成10类,而其他1000人所喜欢也会分类。为A君推荐其他1000人中分类与A最接近,且A没有观赏过的电影。你选择哪一个?

解读:数据挖掘是一个利用大规模数据的动态过程,在大数据集下,模型不断的自我学习,使得算法精度不断提高,诚如上述所言的电影分享,1000个用户分别贡献的数据,在大数据集下进行分类模型的迭代更新,当精度达到并超过某一水准时,为用户提供同类别或类别接近的电影。人工维护的枚举表虽然会无比精准,但成本远非机器那样高效。如果把数据挖掘当做枚举表的对接,那么从根源上就有了偏差,没有发挥出大数据的功效。

通过上述三个例子,我们可以如此总结数据挖掘:利用大数据集,在场景假设明确的情况下,动态的利用数据自学习来完善统计推断模型,以达到某一精度水平。

当然,在更多时候,我们的数据基础是给定的,我们也要迫于管理层的压力或市场的压力,在没有把场景假设想明确就要开始干活,更有可能产品来不及迭代,来不及自学习就要为人民服务。 如此情况下,小数据集的尝试就变得非常有必要。用小规模数据下的模型,去说服管理层耐心的让团队找好铁锹,慢慢挖掘。

收据怎么写

高新技术企业税收优惠政策

标的资产