艾瑞网

互联网

红杉中国专家合伙人、原阿里巴巴副总裁车品觉:大数据,颠覆存在与思维

来源:艾瑞网    作者:Maggie      2016/11/23 10:22:02

导语:科技放大了我们的能力,但是也同时增加了我们的烦恼。我们要用数据做更精准东西的时候,会发现数据的质量非常重要。

【艾瑞网 直播】2016年11月23日,第十一届艾瑞上海峰会在上海浦东香格里拉大酒店隆重举办。此次峰会以“让想象发生”为主题,云集了大数据网络营销、创新科技领域的大咖共话行业发展之道。此外,峰会不仅首度发布了《2016年中国优秀企业级服务商榜单》,还重磅揭晓了2016金瑞营销奖评选结果。 

以下是红杉中国专家合伙人、原阿里巴巴副总裁车品觉发表题为《大数据,颠覆存在与思维》的演讲实录。

车品觉2_副本.jpg(图为红杉中国专家合伙人、原阿里巴巴副总裁车品觉)

车品觉:上周世界互联网大会讲到了我们从PC互联网年代到了移动互联网年代,还会到智能互联网时代,很多人不理解什么是智能。

到底发生了什么事情呢?这几年里面我们更多地看到万物包括人类很广泛地不断地连接,只知道我们在搜集数据上更主动。以前很难说服每个部门你们要怎么主动搜集数据,我们开始做大数据的时候,我们公司里面还讨论到底你们讲的数据是什么数据,我要收集什么,现在我们讲的是我看到什么、收集什么,我们可能希望更准确地分析信息,更准确地做判断,到深度学习的时候,我们希望快速从错误里面找出对的东西。这些都是现在在发生的。

上半场和下半场的区别,最近一个很特别的现象,最近不断有非常大的集团打电话给我说,车总,跟我们讲讲数据治理,我想知道你的数据是干嘛的,而且必须要和我讲从头到尾你们思考得怎么样。我觉得最强烈的感觉,我们现在的老板说了一句话,数据治理,当数据量特别大的时候,万物的连接,主动的数据收集,这是上半场。下半场是我怎么准确判断,把它变成行动。大部分的痛苦在于本公司部门里面的打架,基本上那些数据不知道怎么整合。内部打架已经可以让这种数据没有办法整合在一起,可能四五年都没有办法,所以他们想了一个“登月计划”,而且这个登月计划还蛮成功的,但是这个是来自于我们找来的痛苦,100PB、200PB、300PB,再不治理就吃不消了。那个时候必须要做数据治理。数据治理是非常关键的点。

科技放大了我们的能力,但是也同时增加了我们的烦恼,我不是说社会性的烦恼,科技放大了之后,我们要做更精准东西的时候,会发现数据的质量非常重要。阿里金融和其他数据部门打架打得很厉害,就是因为阿里金融需要数据的质量是非常高的,但是其他部门给出的数据没有想,其他部门的人说你没有说过要用我的数据,这都是数据治理的问题。刚才讲到愿景,我更现实一点,人类想我到底能不能活得更久一点。另外,我能不能把平均IQ提升到160,这还是上半场与下半场的区别。当我们有大量有质量的数据的时候,这一点并不是那么困难的。当数据量增加的时候,你会发现它的精准度会提升,当然我们讲的数据量的增加是多来源增加。当数据量增加的时候有一些问题开始可以解决的,但是还有另外一个问题,有些问题必须要很精准,90%准确和95%准确本身就是非常大的分水岭,会发现数据量的不一样。我们不要光说数据量一定要大,其实还是有一些非常核心的数据的。当你拿到这些核心数据的时候,数据量并不需要那么大,有时候数据量大的原因是为了解决数据稀缺的问题,这张图想形容的是数据量增加,会让精准度不断增加。前几年我们大部分在第一种,加密的数据、ERP的数据,现在我们慢慢注意了,结果数据并不是那么重要,它的场景更重要,做到现在为止有一个比较微妙的东西,也是下半场开始出现的,当机器人不断出现的时候,它的循环速度比以前我们所收集的数据,绝对不是你可以覆盖的,一定是一个楼数据的概念,Sense,甚至我们身体里面的一些数据,包括我们今天的face到底是开心还是不开心,读取我情感的数据。可想象的数据量的复杂性,智能数据之类,到了下半场你发现你根本没有办法去找到这种数据的数据量,你用数据做决策,这个问题到底有多紧急,过去我们有经验,到底我们今天想准备用数据解决的问题有没有足够的发生次数,如果只是偶然或者低概率,大数据没有办法处理。如果它的发生次数足够大,比如我以前推荐一个商品给一个用户,每天可能推荐几亿次,我很快就能知道我推荐的东西到底是对还是错的。紧急的东西我们能不能用自动化解决,要看很准确的东西和我们的数据量以及对这个东西业务的理解有多深。

我有时候碰到很多小公司,一些朋友是做天使投资的,他说这个公司有很大量的数据,我说多大?大概MAU有一个亿左右,我说不是大数据,为什么?你回头问一下你准备要投的公司,如果我有100万的用户数据给你,你大概有百分之多少数据能覆盖。如果1亿多,一般超过50%就很少。这是第一个问题,我的数据里面你有多少数据可以和我匹配的。第二,如果我给你100万的数据你知道他是男的还是女的,准确度90%以上。如果不能回答这两个问题,就不是大数据了。量和互相之间的连接是非常重要的,在这个前提下你才可以融合,我知道的,一个人今天到你店里买东西,知不知道之前去过什么店看过什么东西。匹配、相关、全面,第四点最重要,新鲜。到底你的数据能做到有多新鲜,这是非常重要的。

我们要解决的问题是两种,第一,我们非常清楚问题是什么。第二,不是很清楚。一个是数据很集中,一个是数据很零散。我们现在可以做的大数据方案都是数据很集中,而且问题很清楚,否则没有办法解决。那个时候你可能要用大量的算法,如果数据很清楚,问题很清晰,算法不重要。但是大数据的机会反而是来自今天的数据很离散,问题很清楚,我特别喜欢看已经有人积累的数据或者刚开始出现的风口,有些App出现了,但是下得很快,我知道这个数据里面有什么,这种对我来说是我最喜欢看到的。我可以到这个公司说,你数据的使用权给我5年,这就是数据地产。我认为将来有很多数据的创新是来自这个地方,数据创新、算法创新、服务创新,把三层分开,这张图讲的是数据的地方下功夫,目前还没有人用数据解决它。这是第一个机会。第二,很多数据太零散了,所以有一个第三方进来,这些数据我要整合。第三,左下角,问题还是很模糊的,数据可以解决一时问题,今天最大的问题是政府数据的开放,这一点是虚线,不是不存在,但是质量很差,没有标准化,零散。所有东西都堆在左下角,我最近花很多力量在这个地方,我认为BAT以外最大的数据量而且可能是非常重要的一块,怎么样可以把数据的产能释放出来,我认为这个解决了我可以帮很多人在上面做更多的应用。如果我们不注意这一点,包括10年我们不断说大数据是让数据传输成本、单位成本和使用成本降低,我不认为这样。当你的量足够大,你不做数据治理拐点会来,因为数据的分析性和量同时增加,要处理很难。当年发现阿里数据很大的时候,我们发现大量的数据是重复的,特别是ODS层的数据,越底层的数据处理应该是越统一的,如果你不做标准化,随着公司对数据的重视,而造成了百花齐放,结果就是乱,当真的要把它变成工程化的时候,结果是重做。

你们做的是Data Stitching,把它连起来,让它能使用,让中间人用Machine使用。一种是可视化分析,另外一种是用服务的产品,还有自动化智能的东西出现,这样的东西面对的是什么呢?我们现在看到的摩拜这些东西,但是最终的用家是政府、公司和个人。在世界互联网大会上联想提到以前是终端,现在中间那块做得比较厚,Data、算法、服务。尽管数据驱动非常厉害,但是依然会有经验的驱动,人还是要告诉机器“你要去哪里”。不用担心数据驱动这个世界将会把我们人类的经验消灭掉,人类的经验和数据的驱动两者之间是互相的。

我今天就讲这么多。谢谢大家。

(本文为艾瑞网独家原创稿件 转载请注明出处)
  • 合作伙伴

  • 官方微信
    官方微信

    新浪微博
    邮件订阅
    第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。
     关于艾瑞| 业务体系| 加入艾瑞| 服务声明| 信息反馈| 联系我们| 广告赞助| 友情链接

Copyright© 沪公网安备 31010402000581号沪ICP备15057083号-1