【移动@@LABS】8月@@26—27日@@,2015中国国际大数据@@大会在北京召开@@,移动@@LABS作为大会战略合作媒体受邀现场直播@@。中科院院士@@、北京大学@@、普林斯顿大学教授@@、普林科技董事长@@鄂维南@@做了题为@@“大数据@@发展中的一些瓶颈问题@@”的主题演讲@@。
 
  中科院院士@@、北京大学@@、普林斯顿大学教授@@、普林科技董事长@@ 鄂维南@@
 
  以下为演讲速记@@:
 
  非常感谢收到邀请@@,因为我在这个讲台上肯定也是一个新人@@,我可能大家一个不太熟悉的人@@,我是北京大学@@元培学院院长@@,是搞教育的@@。从秋天@@开始我们学院有一个新的专业@@,数据科学专业@@,这是全国一个系统的专业@@。今天@@我看了这次@@大会的主要宗旨之一是让大数据@@能够在中国务实@@、健康地发展@@,这个题目非常好@@,现在中国的大数据@@非常热@@,从国务院@@、各级政府@@、企业界@@、高校@@,整个社会都非常感兴趣@@。中国大数据@@的前景非常广阔@@,市场非常大@@。怎么把这个广阔的前景变成现实现在还面临很多问题@@,我现在想讲讲我个人的一些经历@@。前面几位嘉宾也讲过很多了@@,我结合自己的体会讲一讲@@。
 
  第一个问题就是没数据@@,理论上我们中国有很多数据@@,但实际做数据分析@@你会发现这是一个非常严重的困难@@。就像前面张总工程师讲数据孤岛是一个严重的问题@@,不同部门数据存在在不同的地方@@,格式也不一样@@。你要做数据@@,大数据@@最高的层次@@就是要用数据来形成智慧@@,使得社会各方面可以运转起来@@。做数据分析@@先要整合数据@@,这是我们通常的理念@@,这本身就是研究的困难@@。
 
  第二是数据的质量的问题@@,最后我还要在后面提到@@。我想强调一点并不是说我们要有很完美的数据才能做分析@@,完美的数据永远是等不来的@@,我们做数据分析@@的人@@,我们的出发点是有多少数据可以做多少事@@,比方说碎片化的数据也可以有这样一个流程@@,你也可以把它整合起来也可以做分析@@,所以这一点我想强调一下@@,不是说等到有完美的数据才能做数据分析@@@@。这是第一个瓶颈@@,大家很清楚@@。
 
  第二个瓶颈就是数据拥有方@@@@,像电信@@、联通@@,和数据分析@@@@,像我这样做数据分析@@的人@@,这中间有一个很大的洪沟@@,我们是做数据分析@@的@@,像电信@@、联通@@有数据@@,但是他们还没有像我们这样数据分析@@做了很多年@@,十几年@@,没有这样的@@。那么怎么样使得数据能够流通起来@@?
 
  第一大家想到的就是开放@@,数据开放@@,现在政府也在呼吁数据开放@@@@,数据开放@@面临一个严重问题就是隐私问题@@,脱敏远远不够@@,隐私问题是一个无底洞@@。前面有一个我的铺林斯顿大学的同事@@,他说从算法角度来判断数据隐私这是不可能的@@。下面是一个例子@@,他们把美国的信用卡@@3个月@@数据拿过来@@,拿过来以后他发现如果我知道一个人昨天@@在某个部门买了一点东西@@,前天@@在另外一个商场买了东西@@,我就知道这个人是谁@@,也就是把你所有的消费数据都找到了@@,那么我就了解你的消费习惯@@,所以其实就是我了解你在消费方面的隐私@@。这是脱敏的@@,没有名字@@,没有号码什么的@@,但可以通过算法可以找到一个人的消费习惯@@。想靠法律办法解决隐私问题@@,这个严格来说是不可能@@,这是第一个问题@@。数据开放@@面临的问题@@。
 
  第二个就是数据交易@@,现在交易所很多@@。我想说数据作为一种商品@@,它有一定的特殊性@@,我用了别人也可以用@@,没有任何消耗@@,可以在市场卖很多遍@@。这就产生一个问题@@,你这个数据到市场卖@@,根据经济学观点@@它的价值是零@@,你卖给我我可以用更低的价格卖给别人@@,所以数据交易理论上来说也是不可行的@@,现在很多数据交易平台@@@@,我不知道他们怎么做的@@,怎么突破这个悖论@@。但是有一种说法是撮合@@,还有一种说法是不是直接卖数据@@,是卖数据的加工品@@,这实际上有这个悖论在背后@@,对这两种交易都是有影响的@@,只不过是更高层次@@的影响@@,这个问题本身不可避免@@。
 
  怎么办@@?数据怎么流通起来@@?面临这样的情况现在还有另外个情况@@,就是数据拥有方@@,数据分析@@,他们的出发点@@,自己建一个团队自己来做@@,我想说我从事数据分析@@很多年@@,我想说数据分析@@有瓶颈@@,是一个技术活@@,而且你差个@@1%、2%,这样表明你在市场里没有竞争力@@,所以这条路也是有困难的@@。另外我们国家的实际状况是什么呢@@?现在我们的数据分析@@公司是风起云涌@@,我把它说成是小锅炉战场@@,想当年大炼钢铁的时候就是自己在家里就建了锅炉就炼@@。的确什么人都可以做@@,没有什么技术含量@@,但是现在我们讲的大数据@@有一个很重要的一点@@,大家平时不说的@@,就是现在数据分析@@的技术@@、方法@@、模型@@、算法有非常大改进@@,跟过去六七十年代完全不一样了@@,不是说搞几个@@SAAS软件或者@@RAAS软件就可以做了@@,虽然有人做起来了@@,也做得非常花哨@@,也可以说有很多市场@@,也可以说有很多人就能进入这个市场@@。但是长远来说这条路走不通@@。所以我觉得数据行业服务最重要的是提高门槛@@,这个不是大家都可以做的@@,这真的是技术活@@,同样真正把门槛提高了@@,数据服务的企业对本身有责任感@@,它本身就具有责任感@@,你才能提到前面的交易@@、隐私的问题@@,这是第二个瓶颈@@。
 
  第三个瓶颈是技术@@。一个方面是数据分析@@本身就是一个难题@@,第二点中国的数据有它的特色@@,比如院士刚刚讲到我们很多的视频@@,中国的视频比任何国家都要多@@,我们有很多监控视频@@,这些数据现在连存都存不下@@,北京的交通信息管理中心的视频只存@@21天@@,想用的时候没有了@@。视频分析本身就是一个非常困难的问题@@。我们有很多监控视频@@的监控视频的分析@@。第二文本@@,我们用中文@@,美国用英文@@,中国的和美国的文本不完全一样@@,这也是中国大数据@@的一个瓶颈@@。最主要的是我们的数据质量差@@、噪音多@@,也就是说在国外的方法@@拿到我们这里来不一定管用@@,因为噪音很多@@。这个是一个风控评级的模型@@@@,红的是国外这个企业本身做的@@,绿的是普林科技做的@@,把大小和生物差@@,可以看到不同的数段是不同类型@@,可以看到普林科技的模型@@比国外这个模型@@好很多@@,误差小很多@@。但是我们都知道数据分析@@很严重的问题就是过度拟合@@,尤其过度拟合把数据里的噪音拟合进去了@@,你在训练级上表示非常好@@,你在测试级上真正实际数据表现差@@。比如这个地方@@,训练级上蓝的线走势非常好@@,但到实际数据越来越差了@@。在我们国家尤其严重的问题@@,因为我们的数据质量非常差@@,数据里面噪音非常多@@。所以这个时候就需要对算法和模型@@进行改进@@,来避免过度拟合这样的问题@@。这是对我们这个市场提出了一个新问题@@。
 
  这里面我举一个例子@@,不仅仅是数据分析@@本身就困难@@,中国市场的数据本身也有困难@@。还有一个难度@@,就是数据服务作为一个业务模式@@,它的商业模式现在没有真正被认可@@。互联网企业大家知道@@,平台@@搭起来@@,流量提上去商业模式就解决了@@,那数据通过什么方式赚钱@@,前景不是那么清楚@@。
 
  最最严重的问题是人才问题@@,我们国家大数据@@发展最大的优势市场大@@,最大的劣势缺乏人才@@,人才缺乏非常严重@@。第一我们要跟国外争人才@@,现在在国外做大数据@@的也很热@@,有种说法说做@@IT的比做金融的华尔街的人更热门@@,做大数据@@分析@@的人@@,在谷歌@@、脸书网做的很热门@@,他们待遇非常好@@,这是对国外说@@。在国内也好@@,国外也好@@,你还要跟企业竞争@@。比如我在美国铺林斯顿大学@@,这个大学是世界最好的大学之一了@@,现在在我们普林斯顿找数学家都非常困难@@,他很容易被大的公司挖走@@,我们去年有两个非常好的人才就被微软挖走了@@。所以即使在国外@@,现在学术界跟企业界@@竞争@@,人才都是非常严重缺乏的@@,在国外就更严重了@@。所以人才是非常严重的问题@@。
 
  而在我们国家目前没有非常好的培养大数据@@人才的机理@@,这样的机制没有建立起来@@。本来我们的教育界@@、科技界的人才就缺乏@@,而在大数据@@领域@@,统计@@、机械学习等这些领域相比而言更加弱@@,所以这是一个严重问题@@。那么怎么解决这个问题@@?其实我个人在这方面想了很长时间@@,就是怎么才能在中国真正建设一个具有国际标准@@、国际水平的大数据@@平台@@@@?我们国家这么大的市场@@,我们做大数据@@@@,在国际上竞争第二是没有意义的@@,我们要竞争就至少在某些领域在领先地位@@。要做到这一点至少得要有一个国际标准的研究平台@@@@,经过很多年我可以告诉大家明天@@再北京大学@@我们要有一个北京大数据@@研究院挂牌仪式@@。这个可以说是从体制来讲是一个创新@@,但是北京市政府@@、北京大学@@、北京工业大学@@、中关村管委会等联合推进的这样的研究院@@,既有体制内@@,也有体制外的部分@@,把人才培养教育和科研创新和市场化@@、产业化结合在一起@@。
 
  我觉得这样的一个平台@@有可能把一些一流的人才吸引过来@@,因为他们这些人可能会看到中国市场的广大@@,在这样的平台@@上他既可以做科研@@,也可以做市场@@,做产业化@@。从这个平台@@也可以某种程度解决待遇问题@@,所以我从@@2009年开始到现在@@,6年的时间为了做这样一件事情想了很多@@,当然现在在各个部门@@,包括北大@@,包括北京市政支持下可以做起来@@,所以我们是挂牌了@@,万里长征走完第一步@@。不管怎么样我的个人的感觉是说我们中国大数据@@的市场非常大@@@@,但要真正务实@@,落到实处我们要做的还非常多@@。这几天@@有很多论坛@@,都很多代表都会讲我们做了很多很多事情@@,我想听起来都非常吸引人@@,但是我们听众也要问问你究竟是怎么做的@@。我们要采取一种开放务实的态度@@,最后讲的有点教训式的口吻@@,对不起@@。不是说教育@@,而是我自己这么多年来的经验和教训@@,谢谢大家@@。


鄂维南@@:中科院院士@@、北大教授@@

责任编辑@@:admin