导读@@:

  它山之石@@,可以攻玉@@。为了帮助各界人士学习国外先进经验@@,进一步了解大数据@@@@市场的定价@@@@、交易与保护@@,国脉@@战略研究院专家杨冰之@@@@、林渠@@,带来了@@《大数据@@@@市场调查@@:定价@@、交易与保护@@》的翻译文章@@,相信会给大家以思想的碰撞@@、灵感的启迪@@,促进大家思考@@,从而为我国推进数据@@要素@@市场化配置改革@@,贡献国脉@@战略研究院的智慧@@。

  在本章节中@@,我们将介绍大数据@@@@的基本概念@@@@,包括@@定义@@、挑战和@@应用@@。

  A. 大数据@@@@的定义@@

  世界上的数据@@总量呈爆炸式增长@@,每天生成的数据@@量估计为@@25亿字节@@。事实上@@,全世界近@@90%的数据@@都是在过去两年@@内创建的@@。数据@@来源@@多种多样@@,尤其是物联网越来越多地参与到@@我们的日常生活中@@,支持许多智能世界系统@@。如此多样化的数据@@源导致了数据@@量的膨胀@@,同样创造了巨大的潜在商业价值@@。我们将这些数据@@称为大数据@@@@@@。

  正如图@@@@1所示@@,尽管@@没有@@关于大数据@@@@的定义@@@@,但三@@个@@V是大数据@@@@最常用的定义@@:

  (i) 体量@@(volume):大数据@@@@的第一个特征是巨大的数据@@量@@。数据@@集的大小可以从@@TB到@@ZB,甚至更大@@。例如@@,截至@@2012年@@,Facebook存储了大约@@100 PB的媒体@@(照片和@@视频@@),有@@8.45亿用户上传@@。

  (ii)速率@@(velocity):速率@@是数据@@流变化和@@生成的特征@@。多个数据@@源不断生成数据@@@@,使得大数据@@@@具有@@难以置信的高刷新率@@。它也只有@@很短的时间来处理数据@@@@。尽管@@Facebook的数据@@总量约为@@100 PB,但每天仍有@@@@11.3亿活跃用户上传@@9亿张照片@@

  (iii)品种@@(variety):品种@@数据@@可以有@@多种不同且互补的格式@@,例如@@来自各种设备和@@应用程序的日志数据@@@@、数据@@库文件和@@@@XML文件等@@。此外@@,数据@@可以具有@@非结构化数据@@类型@@(图@@像@@、视频和@@音频流等@@)。由于机器学习和@@数据@@挖掘等数据@@分析技术的发展@@,大数据@@@@是海量@@、连续和@@全面的@@,具有@@很高的潜在商业价值@@。

 (图@@1. 三@@V大数据@@@@)

  请注意@@,术语数据@@挖掘@@(data mining)和@@商业智能@@(Business Intelligence (BI))经常交替使用来描述大数据@@@@的处理@@。这些概念显然@@与数据@@分析有@@关@@。因此@@大数据@@@@的目标不仅是收集数据@@@@,而且是进行数据@@分析以提取业务价值@@。作为传统大数据@@@@定义的延伸@@,我们考虑了另一个@@V,即价值@@。特别是与数据@@交易@@相关的三@@个@@V与数据@@价值之间的关系@@,以及它们如何相互影响@@,是大数据@@@@研究的非常重要并具有@@挑战性的方面@@。

  B. 大数据@@@@的益处和@@挑战@@

  与传统数据@@源相比@@,大数据@@@@既有@@优势也有@@劣势@@。我们对它们的差异进行了分类@@:

  全面性@@:大数据@@@@不仅可以捕获主要活动@@,还可以捕获相关数据@@@@,并提供详细信息以供将来分析@@。例如@@,随着智能手机的普及@@,社交网络在人们之间的联系以及图@@片和@@视频的分发也越来越普及@@。传统数据@@源可能只捕获联系人列表@@,而大数据@@@@可能涉及智能手机中的大量传感器和@@数据@@@@,记录尽可能多的信息@@(位置@@、面部信息@@、语音信息等@@)。这些附加信息可以提供全面的细节来描述此人@@,并帮助大数据@@@@应用@@程序进行分析并提供定制服务@@。

  恒常性@@:大数据@@@@不断捕获信息@@。例如@@,大多数人每年@@或每半年@@进行一次@@身体健康检查@@。医院或医生记录每位患者的基本健康指数@@,包括@@血压@@、体温@@、身高@@、体重等@@。如今@@,像苹果手表和@@带有@@传感器的运动手镯这样的新系统能够随时随地连续记录这些指标@@。这种技术有@@可能获得大量人口的高频率数据@@@@,用于深入的大数据@@@@分析@@。

  多样性@@:在大数据@@@@中@@,与结构化数据@@相比@@,半结构化和@@非结构化数据@@越来越多@@。大多数传统数据@@集被安排为结构化数据@@集@@,因为设计人员已经知道传统数据@@源的类型和@@结构@@,并且数据@@将被指定给传统数据@@库@@。例如@@,来自市场的收据@@、工资单和@@库存列表是具有@@传统结构化数据@@类型的典型业务应用程序@@,易于使用和@@管理@@。相比之下@@,非结构化数据@@源很难控制或管理@@。视频流@@、音频文件和@@文本数据@@就是这类数据@@的例子@@,它们的大小@@、编码和@@上下文都有@@很大差异@@。分析和@@管理非结构化数据@@很困难@@,因为数据@@位没有@@预定义@@。

  C. 大数据@@@@应用@@

  为了让大数据@@@@变得有@@用@@,大数据@@@@分析软件@@工具可以提取有@@用的信息@@。从大数据@@@@用户的角度来看@@,大数据@@@@应用@@程序可用于分析和@@挖掘大数据@@@@源的价值@@。

  1) 大数据@@@@应用@@的目的@@

  在过去几十年@@@@,世界上各个层次@@的经济实体都转向使用数据@@密集型技术@@,这种技术的广泛采用在一定程度上取决于经济发展和@@教育@@水平@@,这促进了数据@@增长@@。因此@@,Oracle、IBM、Microsoft、Dell和@@其他许多公司在大数据@@@@管理和@@分析应用程序开发方面投入了大量资金@@。此外@@,大数据@@@@应用@@行业每年@@以@@10%左右的速度增长@@,几乎是传统软件@@领域的两倍@@。因此@@,大数据@@@@管理和@@分析应用程序是创造数据@@价值的关键@@。

  许多特定领域@@,如政府@@、制造业@@、医疗保健@@、教育@@、互联网@@、社交媒体和@@物联网驱动的智能世界系统@@,都需要大数据@@@@应用@@程序来确定自己收集的数据@@集的价值@@,以更好地支持应用程序@@。例如@@,基于数据@@密集型业务的@@Facebook、谷歌和@@腾讯等公司提取来自它们自己的用户平台@@生成的数据@@集@@。这一过程的主要目的是将这些有@@价值的数据@@集出售给潜在的广告商@@、其他第三@@方@@,或将其呈现给投资者@@,以产生进一步的价值@@。因此@@,必须建立有@@效的大数据@@@@管理和@@分析应用程序@@,从收集的数据@@中挖掘商业价值@@,这一点非常重要@@。大数据@@@@应用@@也成为数据@@定价@@的重要参考@@。

  2) 大数据@@@@应用@@的挑战@@

  大数据@@@@应用@@程序面临的挑战之一是没有@@直接简单的方法来量化数据@@集的价值@@。正如前面所讨论的@@,通过提高大数据@@@@应用@@程序的性能@@,增加结果数据@@集的商业价值@@。遵循这一规则@@,为了追求数据@@集的最大值@@,一种有@@效的方法是从数据@@集产生价值的过程中提高应用程序的性能@@。为了提高这种性能@@,显然@@需要提高计算能力和@@运行效率@@,并降低计算资源需求和@@数据@@存储成本@@。尽管@@如此@@,问题仍然是如何量化这些改进@@,需注意的是@@,难以保证通过实施这些简单的改进@@,数据@@集的商业价值就会增加@@。因此@@有@@必要设计一个综合绩效评价模型@@。通过对应用程序的性能进行建模@@,技术人员和@@管理人员能够做出明智的决策@@,实验结果可以作为参考来设计创造未来价值的改进@@。

  延续上述讨论@@,大数据@@@@应用@@程序的下一个挑战是设计和@@开发适当的模型@@,用于评估价值生成过程@@。在这样一个过程中@@,有@@许多相互关联且复杂的场景和@@参数用于衡量大数据@@@@应用@@程序的性能@@。例如@@,每个计算任务可能涉及多个用于大数据@@@@应用@@的离散计算节点@@。此外@@,在某个计算任务期间@@,可以通过@@调度策略改变所涉及的计算节点@@。考虑到@@大数据@@@@结构和@@交互活动的复杂性@@,大数据@@@@应用@@程序的建模和@@性能评估需要专业知识@@。例如@@,多形式主义建模和@@测试异构形式主义和@@系统扩展的结构化基础设施@@(SIMTHESys)被定义为大数据@@@@建模的新框架@@。此外@@,SIMTHESys是一个建模框架@@,旨在适应快速和@@随机变化的系统模型@@。此外@@有@@学者还提出了其他建模框架@@,包括@@AToMe、OsMoSys和@@Mobius。

  3) 大数据@@@@和@@其他技术的融合@@

  大数据@@@@是人工智能@@(AI)和@@机器学习的基本来源@@@@/输入@@。在大数据@@@@时代@@,大量数据@@集为这些技术提供数据@@@@,以获得有@@意义的结果@@。尽管@@如此@@,对于设计有@@效的大数据@@@@应用@@程序而言@@,即时@@、灵活地随机访问大量数据@@的能力是一个具有@@挑战性的问题@@。此外@@,与过去在统计领域和@@数据@@分析科学中使用有@@限的数据@@样本集不同@@,大数据@@@@允许科学家访问和@@分析无限的数据@@集@@。由于大数据@@@@集的样本量大幅增加@@,以及数据@@源和@@传感器具有@@更多@@种类和@@细节@@,明显提升了分析结果@@。这就是许多组织从基于经验的分析战略转变为基于大数据@@@@的战略的原因@@。组织能够开发自己的应用程序以满足其独特的需求@@。此外@@,在分析处理期间@@,可以过滤掉冗余或不必要的数据@@@@。这将细化源数据@@@@,并整合数据@@集@@。不断运行优化循环@@,可以通过@@“分析沙盒@@”( analytical sandboxes)和@@大数据@@@@@@“卓越中心@@”( centers of excellence)分析数据@@集@@,还可以提高数据@@管理的灵活性@@。

  机器学习技术@@,如深度学习@@,是利用大数据@@@@价值的可行方法@@。机器学习由大数据@@@@源驱动@@,适用于快速变化的大型复杂数据@@集@@,并可通过云和@@边缘计算基础设施的帮助进一步改进@@。与传统的分析技术不同@@,机器学习能够在不断增长的数据@@集上不断开展@@。通过这种方式@@,输入@@机器学习系统的数据@@越多@@,它可以学习得越多@@,从而得到@@更高质量的结果@@。因此@@,大数据@@@@和@@机器学习结合可以帮助组织改进从自身数据@@集中提取业务价值的工作@@,并扩展其大数据@@@@应用@@分析能力@@。

  D. 大数据@@@@的价值@@

  大数据@@@@是数据@@技术时代最重要的资源@@。为了交易或共享数据@@资源@@,如何评估这些数据@@集的商业价值是一个基本问题@@。此外@@,从数据@@集中捕获和@@挖掘价值可以进一步增加数据@@的价值@@。为了从大数据@@@@中确定商业价值@@,我们需要定义数据@@集的商业价值@@。高德纳@@(Gartner)提出了最常被引用的大数据@@@@定义@@:“大数据@@@@是高容量@@、高速度和@@多种多样的信息资产@@,需要成本效益@@,创新的信息处理形式@@,以增强洞察力和@@决策能力@@。”尽管@@这是大数据@@@@的一个有@@效特征@@,但这一定义还不够明确@@,无法明确区分高值和@@低值@@。使用此定义@@,我们无法测量数据@@集的值@@。因此@@,需要基于评估的定义来确定数据@@值@@。

  显然@@,收集和@@存储大量数据@@并不是所有@@公司和@@组织的目标@@。然而它们都对分析数据@@以提取和@@创造实际商业价值感兴趣@@。达文波特@@(Davenport)列举了一些真实或轶事的例子@@,说明了组织如何使用收集的数据@@集的策略@@,并从这些数据@@集中挖掘价值@@。此外@@,一项综合研究表明@@,数据@@驱动的决策在生产率和@@盈利能力方面比其他决策方法具有@@更好的绩效@@。关于确定大数据@@@@分析如何创造商业价值@@,以及在何处可以从大数据@@@@中获得商业价值的问题@@,有@@许多研究@@。根据系统性研究@@,大数据@@@@有@@两个主要方面@@,从这两个方面可以为组织创造商业价值@@。第一个方面是大数据@@@@用于改进和@@优化当前业务流程@@、服务和@@实践的能力@@。第二@@是开发新的商业模式@@、产品和@@实践@@,这些都可以通过@@大数据@@@@分析进行开发和@@创新@@。因此@@从大数据@@@@中获取价值需要确定业务模型与所分析的大数据@@@@之间的关系@@。

  数据@@挖掘是从数据@@集中获取价值的常用方法之一@@。尽管@@如此@@,在大数据@@@@的数据@@挖掘应用方面仍存在挑战@@。第一个挑战集中在数据@@访问和@@计算过程上@@。由于分布式@@存储系统和@@不断增长的数据@@量@@,计算平台@@必须具备处理分布式@@和@@大规模数据@@存储的能力@@。大多数数据@@挖掘算法都需要将所有@@必要的数据@@加载到@@主存中@@,这显然@@是大数据@@@@的一个技术挑战@@,因为从分布式@@存储系统中移动数据@@非常昂贵@@。第二@@个挑战是各种大数据@@@@应用@@@@。更具体地说@@,应用程序存在于不同的域中@@,在数据@@所有@@者和@@使用者之间具有@@不同的数据@@私有@@和@@数据@@共享方案@@。第三@@个挑战是设计有@@效的机器学习和@@数据@@挖掘算法@@。学习和@@挖掘算法必须解决大容量@@、分布式@@、复杂和@@动态的数据@@特征的困难@@。

更多@@精彩@@,请关注@@“官方微信@@”

11.jpg

 关于国脉@@@@ 

国脉@@,是大数据@@@@治理@@@@、数字政府@@、营商环境@@、数字经济@@、乐动安卓app 专业提供商@@。创新提出@@"软件@@+咨询@@+数据@@+平台@@+创新业务@@"五位一体服务模型@@,拥有@@@@超能城市@@APP营商环境@@流程再造系统@@、营商环境@@督查与考核评估系统@@、政策智能服务系统@@、数据@@基因@@、数据@@母体@@等几十项软件@@产品@@,长期为中国智慧城市@@@@、智慧政府和@@智慧企业提供专业咨询@@规划和@@数据@@服务@@,广泛服务于发改委@@、营商环境@@局@@、考核办@@、大数据@@@@局@@、行政审批局等政府客户@@、中央企业和@@高等院校@@。

责任编辑@@:wuwenfei