大数据时代网络群体性事件治理
2015-12-28 14:58:00  百度   [查看原文]

【摘要】大数据时代下所形成的大数据思维是时代的产物。在网络群体性事件频繁发生的今天,如何有效防治网络群体性事件是一个必须要解决的新课题。文章通过分析大数据思维治理网络群体性事件的必然性和可能性,提出治理网络群体性事件的新思维和新方法,做到预防为主,防治结合,尽量避免网络群体性事件的发生。

【关键词】大数据时代 大数据思维 网络群体性事件 治理

【中图分类号】B82      【文献标识码】A

随着互联网的普及,联网设备和社交媒介的增加与创新,网络的信息量不断增加,整个世界随之进入包揽海量数据的大数据时代,它在潜移默化中对我们的思维方式、生活方式、工作态度以及技术革新产生重要影响。在网络群体性事件频繁发生的今天,分析大数据思维治理网络群体性事件的必然性和可能性,提出治理网络群体性事件的新方法,有着重要的理论与实际意义。

大数据时代与大数据思维

大数据时代的到来。20世纪80年代,美国人就曾经提出过大数据概念,经过30多年的发展,2012年3月,美国政府斥资2亿美元启动“大数据研究与发展计划”,这是继1993年“信息高速公路”之后,美国的又一创举,奥巴马将其定义为“未来的新石油”。该项目的全面启动标志着大数据时代的到来!

大数据简而言之就是大量数据的集合体,但目前还没有对大数据作出完全标准化的定义。在维基百科中,大数据被定义为海量数据、大量数据和大资料,指的是在宽带、互联网社交网络等各种终端设备的普及下,产生了规模巨大到无法通过常规的软件工具进行分析、处理的数据量。

数据量的持续增长和数据规模的扩大,一方面是全球网民数量的增长。市场研究公司eMarketer在报告中指出2014年互联网用户在全球总人数中首次突破40%的比例,网民数量高达28.9亿人。预计2015年将增长6.2个百分点,全球互联网用户将达到30亿人以上,同时在全球人口数量中所占比例增至42.4%。据推算,到2018年,全世界将近一半的人口(36亿)每月可至少接入一次互联网①。另一方面是联网设备的增加和联网技术的更新换代。以物联网为代表,市场研究公司Gartner预测,2015年物联网设备的使用量将增至49亿,与2014年(38亿)相比,增长了30%,到2020年,物联网设备的数量将增至大约250亿②。

与此同时联网技术也在日新月异,网络也从2G、3G发展到今天的4G网络。全世界的移动网络,到2017年,3G的使用数量将有希望超过2G,成为主要的网络使用技术。到2019年,移动设备和联接设备中44%将为3G网络,26%将为4G网络。Cisco VNI全球移动数据流量预测报告预测,到2019年全球移动数据流量将达到292EB,比2014年的30EB增长显著③。这一系列的调查数据及预测结果表明:大数据时代向我们走来!

大数据思维。大数据的特征表现为:数量(volume)、速度(velocity)、多样性(variety)和精确性(veracity)④。时代在发展,面对汹涌澎湃的4V时代,我们也要转变看待问题的方式,培养一种与时代接轨的大数据思维,让数据“发声”。

第一个转变:全数据模式,样本等于总体。在小数据时代,由于收集、储备和分析数据的设备不健全,我们只能收集到少量的数据。为了简便分析数据的方法,随机抽样的方法应运而生,即以最少的数据,获得最多的信息。随机抽样在测量和推算领域占据着很高的位置,但这只是在无法获得和分析大量数据情况下的选择,其自身也存在着缺陷。如今随着信息收集和处理能力的不断发展,我们已经有能力获得海量的数据,全量数据可以使我们站在一个更高的角度,发掘被埋没的数据价值,获得更全面的研究结果,从而在大数据的分析过程获得惊喜的发现。

第二个转变:精确转向混杂。执迷于精确性是小数据时代的产物,在信息贫乏的时代,我们只能获得少量的数据,而可用的数据又少之又少,所以,对能够收集到的相关数据要求十足的精确性,以保证研究结果的正确。如今我们生活在海量信息的时代,而且能够掌握的数据库也越来越全面,如果我们还以传统的思维模式来审视信息大爆炸的21世纪,那么我们将错过很多信息,据研究结果显示,只有5%的数据是结构化的,可以适用于传统的数据库,如果不接受混杂或者不精确,95%的数据将无法利用。再者,在海量数据的大数据时代,我们无法实现数据的完全精确,当我们掌握了足够多的数据,我们同样可以预测出事情的发展走向。或许这种混杂数据看问题的思维刚开始会与我们的直觉相矛盾。接受数据的混杂与不精确,这种数据的不完美或许能够使我们更好地预测,看到世界另一扇窗的景色。

第三个转变:不问因果,重视相关。过去,人们对事物的分析,总是先有了想法,进行假设,然后收集相关数据,通过实验和分析来证明想法的可行性。但是这种假设是主观的,极易受偏见的影响。同时由于受时代的限制,收集和分析数据十分困难,所以对事物的相关性分析也容易产生错误。如今大数据时代攻破了此项难题,我们无需进行假设,数据自己会说话。也就是说大数据时代我们不再问因果,而且巨大的数据库也不允许我们事事问因果。我们的思维开始由why转向what,知道是什么,没必要问为什么。大数据的核心是预测,而对事物相关性的分析摆在了突出位置,通过对事物相关性的应用,我们可以更好、更快捷地分析事物,捕捉现在,预测未来。

运用大数据思维治理网络群体性事件的必然性

为了对网络群体性事件更好地进行预测与事前控制,必须运用大数据分析的方法。随着互联网尤其是移动互联网的普及以及智能终端设备的创新和发展,网民数量不断增加。大数据时代,每天具有高速的数据流产生,所以传统的数据抽样法对于事件的治理具有明显滞后性,以致网络群体性事件的危害不断扩大,舆情无法控制,错失从源头上控制和治理的时机。大数据时代下,我们要突破小数据时代传统抽样调查方式的局限,采用全数据模式,即样本=总体,通过统计互联网的整个检索记录,运用数据分析设备对整个数据库进行分析,把握主流信息的走向,对主流信息的把握由宏观转向微观,掌握可能引发网络群体性事件的人群来源、地区来源,同时了解群众的诉求和意愿等方面的信息。由事件个案的关注转向整体态势的把握,对网络舆情发展的整体走势进行分析和预测,对网络群体性事件可以更好地做到事前控制,事后解决。

为了掌握网络舆情发展脉络,必须学会大数据思维。在信息和网络技术不发达、互联网尚未普及的时代,网民表达诉求和意愿的方式,仅仅局限于文本和图像层面,同时使用互联网的用户也不算庞大,所以分析网民的舆论走向以及跟帖态度,只需对网上的文本信息和少量的图像进行分析即可,也有时间对网民的跟帖态度做跟踪式调查。大数据时代不仅是一个信息量大、快速化的时代,也是一个数据类型多样化、价值高、密度低的信息时代,同时还是一个混杂性的信息时代,我们对网络群体性事件的治理策略也应该顺应时代的发展,在如此庞大、快速、混杂的数据时代,我们不可能对每一条信息的分析做到十分精确,在混杂海量的数据中,形成全局、动态的研究舆情数据的思维,掌握大体的网络舆情发展脉络,或许比关注和确定网民某时某分发布的什么帖子重要得多。

大数据时代为治理网络群体性事件提供技术基础

大数据时代的根本要求在于思维模式的转变,大数据思维突破了传统分析数据的框架,带来了新的思考方式,同时也将给网络群体性事件的治理提供新思路、新机遇。

一切皆可量化。随着信息收集,储存和分析设备能力的不断提升,一切让数据来说话成为可能。在信息技术高速发展的时代,不仅网页的浏览次数、相关词条的点击量、微博中的跟帖数量、网民对于舆论的转载数量这些量化信息可以形成大数据,而且网民情绪的变化、思维的转变、评论、文化程度、区域位置、社会关系也可以量化,然后转换为可以统计分析的标准化数据,通过把所有可以收集到的关于网络舆情的定序定量信息转变为可供观察和分析的数据形式。当然,值得注意的是,量化舆情言论并不完全等于数字化舆情言论。然后,就可以通过相关的数据收集和信息技术,建立数据模型,预测舆情未来的发展动态。

一切皆可联。网民行为和情绪变化的数据都具有内在的联系,这可以用来预测网络性群体事件的萌芽及动态。大数据时代下的大数据思维其中最重要的一个方面就是由重视事物的因果联系转向重视事物的相关联系,不问为什么,只要知道是什么即可。大数据思维在网络性群体事件的治理中改变了以往的“有罪推论”网络舆情逻辑监测的思维方式,不再单纯去关注导致网络群体性事件爆发的因果关系,而是哪些相关因素可能会导致网络群体性事件的发生,以便提前做好应对策略,这样也为预测网络舆情的发展方向争取了时间和空间。注重相关性是大数据思维的重要特征,同时,网络舆情的相关关系也是治理网络群体性事件过程中,可被发掘和利用的重要知识,通过对网络事件参数间关系的分析,从而发现舆情中隐藏的相关性,为更好更准确地把握和控制网络舆情走向创造有利条件。

一切皆可用。大数据思维的一个方面表现为放弃精确性,接受混杂性。这种混杂可以指格式的不一致,也可以是数据的不精确。大数据时代下,各种媒体传播形式多种多样,信息技术日新月异,网民表达观点、诉求、意愿的方式也纷繁多样,例如文本、图像、视频、语音等,我们在对舆情走向进行监测时,要迎接大数据的混杂,同时在这种混杂中,全方位捕捉与网络舆情相关的一切舆论形式。大数据具有快速、价值大、密度低的特点,大数据时代信息在网络中流动的速度特别快,例如我们对新浪微博中一篇报道的某一评论进行跟踪监测,来掌握该网民的情绪波动和思维变化,力求监测结果的准确性。可是我们如果放弃对个案准确性的精益求精,而转向对该报道下所有评论的监测,或许我们收获的信息量会更多,在这过程中我们虽然放弃了对个案研究的精确性,却把握了对于该报道看法的整体趋势。

本栏目中的所有页面均系自动生成,自动分类排列,采用联索网络信息采集、网页信息提取、语义计算等智能搜索技术。内容源于公开的媒体报道,包括但不限于新闻网站、电子报刊、行业门户、客户网站等。使用本栏目前必读