大数据

    现在关于数据的讨论比比皆是,其中很大一部分涉及数据危险性和数据量。具有讽刺意味的是,我们在网上所关注和需要的一切都来自数据。数据之于场景时代就如同氧气一般——无处不在且必不可少。

    由于所累积的数量巨大,数据通常被称为“大数据”。想要将其具体量化就如同尝试去测量宇宙的大小或者计算全球最大的图片社交分享网站拼趣网的图片量一样徒劳无益。

    数据是衡量互联网的单位。2005年时任谷歌首席执行官的埃里克·施密特曾估算互联网的大小约为500万TB。以现在的眼光看,这一数字实在是小巫见大巫了。如今每天互联网的增量都相当于2005年全年总量的一半,同时这一增速还在以指数级的速度提升。

    IBM估计全球九成的数据是在最近两年内产生的。里克·斯莫兰和詹妮弗·欧威特在他们共同创作的精美画册《大数据之人类面面观》中这样写道:“如今,在一个新生儿诞生的那一天里,全世界所产生的数据量就相当于70个美国国会图书馆的数据量。”

    这意味着我们每天生活中所上传的数据比直到几年前人类历史上所产生的全部数据还要多。

    因此,现在对“大”数据的关注很多。有时给我们的印象就是海量的数据被堆积到可以触碰云层的高度,在这座虚拟山峰面前珠穆朗玛峰都相形见绌。

    但我们并不赞成把关注点放在这方面。人们在意的并不是数据总量到底有多大,而真正关心的是在搜索、闲聊、视听、购物和进行其他在线活动时所需要的那一小部分。海量数据会使人感到不安,但小规模的数据使我们变得更聪明,能够跟上并理解这一快速发展的世界。

    我们将其称为小数据的奇迹。

    仅需一次搜索,几秒钟后我们便可以在海量的Twitter中找到我们想要的三条信息。Instagram图片分享应用可以精确地显示你是在哪里和你的狗狗拍的那张可爱的照片,而不会将拍照地点和其他同类照片搞混。

    你并不需要成为一个技术专家去搞清楚我们为何拥有这种神奇的能力来准确地找到所需的信息,比如一首歌、一封邮件或者一条餐厅评论。每次搜索就如同是在煤矿中寻找钻石但没把自己弄得蓬头垢面。

    我们之所以能够做到这一点,是因为电脑已经有能力辨认数据流的模式并根据用户的需求提取数据。这一复杂的过程通常耗时不足两秒,大多数人也不完全明白它的工作原理。所以神奇之处就在于你可以坐享其成甚至认为这是理所当然的事情。你所需要知道的就是如何在手机上使用几个简单的应用程序。

    直到最近,唯有经济和实力都最为强大的机构才可以从数据库中有效地提取数据。首先,需要一名精通数据库软件程序的计算机专业人员将数据录入电脑可以解读的结构之中,并且知晓如何检索。这样做不仅难度大,而且对于那些不得不使用结构化数据库的人来说,这一系统在搜寻相关结果时显得烦琐而缓慢。

    大多数人在面对数据时都感到非常棘手。我们倾向于用缩写来指代那些晦涩难懂的电脑语言,比如结构化查询语言(SQL)或DB2资料库。我们已经建立了一个杂乱的互联网,其中充斥着各种不符合数据库语言结构的文本、网站和帖子,因此它无法存在于结构化数据库中。

    当数据每天以相当于70个美国国会图书馆容量的速度开始增长时,程序员的结构化和录入速度已无法满足这一增速需求。因此,包括谷歌在内的下一代公司开始构建由庞大的数据中心所组成的网络,该网络有数以百万计的电脑在处理所有数据。

    存储这些数据只是一个小小的挑战。而另一个更大的挑战在于解决人们如何从非结构化的堆积如山的海量数据中寻找所需要的那一点数据。

    在这一方面,谷歌又走在了前面。到2012年为止,作为谷歌数据搜索引擎的精髓,网页排名通过复杂的数理方程或演算法来掌握不同网站间的关系,然后根据搜索结果的相关性将网页进行排序。

    在谷歌问世之前,网上搜索就如同大海捞针。我们不得不一页又一页地仔细查看网页以获得我们所需的那个答案。而网页排名知晓有关搜索的基础内容。比如,当你搜索“park in San Francisco”这一关键词时,它可以根据你的查询模式来判断你想查找的是公园而不是停车场。

    谷歌从本质上颠覆了数据方程。现在,人类无须学习机器语言,因为谷歌已经开始让机器来识别人类的语言。这样一来,一切都变得大不相同了。

    当Facebook迅速发展成为世界最大的网站时,它在搜索方面产生了一系列的飞跃。首先,它提出了社交图谱用以检索人际关系而不是数据关系。它通过检索图形表示法而不是文本串来推测有关数据。

    其次,Facebook建立了图标应用程序界面,允许第三方开发者通过诸如“读”“听”“赞”“评论”等常用动词与Facebook平台相链接并分享数据。

    值得注意的是,Facebook最近引入了图谱搜索,这有可能发展成为首个可以挑战谷歌搜索引擎支配地位的技术。不同于使用关键字如“波士顿+龙虾餐厅”来搜索网页,图谱搜索允许用户使用人类语言进行提问,例如“位于附近我朋友们最喜欢的餐厅”。和在网上搜寻网页数据不同,图谱搜索是通过你和朋友们对话的相关内容进行搜索。

    图谱搜索可以提供更为快速、简便、与场景相关的搜索结果,这是因为Facebook的技术能够尽可能地搜索到你希望找到的内容。谷歌利用链接来判断相关性,Facebook则利用你的朋友们以及对你社会行为的理解进行搜索。

    在走向场景时代的过程中,这一重大改变将会起到重要作用。Facebook并不是孤军奋战。在对数据的研究中,我们发现数十家开放源码的新公司都在运用新方法来提取非结构化数据。这些公司的创始人似乎更专心于授权给大众,而非帮助那些大公司积攒客户或推送广告。在Facebook的范畴之外,很多公司都利用图片而不是表格来获得更好的结果。

    位于加州圣马特奥市的尼奥科技就是这样一家公司。创始人埃米尔·埃弗雷姆用一句格言“一张图片胜过千言万语”解释了图谱搜索对比文本搜索的价值。

    数据库技术的发展并不局限于图谱搜索。一家名为AI-ONE的公司在“生物启发智能代理”方面取得进展,通过搜寻理念而不仅仅是关键词来显示结果。简而言之,该公司的技术可以模仿人类大脑的工作方式。从本质上讲,人类可以识别高度复杂的模式。我们能够察觉文本、时间和可视数据的基本特征和意义,这些都是场景的重要组成部分。

    模式识别始于几年前,目前配有该技术的数据库检索工具已经初步能够像人类一样思考了。尽管该技术还无法与人类相比,但是其速度和效率已经达到了较高的程度。

    然而,这些不断发展的性能也有其阴暗面。我们应该注意到那些伴随着显著变化而来的意外后果。潜在的数据滥用和隐私暴露就是令人担忧的两大问题。伊莱·帕里泽在他2011年出版的《筛检程式泡沫》一书中对隐私暴露这一问题进行了激昂而又诚恳的论证。

    帕里泽对几乎所有网站都收集、分享并出售用户信息这一事实持悲观态度。他谈到大型组织用数据将人们模式化,并自认为他们知道什么是我们所喜闻乐见的,先把我们的注意力吸引到他们的网页,之后再让我们点击那些以我们为目标客户的广告。

    帕里泽的这本书给人的印象就是,通过数据大型组织正在以奥威尔(受严格统治而失去人性的社会)的方式监视着我们。该书引起了人们对身份盗窃和隐私暴露方面的关注,同时担心大型组织将会控制我们所看到的内容。很多原本就对此感到不安的人在读过此书后更是被吓得魂飞魄散。

    帕里泽如同公诉人一样对大数据提出了充分的反对意见。事实上,他的见解不无道理,人们在决定场景时代该做什么和不该做什么的时候应该考虑帕里泽的观点。

    但在我们看来,面对这一多元且高度细化的问题时,帕里泽仅表达了片面的观点。该书忽视了由大数据所带来的能够改善世界的变化。

    正如尼奥科技的埃弗雷姆所说:“从根本上讲,类似尼奥的公司生产的是锤子。你用它既可以建造东西也可以砸碎东西。不错,的确存在数据滥用,我们必须对它保持警惕。但是,允许人们寻找并认识他们所需的最佳解决方案就存在于新的数据库中。通过个性化的搜索结果,大数据使每个人都可以很简单地找到更加令人满意的结果。”

    我们赞同埃弗雷姆的观点。如果帕里泽是公诉人,那么或许你可以将我们看作大数据的辩护团队。那些通过窃取、买卖或者其他途径获取数据的滥用者有时会做出一些令人发指的事情。但从百分比来看,大部分数据是对你有益的,而且大部分公司会规范地使用数据从而更好地服务于客户。

    毫无疑问,如今这种状况是木已成舟。正如帕里泽所指出的,几乎所有的网站都在收集信息。只要你使用互联网,那么你的相关数据就会被收集。有些人因此拒绝使用互联网。但如果这样做,就等于选择脱离现代生活。

    或许你可以对参与度进行限定。很多人使用Facebook只是与认识的人联系,或找到那些多年失去联系的朋友,或与几个熟人分享评论。谢尔·伊斯雷尔的妻子保拉就是这样的人。她对自己有限度地使用网络平台感到很满意。不管是否意识到了即将到来的场景时代,她足够重视自己的隐私以避开社交媒体的许多其他功能。

    与保拉相反,罗伯特·斯考伯几乎整日挂在Facebook上。他几乎把生活中的一切都晒到网上。他是如此透明,有时会让伊斯雷尔感到不安。但在Facebook上的一切已经使斯考伯成为全世界最著名的技术创新者之一,同时对他的职业生涯产生了良性效果。

    斯考伯在社交网络上的粉丝已超过100万人。有些人为他在Rackspace的视频工作提供消息来源。斯考伯因此受到了来自全世界的活动邀请。斯考伯认为他在Facebook和其他在线网站上表达得越多,他的在线体验价值就越大。

    如果说保拉和斯考伯是两个极端的话,那么包括谢尔·伊斯雷尔在内的大多数人处在这两者之间。在公司开始获得并分享你的数据前,你有权选择加入,或者像保拉那样选择退出。当你这样做时,网站对你将知之甚少,同时你也要意识到从这些网站上所获取的也会变少。随着时间的推移,你很有可能会被甩在后面。