您当前的位置:香港马报资料四不像 > 白小姐玄机图92期马报 >
白小姐玄机图92期马报
你以为社交媒体帖子=大数据集?切实它可能不如
时间: 2019-03-01

Facebook与Social Science One建立配合错误关系,向其开放PB级别的用户数据,搭建业界与学界的桥梁

人们对社交平台的崇拜之情主要基于一个信念——它们的服务器占领一个难以设想的大型全球人类举动档案。但是,与从前作为数据来源的传统媒体比较,社交媒体领有的这个档案真的大得多吗?

01.社交媒体“大”数据,不假想中那么大

由于为全球范围内的对话供应了广泛的可能性,社交媒体当初成为“大数据”的代言人。平台巨大的范畴、超快的更新速度跟多样的内容被视为大数据时期教科书级的典型。

在互联网数据领域深耕超过20年的互联网企业家及学者Kalev Leetaru以Twitter为例撰文指出,社交媒体的数据价值可能被人们高估了,而新闻媒体则被低估。本期全媒派跟随KalevLeetaru的视角,以严格的数据打算为支撑,破解大数据时代的数据价值迷思。

由Kalev Leetaru创建的GDELT是有史以来最大,最全面,最明白的对人类社会的开放数据库,每日监控世界各地的新闻媒体更新。

但在专业人士的剖析中指出,该数据集只管是PB级别,但其在公布时预计仅包含300亿行,大略是每周从3亿帖子中生成200万个数据的增添速度。

这些数字始终在变革,概念也在始终演变,但唯一的目的都是反映全体社交媒体生态最美好的一面。

对良多研究人员来说,300亿行听起来像是他们终生都分析不完的海量数据。然而,按照古代标准,300亿条记录是一个相当小的数据集,而PB级数据在大数据时代早已怪罪不怪。

然而,当人们对社交媒体的数据价值分内重视,或者也该反向思考——社交媒体上的数据真的比消息媒体这样的传统数据更多,更有价值吗?

就最近的事件来看,Facebook在去年开放了一个大型数据集,为学者研讨供给材料,其中包括“1PB(千万亿字节)的数据,储存着寰球Facebook用户点击过的几乎所有公开链接、点击发生在何时、以及点击的用户是什么类型的”。

作为对比,Kalev Leetaru提出,自己的开放数据名目GDELT已经编制了一个数据库,该数据库自2018年3月以来已经从寰球新闻媒体主页中收集超过850亿个外链。换句话说,它只用了一半的时间,却是Facebook数据集的2.8倍。

Kalev Leetaru:乔治华盛顿大学(George WashingtonUniversity)网络与国土保险中心高级研究员,曾任谷歌云平台开发专家

在今天,人们把社交平台看作大数据的缩影。然而值得留心的是,这些平台对外部的透明度不高,象征着它们的印象构建实际上都是基于这些公司本人向民众暴露的数据跟发现的美妙概念,比喻“活跃用户”。


友情链接:
Copyright 2018-2021 香港马报资料四不像 版权所有,未经授权,禁止转载。