或者是双性恋,或者是跨性别主义者,或者是恋童癖……总之,即便你不是他们的用户,你的性取向社交网络都知道。
我们已经知道使用社交网络时个人信息会被Google和Facebook等公司所收集。但是最新的学术研究告诉了我们,这些公司如何获得非网站用户的信息。
由于研究人员无法从Facebook或linkedIn上获取数据,所以他们选择了一个较老的社交网络Friendster并对上面的公开数据进行研究。他们发现Friendster用到了当时最先进的预测算法,算法会对非会员的敏感数据进行定义,这其中也包括他们的性取向。
研究作者之一瑞士苏黎世联邦理工学院的博士后研究员David Garcia说当时的Friendster可以预测非会员用户的性取向。
Garcia的研究显示对于同性恋等少数派,这种算法的准确率达到60%。他说这已经是非常高的准确率:“任何一种随机非统一分类法的准确率都小于5%。”
虽然研究只验证了性取向的可行性,不过Garcia认为该种分析方法同样适用于年龄、感情状态、职业甚至是政治偏好。
“基本上社交网络中用户分享的任何信息都可以被预测。”
随着Facebook的规模越来越大,用户数据库也随之增大,人们对广告的担心也越来越多。上周,一个名为Ello的社交网络的新会员扩张速度达到了每小时5万,这个仅有2个月历史的新型社交网络之所以如此受欢迎,除了没有广告以外,还因为这里是属于LGBT们的乐土,他们再也不用像在Facebook上一样必须用真名。
但是即便逃离了Facebook,他们的隐私依然会被泄露。
影子个人档案
Garcia认为问题出在“影子个人档案”上,由于有这个东西存在,不管我们是否同意,Facebooks、Googles 和 linkedIns私下里都在为我们每个人建立档案。
Garcia说这种通过机器研究用户喜好和与联系人之间的关系,并根据这些信息猜测使用者身份,即便某人没有使用过社交网络,通过这种技术同样可以构建出详细的个人档案。
Garcia认为Facebook也对数据进行了同样的预测算法——由于Facebook的用户比Friendster多得多,他们构建的个人档案也许更准确。
这种算法是这样工作的:比如说,Facebook发现某两个用户和另一个人有关联,但这个人不是Facebook会员,比如说wc@jandan.net,Facebook会将和他有关其它信息——比如不同的电话号码归入某个主档案。
Facebook某发言人说“公司没有为未注册用户建立隐藏的影子账户或影子档案。”而且爱尔兰数据保护委员会的审计结果也证实了这点。不过用户导入联系人时,Facebook的确会储存非网站用户的信息,这点是千真万确的。
是个大问题
Packetstorm去年在一篇博客文章中表示自己的电子邮件地址和手机号会被其他人无意间上传到Facebook上,这个事实其实很吓人。博客主Packetstorm Partner Todd Jarvis说他认为Facebook依然在收集这些数据,他说只要这些数据依然存在,就是对自己的不利因素。
Garcia同样认为Facebook等公司的这些行为可能带来严重问题,因为非会员个人档案的存在可以用来推测已注册会员的私人信息,甚至用来构建非会员的个人档案。也许Facebook今天确实没有影子档案,但已经有了这个能力,而且不止是Facebook其它社交网络也一样可以。从技术上说做出这种东西是可能的,而且一旦这东西存在,我们还不知道有什么有效的方法能阻止它。
这是一个复杂的技术问题,而且关乎道德,只有立法才能保护网络外人们的数据安全。
Garcia 说:“Facebook只是说不会建立这类档案是不够的。”
[