前两天许多人在转发关于剑桥剖析通过心理侧写以及游戏法获取facebook用户信息并针对性投放广告来影响补选的新闻。这件事情本已是老黄历,只是近来被BBC又重新翻了老底。类似的新闻总能挑起许多人的神经,但事实上大数据时代的一切要比许多人想像地更糟,比如人们的信息要比绝大部分想像地泄漏得愈发彻底;不过从另一个方面来说,许多事情却也没有你们想像地那么糟糕——没有人会真正关注你,而饱含泡沫的大数据宣传也没有那么多人想像地有用或则妖魔化。
剑桥剖析公司所使用的方式来自于2012年的一篇题为 Private traits and attributes are predictable from digital records of human behavior的论文。该论文的数据包括了大概五万八千名facebook用户的信息,这些用户同意将自己的点赞信息、个人资料给与研究人员,并完成了一份问卷。研究者通过这种数据训练了一个模型:通过点赞信息来预测用户的个人特点。下面三张图片表示的分别是分类和回归中的预测表现,以及部份预测指标(所有指标见此链接)。
二分类变量的预测准确率(以AUC表示)。
连续型变量的预测准确率(以预测值和实际值之间的皮尔森相关系数表示)。透明部份为问卷的baseline准确率。
部分预测指标。
实际上不仅部份个人特点外,大部分个人特点的预测准确率远没有许多人想像的这么高。比如二分类变量的预测正确率超过百分之五十不能说明哪些,因为随机选择也会有百分之五十的正确率。而且还有一点特别重要的是,这些指标只能评判准确率(accuracy),但真正有用的虽然是须要通过贝叶斯估算下来的每种分类的precision。高accuracy不能确保precision也同样高,尤其是当公司的重点目标群体是人口比重较小的群体时。更何况在准确率或则precision之外,广告或信息投放的作用又是另外一件事。
一个不容忽略的事实是,咨询公司经常夸大自身和技术的作用,无论是在商业领域还是其它。数据很容易通过操纵和展示的形式来呈现出美好的结果而回避掉真实的问题,比如咨询公司可以向顾客展示accuracy而不是precision。但对于决策而言,这三者之间存在着本质的差别。当然,商业公司也把握着不需要预测的大量资料(比如年纪、性别等),他们做targeting时其实会比通过预测相对愈发有效一些,但也只是相对愈发有效。
2012年虽然还有另一篇论文研究了信息投放对政治动员的影响:A 61-million-person experiment in social influence and political mobilization。该研究将六千一百万facebook用户分成了三组,第一组不接收任何信息,第二组接收informational message(中立的信息),第三组接收social message(鼓励投票的各类信息)。其中第一组和第二组分别为六十多万人,其余六千多万都是第三组,这么分是因为facebook想要鼓励投票,所以不容许第一组和第二组占比过大。最后的结果所暗示的内容虽然比结果本身愈发有趣:
如上图所示,许多人声称自己投了票,但在这种人中,实际只有很小一部分真的投了票。在代表真实效应的那些一小部份人的对比中,没有收到信息的人和收到informational message的人没哪些区别,而收到social message的人同其他两组其实具有统计学意义上的明显差别,但实际差别却只有0.39%(95%置信区间约为0.05% - 0.73%)。即便文章说可能会有一些潜在的影响难以被观测到,但即使算上这种愈发间接的影响,即便social message再煽动性,具有倾向性一些,再具有针对性一点,又能把影响扩大多少呢?毕竟当social message以这些方式出现的时侯,它和这个纯粹鼓励投票的实验又特别不同,因为我们还须要去除剑桥剖析所把握的五千万用户中民主党或共和党的铁杆粉,能够区分信息的人,要去除错误的targeting,这些影响还要放在整个大选人口中被稀释、还要考虑大选期间facebook上也投放或传播了许多关于川普的负面消息。在考虑到诸种诱因的影响下,剑桥剖析公司能通过五千万用户数据(不到日本总人口的三分之一),最终能对整个大选形成偏向共和党的百分之零点一二的净影响都要谢天谢地了。但比较一下希拉里和川普在各个州的票数,唯一能对结果真正形成巨大影响的新泽西和佛罗里达州,都超过了1.3%和1.4%,也就是说把种种诱因的刨去,剑桥剖析公司要才能形成0.7%以上的影响能够改变补选政局。如果说这种方式能对补选形成些许影响,我其实信,但说能否左右补选,反正我是不信。
除此之外,还有一点特别重要的是,facebook为何坚持再这个实验中,第一组和第二组实验群体比重必须特别之小?因为facebook本身也希望自己才能影响更多人去投票。那么facebook公司本身会由于自身政治/商业倾向选择何种人投放广告吗?答案十分清楚,只是你们在抗议剑桥剖析公司而对facebook本身视而不见罢了。
还有一点值得注意的是,剑桥剖析公司所使用的游戏法(在facebook上)在2010年就有研究使用:Real and Perceived Attitude Agreement in Social Networks。
剑桥剖析公司虽然是大数据时代的一个注脚,更多的类似咨询公司以及许多小型商业公司都在做相像的事情。我自己接触到过的大数据以及众多论文让我相信,只要一个人在使用网路,那么这种数据全部都在被收集,被借助。无分国别,无分领域。即便你只是使用一下共享自行车,只要你打开软件,你的GPS数据就在被记录。在更多的商业领域,比如网上购物,相关帐号信息会被串联在一起(比如通过google帐号以及信用卡号码串联信息),最终生成上百个甚至更多的变量特点,这些变量特点会被拿来建模。即便是所谓的例如促销,targeting等等活动,都可能是店家的一次次实验,最终数据会被拿来估算individual-level heterogeneous treatment effect。一系列数据会被一系列模型拿来预测私人特点、喜好,也会步入到推荐系统上面被领取不同的广告、信息等等、以及差异定价。这种模式在商业领域已经被运用地十分高超,进入到其他领域也是早晚的事情。
不过,正如前面所说,预测准确率是一件事情(对于个别个人特点的预测的确可以达到极高的准确率)。在预测的基础上作出一些决策是一件事情。决策会形成多大的影响还是一件事。虽然不要期望自己还有什么隐私,但也不需要这么夸大隐私问题才能带来的影响。一则对于大部分人来说,根本没人关心这群人的隐私细节,大部分人都是只有聚合在一起才能弄成有人关心的数字而已;二则现在的算法模型还有这诸种缺陷,远没有许多人想的这么神秘(要怪就怪CS系的人实在是太会用牛逼哄哄的算法名子做宣传,好好学习下也就这么回事);三则要把数据和算法转变成着力的影响哪有这么容易;四则假如有人要挖个人隐私来对个人形成影响,那么根本没有会过于依赖诸种算法,针对个人而言,人工调查可比算法靠谱。
至于和针对性投放伴随而至的还包括现在信息的开放性。即便有着种种限制,回想一下过去连信息都无法获取的年代,如今的好多正面负面影响也在互相平息。即便负面影响小于了正面影响,能做的大约也只是增强自己的知识水平,不要听风就是雨:比如不好好学习算法模型,看到alpha go/zero和相关宣传就随大流幻想有三天AI统治人类,或者随大流认为剑桥剖析公司才能左右得了补选。比如时常讽刺一下码农没有人文关怀也可以,但也不要被人嘲笑了哪些都还没看懂就朝着一个莫名其妙的方向人文关爱了上去(反正这类论文也是读的够够的了)。毕竟做着这种事情的人和这些被fake news煽动的人没有本质区别,只是被煽动的领域不同罢了。
最后的忠告不过就是:可以以最坏的恶意去揣摩各类公司,但也要以一种最对症下药的方式来评测它们会给你带来的影响。说到底也不过就是,好好学习下算法和应用,懂的其中的基本原理也没有那么难。我想这也是豆瓣上大部分人,以及大部分鼓吹人文关怀的“知识分子”最缺乏的知识。