原载微信公众号 金融科技·微洞察 (ID:weinsights)作者:魏思远
前不久,Google推出的一项旨在保护用户隐私的颠覆性新技术FLoC被骂上了热搜。其中,微软、苹果、GitHub、WordPress等著名科技企业均表示抵制该技术。上周(6月22日),欧盟也宣布对谷歌的广告技术正式展开反垄断调查,评估谷歌阻止第三方访问其用户数据是否违反欧盟的反垄断法规。
FLoC全称是Federated Learning of Cohorts(群组联邦学习),该技术方案摒弃了过去追踪个人网页浏览记录的做法,而是将用户分成不同的群组(Cohort),进而对群组的行为进行追踪,以此保护个人的浏览记录隐私不被泄露。
FLoC乍一看上去是个不错的隐私保护解决方案,为什么反而导致Google成为全行业公敌呢?隐私保护和隐私侵犯的边界又该如何界定?本文将全面解析FLoC的诞生原因、技术原理、应用思路和风险隐患,希望能给关注隐私计算行业的伙伴们带来一些启发。
新蓝海:隐私保护产业扬帆待发
世界已进入了数据爆炸的“大数据时代”。当下,没有数据,商业活动几乎可以说是寸步难行。在金融领域,银行保险机构借助内外部数据进行联合建模,实现数字营销、精准获客、差异化定价、智慧风控、智能反欺诈等。在医疗、政务、能源、交通、环保、工业和电信等领域,数据也已经成为规划和落地应用中必不可少的部分。
蕴藏着巨大价值的数据能够以极低的成本复制和无限使用,这种“野蛮掘金”的诱惑导致了各种各样数据泄露、盗用、滥用等问题,扰乱了正常的商业秩序和人民生活,引发了社会各界对于数据安全和隐私保护的担忧。为此,近年来,欧盟GDPR、美国加利福尼亚州CCPA、我国的《数据安全法》《个人信息保护法》(草案)、《征信业务管理办法(征求意见稿)》等代表性法律法规出台,严格要求在数据使用过程中做好隐私保护,例如不允许数据离开本地、不允许未经授权使用个人数据等等。对于数据安全和隐私保护的担忧及相关法律法规的出台,在一定程度上给多方数据的融合应用设置了或硬或软的障碍,迫切要求数据应用者找到可靠的方法,合法合规地实现数据的共享流通。
不断趋严的监管趋势也助推了一个新的技术体系——隐私计算的产生。通过提供差分隐私、同态加密、多方安全计算、零知识证明、可信执行环境、联邦学习等加密/解密服务,该技术意在应对数据产业的安全及隐私保护方面的挑战。据预测,隐私计算产业的国内市场规模有望在五年内触达百亿人民币。
然而,上述现存的技术无一例外在计算过程中触及了原始数据,在某种程度上仍存在被破解而导致隐私泄露的风险。那么,是否存在新的隐私保护理念,可以另辟蹊径,更有效地实现隐私保护呢?Google团队于2020年1月提出了一种全新的解决思路,这就是本文主要介绍的Google Privacy Sandbox产品与FLoC 技术。
缘起:后第三方Cookies时代广告行业的挑战
第三方Cookies(Third-Party Cookies)技术是互联网广告所依赖的主要技术,通过这一技术可以实现精准的广告推荐,从而保证投放广告的转化效果。
第三方Cookies技术的核心在于,它们为每一个用户生成唯一的用户ID,保存到cookie中,通过唯一ID将用户在广告浏览、点击等行为数据与用户的下单数据进行合并分析,计算广告的转化率,从而建立了浏览/输入等行为与商品购买行为之间的联系。下面举一个简单的例子,来说明第三方Cookies的工作原理:
news.com是新闻站点,具有很高的流量;
shoe.com是卖鞋的购物网站,需要通过投放广告获取用户;
ad.com是广告服务商,shoes.com可以通过ad.com在news.com投放广告;
用户在news.com站点看新闻,会加载ad.com的广告JS脚本(用于展现广告、记录广告浏览和点击数据),点击广告就可以跳转到了shoe.com站点;
用户访问shoe.com的时候,也会加载ad.com的JS脚本(用于记录下单数据);
ad.com的JS脚本可以为每一个用户生成唯一的用户ID,保存到cookie中,并发送到ad.com的服务器,通过唯一ID将用户在news.com的广告浏览、点击数据与用户在shoe.com下单数据合并分析,计算广告的转化率。
图1:第三方Cookies运行的一般流程 (图片来源:三易生活)
总而言之,用户在网页上的每一个点击或者输入等行为,都有可能在用户不知情的情况下触发第三方cookies,从而导致了个人数据及隐私的泄露。
随着用户对于个人数据的保护意识不断增强以及监管对于个人数据保护的要求日益趋严,数据使用从蛮荒时代进入文明时代,各大浏览器开始逐渐禁止第三方Cookie的植入。虽然这种做法保护了用户的个人数据和隐私,但是如果浏览器或者网站摒弃了使用第三方cookies这一成熟的技术,将直接影响广告的转化效果,进而损害自身的商业利益。之前很多厂家尝试过其他替代解决方案,但是均没有取得接近第三方Cookie技术的效果,因此并没有获得广泛的使用。
因此,Google 另辟蹊径,提出一个能够在保护隐私的前提下,帮助广告商找到目标用户的商业解决方案,即Privacy Sandbox产品以及FloC技术。Google 已经对该产品进行开发和生产测试,并对该产品给予了极高的评价,他们认为这是解决隐私问题和广告商业效果的最优路径(“we are more confident than ever that the Privacy Sandbox is the best path forward to improve privacy for web users while ensuring publishers can earn what they need to fund great content and advertisers can reach the right people for their products.”)。下文将对该产品和技术进行阐述和介绍。
藏人于群:FLoC技术的核心理念
Privacy Sandbox是Google在互联网广告领域的一个解决方案工具包,包括FLoC、FLEDGE等工具和组件,可以提供基于兴趣的推荐(Interest-based Advertising)、客户发现、业绩追踪、防止广告欺诈、防浏览泄露等商用广告功能。本文只讨论FLoC算法和基于兴趣的推荐功能。
FLoC算法的核心理念,是“将个人隐藏在群组中”(hide individuals in the crowd),即将具有相同特征的用户划分到大小适中的群组,通过对各个群组的准确追踪和衡量,来取代对具体个人的追踪,从而保障个人隐私安全,并实现广告的精准推荐。下面用一个简单的例子介绍一下FLoC的进行广告推荐的全流程:
假设有两个用户为 Dave和 Gil,且经FLoC 服务分组后,他们的浏览器都属于同类群组1234;
Dave访问shoe.com,网站请求 Dave 的浏览器提供其同类群组1234; Dave 在看足球鞋,网站记录下来自同类群组 1234 的浏览器对足球鞋表现出兴趣;
Gil 访问新闻网站 news.com,网站请求 Gil 的浏览器提供其同类群组,得知1234群组;
news.com网站向其广告技术平台 ad.com请求广告;ad.com 结合来自广告发布商 news.com 和广告客户 shoe.com 的数据进行预测,选择适合 Gil 同类群组1234的足球鞋广告;
news.com 显示足球鞋广告。
图2: 使用FLoC进行广告推荐的全流程
兼顾隐私保护与实用性:FLoC技术方案详析
FLoC方案的重点和价值在于如何进行分群。分群的质量将直接影响后续的广告推荐的效果。好的分群应满足以下两个方面的要求:一方面应保证个人隐私,即群内成员数量不能太少,否则不能实现“hide individuals in the crowd”;另一方面,应保证分群的实用性,即所分的群具有足够的代表性(群成员之间非常相似)和区分度(群和群之间区别明显),具有明显的统计表现(有较高的召回率和准确率),从而让广告推荐起到应有的效果。
图3:准确率(Precision)和召回率(Recall)的定义 (图片来源:维基百科)
为了达到上述好的统计和业务表现,Google做了以下三种算法设计:SimHash、SortingLSH、Affinity hierarchical clustering with centroids,下面分别简要解释一下每种算法的基本原理。
算法1:SimHash
该算法将每个特征集合形成一个矢量集,用矢量集合去乘以random unit-norm vector, 进行投射,形成N维的不同投射值H(x), 具有相同投射值的H(x)可以作为一组。
举个例子,假设有一群用户,有两个特征,选择其中一个用户将他的这两个特征量化,得到一组特征值为(0.3, 0.8),对这个特征进行三点投射,就可以得到这个特征的一个Hash (1,-1,1)。同理,我们可以对其他用户进行同样的处理,这样也会得到其他的3-bits Hash。接着将具有相同Hash的所有用户放在一组,这样就形成一个群组(Cohort)。
图4:SimHash的算法原理
需要注意的是,投射的比特数(bits)越多,Hash的颗粒度就越小,分类就越详细,相应地,形成的群组内的成员数就越来越小。因此,Cohort Hash的比特数就显得特别重要了,bits 太高,分类太细,达不到隐私保护的要求;bits 少,分类太粗,无法形成明显的区分。
优势:
分组时不用依赖其他外部信息,就可以直接在本地进行分组;
保证了分组的有效性,即每个组内成员在选取的特征上非常相似,但是与其他组有明显区别。
劣势:
无法提前确定每个组的组员数量,可能出现一个群特别大,一个群特别小的情况,需要不断进行调试;
当特征或比特数很多时候,可能会出现其中一组成员数量太少的情况,不能起到保护隐私的效果。
图5:SimHash可能导致的分组不均和分组过小的情况
算法2:SortingLSH
为了解决刚才算法导致群组分割不均,以及有的群组太小不能保护隐私的问题,Google 还提出了另一种分群的算法SortingLSH,该算法的流程如下:
1. 先用SimHash算所有的H(x);
2. 对所有的H(x)进行汇总按照某种规则进行排序;
3. 按照一定的数量规则进行分组,再去赋予每一组一个Cohort ID。
图6:SortingLSH的算法示意图
优势:
解决了之前的组群过大过小,以及有的群太小不能保护隐私的问题。
劣势:
为了兼顾群成员数量,可能会导致群的实用性表现下降;
使用这种方法,需要将所有的H(x)进行汇总,这就需要将一些信息汇总到一个中央服务器的中心化解决方案。
算法3:Affinity hierarchical clustering with centroids
这种算法不同于前两种算法在本地先进行分群的处理方式,需要一个中央服务器通过联邦学习(Federated Learning, 以下简称FL)的方法进行图构建,让相同特征的人连在一起,然后进行整理组合,这样就形成了一个个组群,再赋予每个群一个Cohort ID。
优势:
分组效果更精确,过程更加可控;
实验数据证明,此方法是实用性表现最优的方法。
图7:三种算法的实用性表现
劣势:
需要通过用户的原始浏览进行计算,尽管经过了FL方法处理。
毁誉参半:来自产业和社会的反馈与评价
FLoC技术方案最早于2020年1月份提出,于2021年3月开始公开测试,并预计将于2021年2季度开始正式投产。测试数据表明,基于FLoC技术广告推荐非常有效。在统计指标方面,基于FLoC分组的效果要远远好于随机分组的效果,召回率和准确率分别提升350%和70%。业务表现方面,已经几乎达到和传统基于第三方Cookies的广告推荐的同等效果,conversions/dollar达到传统第三方Cookies广告推荐方案的95%。
图8:FLoC分群(8-bits)后形成的标签词云
然而,市场上对于该方案却鲜有掌声和鲜花,取而代之的是刺耳的质疑和抵制声音。
首先,该方案受到除了Chrome之外主流浏览器厂家的普遍反对,其中包括Edge、Firefox、Opera等,另外,GitHub、WordPress、电子前沿基金会(EFF)等知名机构和网站,也纷纷发表声明,抵制FLoC功能。
图9:GitHub公开抵制FLoC功能 (图片来源:Twitter)
关于抵制的原因,市面上有如下两种主要观点:一方面是来自同业竞争对手的担忧,毕竟他们并没有Chrome那样的用户体量,无法通过类似FLoC的技术,创造出足以覆盖大部分用户的群组,来保证广告推荐的覆盖度;FLoC一旦变成事实标准,厂家和广告商可能都会跑去找Google做广告,这将极大影响其他厂商的商业利益。
另一方面,FLoC的落地,意味着在后第三方Cookies时代的互联网广告界,Google可能凭借该技术,变得无所不在,带来潜在的隐私风险。在过去,一个小型广告提供商只能在他们投放广告的几个网站追踪到个人,而不能获得个人浏览行为的全景。但是在以后,个人浏览、点击的每个接受FLoC的网站数据,都会被用于计算群组的行为,哪怕这些页面根本不包含广告。如果更进一步从社会学的角度来看,Google即使实现了个人隐私的保护,但仍有可能陷入到侵犯“群体隐私”的范畴。美国学者布鲁斯汀(Bloustein)此前就对群体隐私问题进行了专门的研究:
在2003年出版的《个体隐私与群体隐私》一书中,他将群体隐私界定为“人们在其与他人的结合中所寻求的一种隐私形式”。他认为群体隐私是在一个群体中相互结合的个体的属性,而不是群体本身的属性;群体隐私是个体隐私的延伸;群体隐私所保护的利益,是人们为了交换信息、分享情感、制定计划及采取一致行动以实现其目标而走到一起的需要和愿望。并且,由于群体歧视的过程不可见、难解释、机理难被监管者知晓,群体隐私的受损群体将难以举证,因此,相较于个人隐私的损害,群体隐私的损害往往更加隐蔽、长期。
图10:截止2021年5月Chrome占据六成以上浏览器市场份额 (图片来源:statcounter)
如此铺天盖地的质疑与反对,可能是Google所始料未及的。毕竟Google开发FLoC技术的初心是保护个人隐私,此外,FLoC的理念与技术也远远领先于其他竞争对手。面对这种局面,笔者建议,Google可以以更加开放和透明的态度去应对,可考虑通过开源、开放使用接口、允许第三方技术机构参与开发和运营等方式,实现多方合作与共赢,从而打消质疑和反对,促进FLoC技术的落地和进一步优化。
参考文献:
徐磊、魏思远等.《深潜数据蓝海——隐私计算行业研究报告》
Google Research & Ads Team. Evaluation of Cohort Algorithms for the FLoC API
Chetna Bindra. https://blog.google/products/ads-commerce/2021-01-privacy-sandbox/
责任编辑:王超
免责声明:
中国电子银行网发布的专栏、投稿以及征文相关文章,其文字、图片、视频均来源于作者投稿或转载自相关作品方;如涉及未经许可使用作品的问题,请您优先联系我们(联系邮箱:cebnet@cfca.com.cn,电话:400-880-9888),我们会第一时间核实,谢谢配合。