关于移动群智感知中的隐私保护的一些理解
众包的概念
某项任务交由个人或者集体难以完成或者成本过高,于是众包给大量未经过专业培训的普通人,以此来显著降低开销的一种方式。这一点与外包正好相反,后者是将任务交给某个专业的团队去完成。
移动众包(Mobile Crowdsourcing/MCS)的应用
比如天气信息,空气质量,电磁辐射,交通流量等。通过在使用者的移动设备上装置传感器,来达到实时监测使用者位置的数据的方式。近年来智能手机快速发展,提供了合适的装置,而5G和WIFI的出现也使得大规模移动数据传输成为可能。
比如在百度地图中显示某段道路的客流量大小。传统做法是通过在路口设立摄像头等监控装置来监测客流量,但是这么做成本极高且需要长期保养,投入价值不菲。因而我们选择将这项服务交给移动众包来完成,即在每辆车的引擎上配置传感器,将车辆位置、速度等数据发送给MCS服务器,然后再根据算法计算客流量。
移动众包带来的隐私泄露隐患与隐私算法
由于基于地点的移动众包需要参与者的位置信息,人们不得不向服务器公开自己的具体位置,这导致了一些人认为这是在泄露他们的隐私。所以,基于地点的隐私保护算法,旨在对用户的地点信息进行加密保护,同时让服务器正常工作,以吸引更多用户参加MCS,从而逐步取缔传统的方法,极大的降低开销。
隐私算法的本质是在让攻击者和服务器本身无法做到特定的调出某个用户的数据,同时让服务器正常应用数据组。但是应用隐私算法有几个难点:
①算力开销。由于采用了加密算法去加密真实的地理位置,将会产生额外的算力开销。
②数据可靠度降低。由于对数据采用了模糊的方式处理,会使得数据实用性降低。
移动众包隐私算法的几个数据模型/MCS
隐匿模型/Anonymization
把用户的真实信息隐匿,或者设置一个分类组合并几个用户的数据集,让单独区分某个数据的过程变得极为困难。例如现在较流行的k-anonymization算法。
差分模型/Differential privacy
引入噪声,即加入干扰机制,使得攻击者无法获得拥有高可信度的数据。
基于地址服务的几个保护位置信息的隐私算法/Location-based service/LBS
隐匿技术
假如一片地区内有多个用户,数量大于等于k,即可应用k-anonymization算法,计算出一个遮罩地区,代替用户的精确位置返回给服务器。
傻瓜技术(?)
在一个用户的周围随机的生成几个虚假的位置点返回给服务器,这样服务器就认不出哪一个是用户真实的具体位置。
混淆技术
基于一种权衡摄动大小和数据实用度的技术,在尽可能保持服务器正常工作的前提下对真实位置进行模糊,让攻击者无法获得高可信度的数据。
加密技术
直接对用户的位置信息进行加密,这样对于未授权的LBS服务器就无法获得用户的具体信息,从而保护用户隐私,但是会产生较大的算力开销。
移动众包中的地址隐私保护
移动众包中主要有三个组成部分:指令员,MCS服务提供者,工作者。
- 服务提供者提供平台,他们负责接收指令员下发的工作指令,并把任务下发给合适的工作者,再把总结果打包返回给指令员。对于服务者来说,他们要完成的事有①把任务以低廉高效的方式发送给工作者②对每个工作者个体的地理位置信息进行加密③筛选出值得信赖有用的数据返回给指令员④激励并促使工作者更加积极地参与工作。
- 指令员是提交任务的最终使用者,他们要求在某一个特定的地点完成特定的任务。他们可以是缺乏安装足够传感器的能力的个人或者集体,并且希望能使用MCS服务来降低成本。
- 工作者是自愿参与MCS项目的个体,他们通过完成MCS平台上发布的任务来获得奖励。这些任务通常要求工作者公开他们的位置信息,因此产生了可能的隐私泄露问题,影响了工作者参与MCS项目的积极性且不利于更多人员假如MCS项目。
根据移动众包中各种地址隐私保护技术的特征分类,主要有三种:MCS-TP, MCS-P2P, MCS-LOC
- TP即Trusted Party,一个信任的中间服务器,接收用户的真实地理信息,随后进行加密再提交给MCS平台进行处理。
- P2P即peer-to-peer communication,指工作者和MCS平台间不存在第三方服务器,直接进行通讯,加密在工作者的移动设备上直接完成,但是这种加密依赖于工作者之间的交流进行混淆加密。
- LOC即locally,工作者和MCS平台也是直接进行通讯,但是加密过程不依赖工作者之间的位置交流,也就是说加密过程必须在工作者的移动设备上完全本地化进行。
目前,隐匿算法和DP算法是最流行的两种加密方式。早期的项目一般采用k-anonymization,而现在更多的人开始开发出各种各样的DP算法,甚至已经有人开始研究特定的加密算法来保护工作者的地址隐私。
关于这三种技术的算力开销,TP模型开销相对较小,因为计算大都在第三方服务器上进行,P2P次之,而LOC的加密过程完全在工作者本地的移动设备上进行,所以算力开销最大。
数据实用性
对工作者的地址信息进行保护,提高了他们的隐私性,但是也影响了传感器的任务返回结果。我们需要在隐私保护和数据实用性之间进行权衡,这种问题永远存在。一般来说,决定这种权衡有两种方式,一种是把选择权交给用户自己决定,是降低他们的位置信息隐私程度来获取更加精确的服务还是提高隐私性;亦或者选择权完全交由MCS中心平台决定。
LBS和MCS在地址隐私保护中的比较
- LBS主要专注于对用户的地址信息隐私保护,但是MCS需要在隐私保护和数据有效性间进行权衡,它需要保证用户的数据隐私性并且以低廉高效的方式分配并完成任务。
- LBS接收用户的地址信息通常不包含敏感的数据。但是MCS发布的任务是基于位置的敏感信息,攻击者可以通过渗透用户的地址数据来找出那些敏感的任务地点。因此,MCS的任务结果和工作者位置信息都需要保护。
- LBS是一项以用户为中心的技术,他们的隐私保护程度可以由用户自己决定,但是MCS更多是以平台为中心的技术,数据的隐私保护程度受到平台的统一调配。
- LBS的目的是为用户提供地址服务,是建立在每个用户的单个位置基础上进行服务。而MCS正好相反,它旨在收集每个工作者个体的任务结果并把它统一反馈给指令员。也就是说,MCS是建立在大量的工作者位置信息之上的。因此,考虑所有参与者位置的整体视角显得至关重要。
基于以上原因,为LBS设计的地址保护技术并不能直接应用在MCS中,必须进行改进或重新设计。
MCS中的位置隐私保护技术
主要分为三类:基于空间隐身,基于DP的方法和基于加密的方法。
基于空间隐身
即向MCS平台报告粗略的信息,而不是详细的具体位置。
机制
AnonySense,第一个利用K-anonymity保护MCS中工作者的位置隐私的工作。生成一个镶嵌地图,将一个地理区域划分为一组瓷砖,每个瓷砖内有k名工作者。
具体实现过程为,将WIFI接入点(ap)的位置映射为二维平面。然后构建Voronoi图。然后使用历史ap活动记录估计每个单元中的工作者数量。最后将Voronoi单元聚集在块中,使得每个块满足K-anonymity,进行保护。但是AnonySense需要一个可信方,因为镶嵌地图是根据工作者的实际位置构建的。
实际运用中,有些瓷砖块有相当大的区域导致传感任务结果质量降低,有人提出了可变大小的最大距离平均向量算法(VMDAV)来解决。
还有人提出了一种贪婪算法,保护工作者隐私的同时,最大化来自工作者的任务结果质量。
……
讨论
基于DP的方法
可进一步分为基于psd(私密空间分解)和基于geoind的方法。
讨论
基于加密的方法
可分为同态加密、基于属性加密和区块链
同态加密是基于对两条信息同时加密,这样对两条密文进行加法操作就会得到两条密文的密文和的基础。也就是说,把工作任务和工作者位置进行加密后传递给MCS平台,平台可以直接对两个加密的信息进行运算规划任务分配,而无须得到工作者真实的位置信息明文。
基于属性加密则是把任务区域划分成一个个网格,再给处于同一区域内的工作者一个相同的属性,可以是前缀或者相同秘钥,这样就能实现只有处于一个属性的实体才能解读明文,保护了工人的隐私。
区块链看不懂……
讨论
主要类别方法的比较
目前MCS应用的现状
- 交通系统,地图软件,实时更新的导航地图app
- 公民合作,公民向政府报告非紧急社区问题
- 移动社交网络,分享当前位置的信息、签到
- 其他应用程序,链接企业与愿意在附近地点执行任务赚钱的智能手机用户。
未来的研究方向
- 保护位置持续披露
- 隐私-效用权衡
- 算力开销/效率