联邦学习简述

联邦学习是什么

「server」和「数据提供方」之间没有原始数据的传递,只有参数的传递(本质就是做了一层另类的密码学编码)

联邦学习运作逻辑

核心逻辑:「server」作为需求方给「数据提供方」需求以及模型,「数据提供方」用自己的数据训练模型后,把参数回传给「server」,然后「server」迭代模型再把新模型给「数据提供方」,以此往复

「server」的能力需求:能把“加密”过的参数利用到模型优化、能对参数做contribution recognition来为「数据提供方」分润

「数据提供方」的能力需求:有足够、有效的数据去跑模型

联邦学习的重要组成部分

参与方:提出需求的server、提供数据的数据提供方

传递内容:模型、参数

联邦学习常见运用场景

物联网:个保法下,设备作为数据提供方,可以有效规避个人敏感数据的传输

企业数据补足:中型企业数据不足,可以在保护小型企业数据隐私的前提下获得数据训练模型

企业数据补足场景下的风险点

模型泄露(非主从博弈关系):上述有一个假设是“「server」是主,他的数据量一定大过「数据提供方」,因此「数据提供方」是从”,但是存在可能「数据提供方」有更大的数据量,它只是想要骗取其他「server」的模型(based on这个逻辑,大公司很容易获得中小企业的模型,从而垄断/加大贫富差距)-暂时无解

原始数据质量差:「数据提供方」可能会提供质量很差的数据来干扰-解法一:「server」锻炼识别能力;解法二:加入区块链技术,可以看到「数据提供方」的历史表现(信息透明),因此「数据提供方」有更大动机提供有效数据

数据泄漏:「server」可能会反向infer「数据提供者」的数据,造成数据泄露-解法:在「server」和「数据提供者」中间加一层「中间商」,「中间商」反向infer「数据提供者」的动机会比较小,它只需要掌握contribution recognition的能力、以及用多个「数据提供方」的参数跑出一个新的有效参数的能力就可以了,不想「server」一样会有想要原始数据的动机(其实就是一个成本和数据安全的trade-off)

Previous
Previous

成都咖啡厅地图爬虫项目

Next
Next

数据是什么?数据驱动在讲什么?