联邦学习简述
一、联邦学习是什么
「server」和「数据提供方」之间没有原始数据的传递,只有参数的传递(本质就是做了一层另类的密码学编码)
二、联邦学习运作逻辑
核心逻辑:「server」作为需求方给「数据提供方」需求以及模型,「数据提供方」用自己的数据训练模型后,把参数回传给「server」,然后「server」迭代模型再把新模型给「数据提供方」,以此往复
「server」的能力需求:能把“加密”过的参数利用到模型优化、能对参数做contribution recognition来为「数据提供方」分润
「数据提供方」的能力需求:有足够、有效的数据去跑模型
三、联邦学习的重要组成部分
参与方:提出需求的server、提供数据的数据提供方
传递内容:模型、参数
四、联邦学习常见运用场景
物联网:个保法下,设备作为数据提供方,可以有效规避个人敏感数据的传输
企业数据补足:中型企业数据不足,可以在保护小型企业数据隐私的前提下获得数据训练模型
五、企业数据补足场景下的风险点
模型泄露(非主从博弈关系):上述有一个假设是“「server」是主,他的数据量一定大过「数据提供方」,因此「数据提供方」是从”,但是存在可能「数据提供方」有更大的数据量,它只是想要骗取其他「server」的模型(based on这个逻辑,大公司很容易获得中小企业的模型,从而垄断/加大贫富差距)-暂时无解
原始数据质量差:「数据提供方」可能会提供质量很差的数据来干扰-解法一:「server」锻炼识别能力;解法二:加入区块链技术,可以看到「数据提供方」的历史表现(信息透明),因此「数据提供方」有更大动机提供有效数据
数据泄漏:「server」可能会反向infer「数据提供者」的数据,造成数据泄露-解法:在「server」和「数据提供者」中间加一层「中间商」,「中间商」反向infer「数据提供者」的动机会比较小,它只需要掌握contribution recognition的能力、以及用多个「数据提供方」的参数跑出一个新的有效参数的能力就可以了,不想「server」一样会有想要原始数据的动机(其实就是一个成本和数据安全的trade-off)