联邦学习简述

29 Sep

Written By 志炜叶

联邦学习是什么

「server」和「数据提供方」之间没有原始数据的传递，只有参数的传递（本质就是做了一层另类的密码学编码）

联邦学习运作逻辑

核心逻辑：「server」作为需求方给「数据提供方」需求以及模型，「数据提供方」用自己的数据训练模型后，把参数回传给「server」，然后「server」迭代模型再把新模型给「数据提供方」，以此往复

「server」的能力需求：能把“加密”过的参数利用到模型优化、能对参数做contribution recognition来为「数据提供方」分润

「数据提供方」的能力需求：有足够、有效的数据去跑模型

联邦学习的重要组成部分

参与方：提出需求的server、提供数据的数据提供方

传递内容：模型、参数

联邦学习常见运用场景

物联网：个保法下，设备作为数据提供方，可以有效规避个人敏感数据的传输

企业数据补足：中型企业数据不足，可以在保护小型企业数据隐私的前提下获得数据训练模型

企业数据补足场景下的风险点

模型泄露（非主从博弈关系）：上述有一个假设是“「server」是主，他的数据量一定大过「数据提供方」，因此「数据提供方」是从”，但是存在可能「数据提供方」有更大的数据量，它只是想要骗取其他「server」的模型（based on这个逻辑，大公司很容易获得中小企业的模型，从而垄断/加大贫富差距）-暂时无解

原始数据质量差：「数据提供方」可能会提供质量很差的数据来干扰-解法一：「server」锻炼识别能力；解法二：加入区块链技术，可以看到「数据提供方」的历史表现（信息透明），因此「数据提供方」有更大动机提供有效数据

数据泄漏：「server」可能会反向infer「数据提供者」的数据，造成数据泄露-解法：在「server」和「数据提供者」中间加一层「中间商」，「中间商」反向infer「数据提供者」的动机会比较小，它只需要掌握contribution recognition的能力、以及用多个「数据提供方」的参数跑出一个新的有效参数的能力就可以了，不想「server」一样会有想要原始数据的动机（其实就是一个成本和数据安全的trade-off）

志炜叶

联邦学习简述

成都咖啡厅地图爬虫项目

数据是什么？数据驱动在讲什么？