除非您致力于掌握最新的人工智能,否则您可能从未听说过“联合学习”一词。尽管它可能不如3D打印或无人机等其他技术趋势突出, 它对隐私和机器学习的影响可能会导致更多的使用 在未来的几年.
简短而简单的版本是,联邦学习是一种改进模型的替代模型,该算法现在在我们生活的各个方面都占据着主导地位,无论是Facebook的News Feed还是Google Maps。在更传统的系统下,我们的数据被发送到中央服务器进行分析,并使用相关信息来更改算法.
联合学习提供了一种增强用户隐私的解决方案,因为 大部分个人数据保留在个人设备上. 算法直接在用户设备上训练自己,仅发送回相关的数据摘要,而不是整体数据。这使公司无需收集用户的所有数据即可改进其算法,从而提供了更加注重隐私的解决方案.
什么是联合学习?
对于大多数人而言,不要说谎,联邦学习的深度似乎很复杂且难以理解。 AI领域远远超出了许多人的知识领域,涉及的数学和逻辑远远超出了我们大多数人所能接受的范围.
尽管有这些困难,联合学习还是一项有趣且重要的技术开发,因此值得一试。为了使事情变得容易,我们将分解概念并以简化的方式进行解释,以便您可以了解全局.
机器学习和算法
除非您度过1930年代的角色扮演,否则您的生活将充满算法。在这种情况下,当我们提到算法时,我们实质上是指 用于解决问题或计算所需结果的公式或指令集.
Facebook,Instagram和Twitter使用它们来提供最可能使您感兴趣的个性化内容,并使这些平台赚更多钱。 Google的搜索引擎使用复杂的算法将您的搜索字词变成您认为要搜索的页面。您的电子邮件使用算法过滤掉垃圾邮件,而Waze利用算法找出从A点到达B点的最有效方法.
还有无数其他算法可以帮助我们完成任务,使我们在日常工作中保持忙碌或潜伏.
公司是 不断尝试改进这些算法,以为您提供最有效,准确和高效的结果, 只要符合公司的目标-通常是赚钱.
自最初部署以来,我们许多最常用的算法已经走了很长一段路。回想90年代末或2000年代初通过Google进行搜索–您必须非常具体,而且与今天相比,搜索结果非常糟糕.
那么这些算法如何改进?
算法如何更好地完成任务的主要部分涉及机器学习,这是人工智能的一个子领域。机器学习算法首先从数据样本中进行分析,然后 利用他们学到的知识更有效地完成任务. 他们能够进行改进,而无需通过外部力量(例如人类开发人员)来编写这些更改.
在过去的几十年中,机器学习一直在蓬勃发展,它改进了算法,帮助我们获得了更好的结果并进入了新的领域。由于其实用性,它也一直是 公司的大赚钱者 如Facebook,Google和其他许多人.
这一切都始于数据–数据池越大,高质量数据点的数量越多, 这些机器学习算法越精确. 算法越有效,它就能赚到更多钱,这实际上已将数据转化为商品.
这些条件导致人们收集的数据量大大增加。在大多数情况下,这些数据是从用户的手机,计算机和其他区域收集的,然后发送到服务器进行分析以改进算法。虽然有 通常会带来更好的服务和更多的便利,对于那些担心自己的隐私的人来说,这也带来了很大的压力.
这些公司总是知道您的位置,知道您与谁成为朋友,知道您的整个搜索历史等等,这是一个险恶的事情。当然,有很多方法可以避免这些类型的数据收集,但是对于大多数人来说,这种技术通常太不切实际了。.
在一系列数据隐私丑闻(例如Facebook的Cambridge Analytica惨败和Google+的大规模数据泄露)中,公司已开始引起注意。他们不想被篡夺,他们似乎在寻找继续前进的途径而又不会引起用户或立法者的愤怒。也许分水岭是马克·扎克伯格在今年的F8大会上宣布“未来是私人的”.
虽然最好是持怀疑态度看待这一运动,但是在用户隐私方面已经有了一些积极的发展,其中之一就是联合学习.
联合学习
为何不将算法从数据发送到我们的服务器,而不是从用户设备中获取数据?
这是联合学习背后的核心概念。这个词是Google员工在2016年发表的论文中创造的,该公司一直处于该领域的前列.
联合学习培训过程.
联合学习通过将算法的当前版本发送到合格的设备来改进算法. 然后,该算法模型从选定的一组用户的电话中的私人数据中学习. 完成后,新知识摘要将发送回公司服务器-数据本身永远不会离开电话.
为了安全起见,通常在返回服务器的过程中会加密此知识。为了阻止服务器根据收到的摘要找出单个数据,Google开发了 安全聚合 协议.
该协议 使用加密技术来防止服务器访问各个信息摘要. 在这种方案下,服务器只能在将摘要添加到数百个或数千个其他用户的结果中并与之平均后才能访问该摘要.
或者, 差分隐私可用于添加随机数据噪声 到个人的摘要,使结果难以理解。在将摘要发送到服务器之前,将添加此随机数据,从而为服务器提供足够准确的结果以进行算法训练,而不会向其透露实际的摘要数据。这样可以保护个人的隐私.
安全聚合协议和差异隐私等技术对于保护用户信息不受组织和黑客的攻击至关重要. 没有他们,联合学习将无法确保用户的隐私.
信息摘要安全发送到服务器后,将用于更新算法. 该过程重复了数千次, 以及算法的测试版本也发送到各种用户设备。这使组织可以根据实际用户数据评估算法的新版本。由于分析是在用户设备范围内进行的,因此无需在中央服务器上合并用户数据即可试用算法.
测试完成后,更新的算法模型将发送到用户设备以替换旧的模型。然后,将增强型算法用于其正常任务。如果一切都按计划进行,它将更加有效和准确地实现其结果.
然后,整个循环会一次又一次地重复:
- 新算法研究选定用户设备上的数据.
- 它将此用户数据的摘要安全地发送到服务器.
- 然后将该数据与其他用户的结果进行平均.
- 该算法从该信息中学习,产生更新并对其进行测试.
- 该算法的更高级版本已推出给用户.
随着时间的流逝,该算法会从用户数据中学习并不断进行改进,而无需将数据存储在公司服务器上。如果您仍在努力思考联合学习的含义及其工作原理,那么Google会发布此动画片,以简单的方式说明并帮助您可视化联合学习方法.
联合学习的其他优点
联合学习模型为用户提供了除隐私之外的其他一些好处。而不是与服务器持续共享数据, 可以在设备充电,连接到wifi且未使用时进行学习过程, 减少用户所面临的不便.
这意味着用户出门旅行时不会浪费宝贵的数据或电池。由于联合学习仅传输相关数据的摘要,而不是数据本身,因此该过程最终传输的总体数据少于传统学习模型下的数据.
联合学习还可以提供全局和个性化算法模型. 它可以从更广泛的用户群体中收集见解,并将其与单个用户的信息相结合,以提供更有效的模型来满足他们的独特需求.
联合学习的应用
联合学习具有广泛的潜在用例,尤其是在以下情况下 隐私问题与改进算法的需求相交. 目前,最杰出的联合学习项目已经在智能手机上进行,但是相同的技术也可以应用于计算机和物联网设备,例如自动驾驶汽车.
现有的和潜在的用途包括:
Google Gboard
现实世界中第一次大规模部署联合学习是 Google的键盘应用程序Gboard. 该公司旨在使用该技术在不损害用户隐私的情况下改善单词建议.
在旧的机器学习方法下,开发更好的键盘预测会非常麻烦-我们输入的所有内容,所有私人消息和奇怪的Google搜索都必须发送到中央服务器进行分析,并且谁知道其他数据本来可以用于.
值得庆幸的是,Google选择使用其联合学习方法。由于算法模型位于用户设备上,因此它能够从用户键入的单词中学习,总结关键信息,然后将其发送回服务器. 这些摘要然后用于增强Google的预测文本功能,然后对其进行测试并将其发布给用户.
新算法的版本将提供更好的体验,这要归功于它从该过程中学到的知识,并且循环会不断重复。这使用户能够不断改进键盘建议,而不必损害他们的隐私.
卫生保健
在医疗保健行业中,数据隐私和安全性异常复杂。许多组织都拥有大量敏感和有价值的患者数据,黑客也强烈寻求这些数据。.
没有人希望将令人尴尬的诊断泄露给公众。这些存储库中包含的大量数据对于诸如身份盗窃和保险欺诈等欺诈活动非常有用。由于海量数据和医疗行业面临的巨大风险, 大多数国家已就如何管理健康数据实施了严格的法律, 例如美国的HIPAA法规.
这些法律具有严格的限制性,如果组织违反了这些法律,则会受到重大处罚。对于担心数据处理不当的患者来说,这通常是一件好事。然而, 这些类型的法规也使得难以在研究中使用某些形式的数据来帮助实现新的医学突破.
由于这种复杂的法律情况,Owkin和Intel等组织正在研究 如何利用联合学习保护患者的隐私并同时使用数据.
Owkin正在开发一个 使用联合学习来保护患者数据 在确定药物毒性,预测疾病发展并估算罕见类型癌症存活率的实验中.
2023年,英特尔与宾夕法尼亚大学生物医学图像计算和分析中心合作,展示了联合学习如何将其应用于医学成像作为概念证明.
此次合作表明,在联合学习方法下,可以将其特定的深度学习模型训练为 与通过传统方法训练的同一模型一样,具有99%的准确性.
自动驾驶汽车
联合学习可以通过两种主要方式对自动驾驶汽车有用。首先,它可以保护用户数据的隐私-许多人不喜欢将旅行记录和其他驾驶信息上传到中央服务器并进行分析的想法. 联合学习可以仅通过使用数据摘要来更新算法来增强用户隐私, 而不是所有的用户信息.
采用联合学习方法的另一个关键原因是它可以潜在地减少延迟。在未来可能发生的情况中,我们的道路上有大量的自动驾驶汽车,它们将需要能够在发生安全事故期间迅速相互响应.
传统的云学习涉及大量数据传输和较慢的学习速度,因此存在潜在的 联合学习可以使自动驾驶汽车更快速,准确地采取行动,从而减少事故并提高安全性.
遵守法规
联合学习还可以帮助组织改进其算法模型,而不会暴露患者数据或导致法规错误。欧洲的《通用数据保护条例》(GDPR)和美国的1996年《健康保险可移植性法案》等法律对个人数据及其使用方式都有严格的规定.
这些法律通常是为了保护个人隐私而制定的,这意味着联合学习可以通过以下方式潜在地开辟新的机会: 从数据中学习,同时仍保持安全 并在监管准则内.
联合学习的安全性和隐私性
联合学习为训练机器学习模型提供了新的机会,而又不损害数据隐私。但是,需要谨慎实施它,以减轻安全问题和暴露用户数据的可能性.
一些主要问题及其潜在解决方案包括:
截取用户数据摘要
提供足够的隐私和安全性通常涉及不同技术和策略的结合。尽管联合学习为我们提供了保护数据的新方法,但仍需要与补充机制一起实施.
潜在弱点的一个例子是,当用户的数据摘要从设备发送到中央服务器时,黑客可能会拦截这些摘要,从而利用这些摘要来找出原始数据.
值得庆幸的是,这个问题有一个相对简单的解决方案,我们已经在信息安全的许多领域中实施了该解决方案–我们只需要在两点之间传输数据时使用适当的算法对数据进行加密即可.
从用户摘要中找出原始数据
在某些情况下,用户数据摘要可用于确定原始信息。如果恶意方通过API向模型发送查询,则有可能重建数据,尽管这对联合学习而言并不是唯一的问题.
如果攻击者或拥有服务器的组织可以这种方式找出原始用户数据,则它将完全 达不到实施联合学习的目的. 为了防止这种情况的发生,可以将两种关键机制与联合学习一起部署:Google的安全聚合协议和差异隐私.
的 安全聚合协议 使用多方计算来计算一组用户数据摘要的平均值,而不会向服务器或任何其他方透露任何单个个人的数据摘要.
在此系统下,每个用户摘要在离开用户设备之前均已加密,并且只有将它们添加在一起并与一定数量的其他用户摘要进行平均后,服务器才能解密它们。这样一来,服务器就可以根据用户平均水平训练模型,而无需暴露可能用于发现个人私人数据的个人摘要。.
Secure Aggregation不仅阻止服务器访问用户摘要,而且还使 中间人 攻击要困难得多.
另一个选择是 差异隐私, 其中包括各种相关技术,其中涉及将特定数量的噪声添加到数据中。差异性隐私的主要前提是,要使用户的数据保持私密性,对数据库的查询不应揭示数据中是否包含个人,也不应该透露他们的信息是什么。.
为了防止查询显示此信息,可以使用几个不同的选项为数据增加噪音。数据噪音会在离开用户设备之前被添加,从而阻止服务器和攻击者以原始形式访问更新.
模型中毒
联合学习为对手提供了“毒化”算法模型的机会。本质上,这意味着 恶意行为者会破坏模型 通过自己的设备,或接管参与训练算法模型的其他各方的设备.
Bagdasaryan等人详细探讨了这些攻击。在他们 如何后门联合学习 纸。在联合学习模式下,攻击者有可能接管一个或多个参与者.
在某些情况下, 他们可以控制他们接管的每个参与者的数据, 更改数据在本地的训练方式,更改超参数,例如学习率和各个模型的权重(在将其提交给服务器进行汇总之前)。也可以将每个参与者的本地培训方式从一轮改为另一轮.
借助这些功能,攻击者可以注入后门,这些后门可以根据自己的目标修改算法。根据研究的数据,中毒模型远比其他数据中毒攻击有效.
在一项涉及80,000名参与者的单词预测任务中,研究人员只需折衷八名参与者就可以达到50%的后门准确性。为了通过毒化数据来达到相同的效果,研究人员不得不折衷400名参与者.
最大的问题之一来自以下事实:联合学习和安全聚合协议旨在使用户数据保持私密性. 正确实施后,服务器将无法检测到单个用户摘要中的异常.
如上所述,安全汇总协议仅允许在用户摘要与其他用户数据一起添加后访问它们。由于摘要无法单独进行筛选,因此无法看到摘要中可能存在的异常,从而为模型中毒攻击提供了潜入的完美方式.
在此阶段,需要更全面地研究这些攻击及其可能的防御措施.
保持模型私密
复杂的算法模型可能价值数百万美元,这使其成为小偷的目标。他们可以像使用算法背后的公司那样使用它们来赚钱,甚至可以将其用于非法目的。它不仅可以避免盗贼为建立模型投入大量资金,而且还可以使原始模型贬值。.
公司需要保护自己的知识产权,这就像将模型直接发送给用户的设备一样 可能很容易导致这些模型暴露给任何想要使用它们的人. 但是,有些解决方案可供公司用来保护其算法模型.
其中之一是 利用多方计算的秘密共享. 这使组织可以通过在设备之间分配模型权重来隐藏模型权重。在此系统下,任何一个秘密持有方都无法知道整个模型.
这使组织可以将其算法训练模型推向设备,而不必担心其知识产权被盗.
联合学习的局限性
除了潜在的安全问题之外,联合学习还具有许多其他局限性,使它无法成为解决我们所有数据隐私问题的灵丹妙药.
一个考虑因素是,与传统的机器学习方法相比, 联合学习需要大量的本地设备功能和内存来训练模型. 但是,许多新设备具有足够的功能来执行这些功能,并且这种方法还导致将少量数据传输到中央服务器,从而减少了数据使用量。只要他们的设备足够强大,许多用户可能会发现这种折衷是有益的.
另一个技术问题涉及带宽。联合学习是通过wifi或4G进行的,而传统的机器学习则发生在数据中心。 wifi或4G的带宽速率比这些中心的工作节点和服务器之间使用的带宽速率低.
多年来,设备的带宽增长速度不如其计算能力,因此带宽不足可能会导致瓶颈 增加等待时间并使学习过程变慢 与传统方法相比.
如果在使用设备时进行算法训练,则会降低设备的性能。 Google仅在闲置,开机并插入电源插座时对其进行培训,从而解决了该问题。这样可以解决问题,但是 减慢学习周期, 因为培训只能在非高峰时间进行.
另一个挑战是,设备在培训过程中会掉落–它们可能被所有者使用,关闭或遭受其他破坏。丢失的设备数据可能无法正确使用,这可能会导致算法模型的准确性降低.
联合学习是机器学习的新途径吗?
联合学习是一种相对较新的培训模型,它显示了在许多不同应用程序中的潜力。因为它还处于相对早期的研究阶段, 在确定所有可能的用途之前,该过程需要更多的研究, 以及面临的潜在安全和隐私风险.
在此之前,很难确定未来该方法的实施范围。好消息是我们已经看到它通过Google的Gboard在现实世界中有效部署.
但是,由于前面讨论的某些局限性,联合学习不太可能在所有情况下取代传统的学习模型。未来还取决于我们的主要技术公司实际上对隐私的承诺程度。在这个阶段,我们有充分的理由对此表示怀疑.
也可以看看: 2023年数据泄露统计