AI训练遇隐私难题 联邦学习这样打通数据孤岛

AI人工智能 2019-11-26 12:30112未知admin

  数据可以说是人工智能的燃料。但随着AI落地各个应用场景,数据隐私泄露问题日益严重。数据的交流使用和数据的隐私保护似乎成为了不可调和的矛盾。

  如何在不泄露各自数据隐私的情况下实现数据的共享和模型的共建,同时连通数据割裂的孤岛是当前所面临的问题。目前各机构正试图利用联邦学习打通人工智能应用的最后一公里,促进人工智能落地。

  数据孤岛阻碍机器学习训练

  “互联网时代产生的海量数据,其背后的价值如何能挖掘出来,又会对我们产生什么样的影响?”近日,在由中国计算机学会发起的第四次联邦学习主题研讨会上,微众银行人工智能首席科学家范力欣说,如何发掘和利用这些信息是现在一个非常热门的研究方向,但要安全合规地发挥这些海量数据背后的价值,就涉及到隐私保护问题。

  随着人工智能的发展,其可能带来的隐私泄露风险也日益凸显。除了备受关注的脸书(Facebook)等巨头公司的用户隐私泄露事件外,目前用于算法训练的数据的来源也让人担忧。有媒体日前报道,在网络商城中有商家公开售卖“人脸数据”,数量达17万条。目前网络商城运营方已认定涉事商家违规,涉事商品已被下架处理。

  为了应对隐私泄露风险,各国都采取了相应措施。如2018年欧盟出台了首个关于数据隐私保护的法案《通用数据保护条例》;2019年5月美国旧金山禁用人脸识别,禁止政府机构购买和使用人脸识别技术,以此来消除技术带来的隐患;从2009年开始到2019年十年间,我国也出台了非常严格的隐私保护法案。

  但同时,数据隐私的保护也对依赖数据的机器学习形成了巨大挑战。如《通用数据保护条例》要求公司在使用数据前要先向用户声明模型的作用,这份条例的实行让许多大数据公司在数据交流方面非常谨慎。

  “人工智能需要通过大量的数据学习才能把数据后面的知识挖掘、整理出来,把价值发挥出来。但现实的情况是一方面很多数据质量不好,缺乏标签;另一方面,数据完全分散在各个数据主体、企业的个案里面,是一个个数据孤岛,无法把它们连接起来。”范力欣说,如何在保护数据隐私同时打破数据孤岛是我们现在面临的问题。

  联邦学习或将提供解决办法

  在人工智能领域,传统的数据处理模式往往是一方收集数据,再转移到另一方进行处理、清洗并建模,最后把模型卖给第三方。但随着法规的完善和监控愈加严格,如果数据离开收集方或者用户不清楚模型的具体用途,运营者都可能会触犯法律。同时,数据是以孤岛的形式存在的,解决孤岛的直接方案就是把数据整合到一方进行处理。但目前粗暴地将数据聚合是法律法规所禁止的。

眼爆科技 Copyright © 2002-2017 深圳眼爆智能科技有限公司 版权所有 备案号:* 本站资源来自互联网,我们转载的目的是用于学习交流与讨论,如果您认为我们的转载侵犯了您的权益,请与我们联系(Email:gm@ybbtb.com),我们将在3个工作日内删除相关内容。

邮箱地址:gm@ybbtb.com