互联网

马上消金深挖大数据价值,建立数据安全保障体系

来源:互联网    作者:      2022年12月05日 17:10

导语:

互联网浪潮下,大数据以颠覆之势席卷着传统产业,以数据为核心的生态被视为新的世界。不过,人们在挖掘大数据潜在价值同时,数据安全保障体系的建设不容缺失。

鱼和熊掌兼得”,关键之处在于数据价值释放与隐私保护之间形成竞合发展关系。针对此问题,学术界和工业界提出使用隐私计算来消除或降低数据流转过程中产生的安全风险。

而隐私计算技术的成熟,有利于在合规前提下,开拓更广阔的大数据市场和应用场景,释放大数据红利,引领大数据应用走向健康、有序、可持续的发展道路。

特别是金融业——一个数据密集型行业,其大量业务运营依赖于数据的产生与流转。这样一来,就必须让隐私计算技术在智能服务中“落地生根”。

01对比四大隐私计算路线 联邦学习与多方安全计算融合产品为优选

目前,主流的隐私计算技术路线有四大类:一是以多方安全计算(Secure Multiparty Computation,MPC)为代表的基于密码学和同态加密技术的发展方向。

MPC方案通常被设计成可由双方或多方运行的密码学协议(例如,SPDZ,SPDZ2,ABY,ABY3等),这些协议定义了多方之间数据加密与交换过程。按照协议的假设,敌手要攻破这个方案需要解决一个困难性问题,比如大数因子分解问题,离散对数问题等,而这往往是不可能的,在数学上可以被证明是安全、且不会泄露隐私数据的,同时还可以保证计算结果的正确性。

MPC技术具有通用性好、准确性高的特点,其理论价值和应用前景得到了学术界和工业界的肯定。自20世纪80年代以来一直是学术界研究的重点,近年来随着大数据技术的发展、算力的提升,该技术路线已经进入落地阶段,国内已出现了多个该技术路线的产品。Gartner发布的《隐私计算最佳实践》认为,MPC适用于高安全的联合计算、外包计算和联合建模场景。

二是可信执行环境(Trusted Execution Environment,TEE),即通过专有的硬件和严格设计的软件开发与发布流程实现安全计算。

TEE是移动设备(智能手机、平板电脑、智能电视)CPU上的一块区域。这块区域的作用是给数据和代码的执行提供一个更安全的空间,保证它们的机密性和完整性。也就是说,TEE为了防止手机等设备中信用应用免受恶意软件侵害。

三是联邦学习(Federated Learning,FL),一种分布式机器学习技术,主要的目标是实现“数据可用不可见,数据不动模型动”。

联邦学习的核心思想是通过在多个拥有本地数据的数据源之间进行分布式模型训练,在不需要交换本地个体或样本数据的前提下,仅通过交换模型参数或中间结果的方式,构建基于多方数据的全局模型,从而实现数据隐私保护和数据共享计算的平衡。

四是差分隐私路线,简单讲就是对数据添加“噪声”,设计灵感源在于一个记录因其加入到数据集中所产生的隐私泄露的风险被控制在极小、可接受的范围内,攻击者无法通过观察计算结果而获取准确的个体信息。

此外,差分隐私技术可与其他技术路线进行结合。例如,基于差分隐私的联邦学习技术较适用于有中央节点的联邦学习模式,中央计算节点向数万乃至数百万终端下发全局模型,并利用终端本地数据计算出梯度迭代全局模型,终端产生噪声对模型加扰,然后回传给中央计算节点进行模型聚合,最终迭代形成一个性能更好的全局模型。

而进一步来讲,通过前述对比与介绍,最终目的在于企业能够选择到合适自身的技术路线。从趋势分析出发,企业在结合产品需求和应用难度技术基础上,首先应排除差分隐私路线,因其不适用于大B企业之间的联合建模合作;其次可排除TEE路线,目前市场上罕见基于此的联合建模产品,且使用成本高昂。

剩下的可供选择的是基于MPC的密码学路线和联邦学习路线产品。根据对比分析和实际研究,密码学路线的产品提供了丰富的底层算子,给用户以较大自由编写自己数据查询、数据处理与联合建模任务。不过,缺点是对成熟算法的支持不够,成功落地需依赖于厂商的文档、培训、售后服务等支持。此外,用户需要具备丰富的业务知识和数据科学知识,否则面对基础算子很可能无所适从。综合对比之下,融合了多方安全计算基础协议以及联邦学习技术的产品成为较优的选择。

02基于开源框架 奔赴数据密态时代

目前,国内的隐私计算产品发展基本与国外保持同步,供应商众多,选择空间加大。而在采用联邦学习技术路线产品上,马上消费自研的多方安全计算平台作为后起之秀,在功能、审计和系统集成与交付能力方面具备一定特点和优势。

像在功能方面,针对数据资产共享,该平台主要方便伙伴之间查看联邦网络中可用的数据资产。相比其他隐私计算产品,马上消费自研平台具备了外部数据资产展示功能,即集中展示合作伙伴的数据资产。

此外,作为多方安全计算领域里广泛研究的一个算法协议,目前实现的方法非常多,各家平台也提供了丰富的实践。而对于隐私计算产品选型来说,一个高效、安全的协议是最主要的,特别是马上消费这类数据规模较大的企业,无论是平衡的隐私集合求交,还是不平衡的场景下,对于性能的要求非常高。

马上消费通过对基础协议的性能测试发现,在保证安全性的前提下,使用OT和哈希算法的协议是目前性能最高效的,也是大部分开源产品都默认实现的协议。当然,作为技术选型的基础,是否能够自主扩展协议也是一种考虑。

且现阶段,隐私计算仍然是一个新生事物。一家极为重视数据安全和消费者隐私保护的金融企业在使用相关产品开展合作时难免存在疑虑。为了打消客户和监管在数据安全、隐私上的担忧,企业需要提升平台的安全可信度和可解释性。目前,主要的途径之一是通过央行的金融科技产品认证或者中国信通院的多方安全应用测评,另一路线就是对自己的平台进行开源。通过这两种方式,企业进而能够实现对平台自生安全性的解释。

总体来讲,目前隐私计算开源的平台众多,如微众银行的FATE、蚂蚁科技的隐语、翼方建数、原语科技等。而马上消费的多方安全计算平台完全基于开源框架打造,对于平台底层安全计算代码公开、透明,从基础上打消用户的使用疑虑。同时,多方安全计算平台也在积极的进行央行标准的多方安全计算产品测评。


(文章为作者独立观点,不代表艾瑞网立场)
  • 合作伙伴

  • 官方微信
    官方微信

    新浪微博
    邮件订阅
    第一时间获取最新行业数据、研究成果、产业报告、活动峰会等信息。
     关于艾瑞| 业务体系| 加入艾瑞| 服务声明| 信息反馈| 联系我们| 合作伙伴| 友情链接

Copyright© 沪公网安备 31010402000581号沪ICP备15021772号-10

扫一扫,或长按识别二维码

关注艾瑞网官方微信公众号