2019年6月29日,2019第二届数据安全峰会在杭州顺利举办。中国科学院院士郑建华出席了本次峰会并发表了《面向大数据安全的密码技术》的主题演讲。
(以下内容由现场录音整理而成)
大数据是国家新形势下进行科技创新、增强国力的重要举措,各地都在发展大数据应用。我个人感觉基于大数据健康发展的重要问题就是怎么解决它的安全问题。
信息安全的5个基本属性是:保密性、完整性、可用性、可控性和不可抵赖性。信息安全要解决的问题可以用一句话刻画,就是“信息的使用和处理要在信息所有者许可之下,严格按要求,真实、顺畅、合理地进行,信息源和使用结果均可认证。”
为什么说大数据安全比较难解决?因为我们要考虑两个不同的维度。
一、大数据环境中的参与者
-
1、数据的所有者或提供者;
-
2、数据的管理者(云服务提供者)。他的责任是提供物理平台,来存储数据,做数据均衡、灾备,来管好数据,按照要求提供相应的数据使用和计算资源;
-
3、数据的使用者。云上大数据应用一定是对不同的用户数据进行融合、加工,用于工控、数字服务、各种智能的社会服务,这是数据的第三方;
-
4、可能还有第四方。安全架构有可能需要可信的第三方,不是数据的提供者,也不是云的管理者,是第三方的代理。有可能有,也可能没有,主要是根据体系设计考虑。
我们要综合考虑,在云的环境中,不同的角色有不同的安全需求,也有自己要履行的义务,要平衡相互之间的需求来解决安全问题。应该有这样的一个架构,特定的数据一定要事先经过允许、经过访问控制授权以后再进行使用,而且云的管理者是不能接触到数据的,真正能够做到这样,才能够解决数据安全问题。
二、大数据应用角度
从大数据应用角度,一般要解决身份的识别、权限的管理、数据的保护和审计、检索、查询和安全计算。
-
1、身份管理,有效地进行授权。你的数据可以做什么样的使用,可以对哪些数据做相应的使用,这是身份的识别,权限的管理。
-
2、数据的审计。用户不知道数据在物理平台上放在哪一个服务器或者哪一个存储设备上,数据量又很大,怎样保证这个数据是真实的、没有被篡改;
-
3、能够进行检索。数据量巨大的条件下,能够把自己想用的数据找到,包括在一定的控制条件下能够访问别人的数据,看看别人的数据哪些是我想用的、能够用的。
-
4、做计算。所有的数据加工也好、各种数据应用也好,实际上都是计算。怎样做安全的计算?安全计算是什么呢?就是说我能够用的数据,最后加工的结果你告诉我,但是并不知道数据的内容本身。
所以,考虑到安全,可以把它模型化,其一是参与大数据应用的不同的角色,各自要有什么样的安全需求。然后从大数据应用本身来说,提炼出来是这样几个问题:识别、权限管理、审计、检索、计算。
通过多个密码系统,不同的密码协议做有机的融合,这样才有可能全面的解决这种大数据的安全问题。
现在有一个好的密码学概念,就是我对加密数据直接做处理,相当于对明数据处理的结果加密,叫做“全同态加密”。全同态支持各种各样的所有计算。从安全需求来看,这确实是一个很有利的工具。但是实际上现在并不理想,效率比较低,最多到了中等水平,现在来看有很多问题:
-
1、计算量过大,要支持大数据应用还不太现实。
-
2、数据膨胀非常厉害。
-
3、现在不支持多用户,只支持我自己的数据,真正要解决用户之间数据的访问、数据的融合,也还有差距。
应该来说,它是一个非常好的密码概念,但现在学术界还在探索当中,离实际应用还有很大的距离。但是我们想要彻底解决大数据安全的问题,全同态加密还是需要做的。
还有一些其他的技术:
-
1、加密数据审计技术。
-
2、密文检索,怎样在密文上直接做检索,把我关心的数据能够找出来。
-
3、安全计算,一个是全同态,还有一种叫做多方计算。
-
4、属性加密、基于身份的公钥密码、谓词加密等等一些密码技术。
归纳起来说,大数据安全密码和理论处于积极研究和不成熟的阶段,但它非常重要,一定要在安全性、功能、效率三个方面综合考虑。
我的建议是一定要高度重视安全建设,要把大数据建设和安全建设同步开展。要从科研、国家投入、以及企业三个方面来考虑,真正做一些有价值的实实在在的工作,发挥这三个方面的积极性,共同努力才能够解决这样的问题。
当然,要坚持自主创新和自主可控。自主创新就是我们应该根据实际需求来提出概念,来引导我们的科研。同时企业加快技术的落地,推进大数据安全技术标准化。当然前面基础研究一定要比较成熟,在有很深入的研究的基础上才可能提出好的技术标准。
最后,我想强调一下大数据的科学装置。对大数据安全需要有一个比较标准化的、有代表性的测试环境。好的产品要经过典型的测试环境,从不同角度进行测试和检查,这样使得数据安全技术能够健康地发展,保证大数据应用地健康开展。
谢谢大家!