[知识]数据脱敏在公积金系统中的运用_百丽百灵

来源:百丽百灵作者:日期:2016-06-20


作者单位: 天津市住房公积金管理中心,转自:信息技术与信息化 ,2015年06期 


近年来,各种信息泄露事件层出不穷,数据安全越来越受到重视,由于公积金行业掌握着广大单位职工的姓名、身份证、工资基数等信息,因此,对数据防泄露的要求会更高。


但是在实际工作中,由于很多公积金系统需要在非生产环境中使用生产的真实业务数据,用真实数据编写测试用例、把数据给开发公司进行内部测试、在培训系统中用业务数据进行演示。而在非生产环境中不具备生产环境中的各项数据保护措施使得在这些环境中对生产数据的保护面临严峻的挑战,数据安全难以保证,数据泄露的风险很高。


公积金系统数据脱敏是指在非生产公积金系统环境中将涉及个人隐私和其它敏感业务数据进行移除、屏蔽以及转换的系统过程。目的是将敏感数据进行修改,以达到对其保护的目的。脱敏后数据可以在开发、测试和其它非生产环境以及外包或云计算环境中安全地使用。借助程序屏蔽敏感信息使屏蔽的信息保留其原始数据格式、属性、分布特点等,确保应用程序在开发与测试过程中正常运行。


1 公积金系统敏感数据的类别

公积金系统敏感数据是根据不同业务经办系统的特点、测试模块而确定。粗略包括以下信息内容。

个人隐私数据:姓名、身份证号码、工资缴存基数、缴存余额、家庭地址、电话号码、电子邮箱等。


敏感业务数据:单位等组织机构名称、公积金卡号、联名卡卡号、银行开户行号、开户行名、系统交易号、系统唯一ID 等),密码类( 在公积金系统内注册用户或账户的操作密码等)。


具体数据脱敏项目中涉及的敏感数据范围,需要成立脱敏项目小组确定,小组成员由业务处室、合规处、审计处、风险处共同组成。明确敏感数据范围之后,需要确定数据脱敏的具体需求,明确数据脱敏要做到什么程度、脱敏成什么样的目标数据等。


2 公积金数据脱敏原则及处理方法

2.1 去隐私化与保持真实性

非关联数据去隐私化与保持真实性需要找到最佳结合点,因为过度的脱敏处理往往会带来负面问题,使数据失去了原有的格式和含义,无法达到测试对数据保持仿真度的要求。

在公积金缴存系统如果将职工姓名“小明”转换为随意汉字组合或者乱码序列“8Ad232%”,将会使使用人员不易识别甚至带来困惑。因此数据脱敏在保证数据安全的同时,需要保持原来业务数据的特点才能保证在测试场景中的可用性。


2.2 保持业务处理流程不变

保证业务规则不变是数据脱敏的基本要求,也就是保持脱敏后数据的关联性以及业务语义不变,保持主外键关联是保证数据一致性的重要保证。公积金数据关联性包括单位和个人明细业务信息等关联性及关联字段的业务语义关联性。

公积金业务规则关联是指不同字段没有直接的主外键关联,但在业务含义上有明显的相互关联,公积金系统数据库中的人为冗余设计带来了语义关联。用天津公积金中心系统举例则是单位代码、个人代码字段数据跨越不同数据库以及同一库下不同的数据表超过100 个,为保证脱敏后的一致性带来难度。业务规则是千变万化,但是业务语义不变则是测试案例的重要要求这包括业务数据格式不变、取值范围不变且关联关系不变等。


2.3 数据脱敏后结果一致性与不可逆需求

在公积金系统实际的数据脱敏操作中,分别对不同业务系统进行脱敏或对同一业务系统的不同子系统中的数据进行多次脱敏是经常发生的情况,或者因为公积金业务系统数据库在设计中的冗余设计原因同样的待脱敏数据出现在不同的任务中。因此,保证不同脱敏过程中脱敏结果的一致很重要,然而为保持一致性会存在数据值的唯一映射关系:被变形的数据有可能会被逆转得到真实的原始数据,从而失去数据脱敏的意义。天津公积金中心系统为避免此类问题我们处理原则是将实现脱敏数据映射规则的人员和实施数据脱敏的人员分开,开发公司设计人员负责实现映射算法在达到其它三点原则要求前提下保证算法的不可被逆推,同时引入影响参数,由软件运维人员在实施数据脱敏操作时指定控制参数,得到正确的脱敏后数据。


2.4 数据分布一致性要求

在公积金系统中数据除了存在大量依赖性以外,还存在各种分布意义,例如由身份证号中的出生年月日产生的年龄分布情况、缴存基数分布情况、余额分布情况等,而在测试系统中为了测试各种可能存在情况,出具更全面的测试用例这些分布意义需要被保留,否则脱敏后数据都是单一取值范围影响功能测试和测试用例的范围完整性。因此,天津公积金中心系统进行数据脱敏时需要对脱敏字段按照预定义和行业内已知默认规则进行数理统计,保留脱敏前统计结果,数据脱敏后脱敏算法将统计分布情况,并将脱敏后数据内容统计分布情况与之前的进行比较,在准许范围内即为符合脱敏一致性要求原则。


说明:本公号不定期发布改编或原创的大数据、互联网、政策解读、心理健康等信息,如需转载或采用,须与百丽百灵公号(BL100BL)或百丽百灵管理员微号(BL88BL88)沟通。

欢迎加入百丽百灵微友群(先加管理员微号BL88BL88好友)。

投稿和合作联系信箱:3012908001@qq.com。

百丽百灵公号本期目录(2016年06月19日):

1、[知识]面向大数据应用的数据脱敏方法_百丽百灵

2、[知识]测试数据脱敏综合评价体系_百丽百灵

3、[知识]数据脱敏在公积金系统中的运用_百丽百灵

百丽百灵公号上期目录(2016年06月14日)

1、[观点]“网信”事业发展中的互联网企业责任:问题与矛盾_百丽百灵

2、[资讯]56个免签/落地签国家和地区,签证全攻略_百丽百灵

百丽百灵公号上期目录(2016年06月11日):

1、[政策]欧盟《一般数据保护条例》GDPR主要条款_百丽百灵

2、[政策]关于进一步加强大数据发展重大工程项目统筹整合的通知_百丽百灵

3、[资讯]“一带一路”建设2016年专项课题公开征集公告_百丽百灵

4、[观点]吴启迪关于自科基金大数据重大研究计划的发言_百丽百灵

5、[观点]汤奇峰关于引导数据健康有序流通的五条建议_百丽百灵

请关注百丽百灵公号(BL100BL)。


感谢关注百丽百灵


在线客服 计算器 意见反馈

BMFWDT

社保交通咨询请关注便民服务大厅公众号

点击可复制微信关注公众号,找人工客服