中科院大数据专家田英杰教授2016年6月17日在“大数据人力资源宏观管理应用技术研讨会”的讲话:
各位领导、各位专家,非常荣幸能参加这个研讨会,来学习,说实话,我是人力资源管理这个行业的门外汉,但是因为这么多年我的专业是从事数据挖掘,现在搞大数据挖掘数据科学,也做过很多各个领域数据挖掘的项目。正是因为数据挖掘这个专业的特殊性,因为数据挖掘只有和各个领域、各个行业结合才能显示出他的作用,才能发挥他的作用。刚才听了王院长的报告,以及阅读了他的书以后,我更觉得大数据挖掘在人力资源管理方面还是有可用之处,也大有用武之地的。题目给我定的是数据挖掘在人力资源管理中的应用,我不敢这么提,也不敢这么命名,所以我就写了大数据挖掘与人力资源管理,我在里面提一些自己的想法。
允许做简单的介绍,我来自中国科学院虚拟经济与数据科学研究中心,我们这个中心是2004年中国科学院百人计划石勇回国创立的一个研究中心,一开始叫数据挖掘研究中心,和中科院研究生院管理学院院长成思危先生组织的虚拟经济中心,然后就合并在一起,我们从2004年开始筹建,到2007年挂牌成立。这是我们中心的网站,简称就是FEDS.AC.CN。这个中心是2007年正式挂牌成立的,他是属于中科院的创新单元的一个非法人研究实体,因为我们的体量比较小,就一直挂靠在中国科学院研究生院,现在叫中国科学大学。我们这个中心主要的研究任务就是想致力于用数据科学、数据挖掘、实证方法来研究虚拟经济、绿色经济、区域经济等等,这方面的一些科学现象,从中挖掘出规律来。随着这几年的发展我们中心现在有5个研究室,第一个是虚拟经济研究室,然后是我们的数据挖掘与最优化,为什么我用最优化呢?数据挖掘有很多种理论和方法,我们主要的研究方式是希望用最优化的方法来做这个事情。还有绿色经济、虚拟上午、社会计算与电子健康研究室内。我们现在的研究团队大概有60人左右,包括教授、博士后、学生等等。
随着大数据时代来了以后,我们做数据挖掘的肯定要紧跟大数据时代的步伐,从2014年我们就联合中国科学院大学的管理学院、数学科学学院和计算机学院,我们四个单位联合申报并且成立了中国科学院大数据挖掘与知识管理重点实验室,这个实验室就横跨三个学科,管理科学与工程、运筹学和应用数学,归中科院高级数据来管,属于应用基础研究,归口是数理部。实验室的研究重点,按照大数据的流程来说,大数据的收集我们关注是社会、经济大数据,我们主要有一个自己的重点,在数据的存储与处理方面不是我们的强项,所以我们并不参与这部分。
下面是大数据的挖掘和处理,有很多种大数据挖掘方法,我们有一个主要的方向是运用最优化来做大数据挖掘,数据挖掘以后出来的东西到底能不能作为知识,能不能作为决策,能不能作为管理,这也是我们在国家自然科学基金委的一个创新团队的追求研究项目,我数据挖掘出来的东西怎么来转化成智能知识,怎么来转化为决策,这叫智能知识管理。大数据的社会与经济运用,我们有全国个人信用评分系统,这是我们和中国人民银行证券中心一起做的,历时4年的时间。我们如果办第三代身份证,那里的指纹识别也是我们重点实验室做的。我们还给高层提供一些政策建议,过去5年我们有10几份高层建议都被两届领导批示。
这是我们实验室的主要框架,有四个研究机构,包括从理论、模型预算法以及技术和应用研究室,我们基本深涵盖了大数据挖掘的这四个主要的方向。这是我做一个简单的介绍。
咱们回到大数据,每次讲大数据我都喜欢用这个图片来讲,这个图片就可以把大数据的一些特征给描述出来,说这个人来到一个服务窗口,服务人员就根据他的一些信息来确定你这个人受欢迎的程度是23.5%,根据哪些信息呢?我们可以看出来根据他的亚玛逊的购买记录,再根据他的社交数据,亚玛逊的购买数据就是他的电商数据,还有一些location history,这是他的当地的一些数据。根据数据来源是多样化的,这是第一点,我们就体验了数据的第一个特点,数据来源多样化。第二,我要做决策,要实时,我要很快的给出你受欢迎的程度是23.5%,大数据挖掘的实时性。第三个特征,我怎么会得到23.5%的分数呢?是因为我根据成千上万的我的数据库里的人做出来,说明他的数据量比较大。第四是他的价值,真实的价值,根据这个数据做出一个决策来,这就是体现了数据挖掘的第四个特征,就是他的价值。
这是体现了大数据的特征,同时也体现了大数据时代来了,以后就改变了我们的决策行为,原来我们要做决策,要做管理,普通的服务人员做不了这种决策,现在我根据我的大数据,普普通通的服务人员就可以做这种决策,这个大数据就改变了我们的决策行为,所以和原来是不一样的。这是大数据的一些基本特征,我们就可以说大数据已经到来了,不管是互联网数据,脸书、微信、微博,状态更新,视频,还有照片,以及公共计算,交通数据,监测数据,还有商业服务,电商的一些数据。
这些大数据来了以后就对我们产生了新的运用需求,比如我要做精准广告分析,比如我要做智能交通预测,比如我要做消毒策略的制定,这些东西你产生了应用需求,怎么才能满足你的应用需求,最主要的是除了数据的收集整理,除了数据的ETL,最主要的就是我在建立数据中心以后要做大数据挖掘,这是最核心的部分,所以我们要做数据挖掘,其实在大数据之前就是有数据挖掘。什么叫数据挖掘呢?如果我们能回答这里面5个W问题,如果我们能回答为什么要用数据挖掘,是因为我们有迫切需求;数据挖掘是什么,就是我们要从里面找规律,根本规律办事;谁在使用数据挖掘,有需求的人,比如说人力资源管理,就需要有数据挖掘;数据挖掘有哪些方法?一会儿我有一张片子;下面就是数据挖掘用在哪些领域?比如健康大数据、医疗大数据、智能交通大数据,他可以用在各行各业里面;数据挖掘到底能做什么事情呢?如果说我能在行业里面把这里的应用问题归纳为数据挖掘的分类问题、关联规则问题、聚类问题、序列模式、预测相似时间序列,如果我能把行业里的这些问题归纳为数据挖掘中的问题,我就可以用大数据挖掘的方法来处理。
这就是一个数据挖掘的基本流程,首先进行商业理解,比如人力资源管理,你要做人才流失的预判,要做人才指数的东西,我首先要理解这个东西是什么,然后我才能对数据进行理解,从里面抽取数据,再数据准备,再建一个模型评估,模型发布。我们可以看到他是始终围绕数据来说话的,而且他是一个不断迭代的过程,随着行业的发展,随着数据的变化,我这个数据挖掘可能就要定期更新,这就是数据挖掘的过程。
我刚才说了在之前,在2012年以前,在大数据元年以前我们就在谈数挖掘,现在大数据时代来了以后,大数据时代的数据挖掘有什么新的需求,我们就可以看出传统的数据挖掘技术有很多的困难,比如原来就是单点式挖掘,数据中心,数据库就在一个点上,我要单点式挖掘,难以应对数据的规模和分布式。第二是依存度比较较,第三是实时性比较差。现在我们在数据时代,数据量特别大,又多样化,我们就从集成、离线的挖掘转向大规模并行实时的数据挖掘,这是对我们一个挑战。
我说一下在我们中心成立以来做的项目,这些项目除了第四个,公安部千万人级指纹识别我没有参与以外,其余的每个项目我都是从头到尾跟到底的,所以说我还是有一定的发言权在数据挖掘应用方面。第一个是我们和中国人民银行做的个人信用评分系统,就像刚才王院长说的,我们如果对人才进行信用评价,这些项目的经验就可以用在这里。人民银行为什么要做这个事情呢?人民银行有一个征信中心,他们要各大商业银行定期上报他们所有的数据,所有的贷款、存款数据,信用卡刷那记录都在这里面,他希望通过这些数据对每个之人的信用进行评价,通过以前的信用历史来进行评价,现在我们去打信用报告,信用报告后面的分数就是我们计算出来的,用我们的模型算出来的。现在我们和考拉互联网征信,互联网征信,他们也在做互联网金融,互联网金融一个最根本的基础就是要做互联网征信,互联网征信要的数据就更多了,拉卡拉里面就有一些刷卡记录,有一些投资商的税务记录、工商记录,如何把这些记录,把这些数据整合在一起,在这个基础上做互联网征信,可能面就会更广一点。我们现在还在和春雨医生,春雨医生大家可能知道,在线进行的医疗平台,我们和他们做健康大数据的平台,我们也可以看到在大数据挖掘里面他还是有一些应用的。
下面我说大数据和人力资源管理,我也是看了书以后,在网上找了一些材料,当然比较小儿科了,我们说我们可以做人才评价,可以做人才流失的预判,可以助力人才招聘,也可以做一个人才指数,王院长说他们也在做人才指数,我可以做行业的人才指数,地区的,甚至国家的人才指数。这些都是可以用大数据挖掘的方法做的。
主要讲的是我们可也可以做人才信用的东西,就像我们做的那些,征信是什么呢?征信是促进信用经济发展和社会信用体系建设,能发挥重要作用,他可以防范信用风险,提高经济运行效率,扩大信用交易,推动社会信用体系建设。征信分类我们就可以看出,按征信对象有企业征信和个人征信,服务对象里面有信贷、商业、雇佣征信、其他征信,按地理范围,按征信用途等等。在这里面有一个雇佣征信,比如说我要用人的话,那我们这个就可以做,这个就和人力资源里面有紧密结合。服务对象就是雇主,因为雇主用人,他提供决策支持。
现在世界征信体系基本上有三大类,市场主导型、政府主导型和会员制。市场主导型就是以美国为主,政府主导型就是欧洲国家,会员制唯一的一个国家就是日本。美国征信体系有企业征信,个人征信,个人征信有三大公司,益博睿、艾可菲和环联。这是一些基本的关于征信的东西。
中国征信一共经历了四个阶段,从1980年开始探索试水,起步阶段到发展阶段,我们是在2003年征信成立,他是2003年成立,2004年成立数据库,我们2005年就开始介入,和中国人民银行征信开始合作,2006年开始,实际上我们一共经过了3年的时间。昨天我从网上查到国务院发布指导意见,《加快推进社会诚信建设》的文,这是5月30号发的,就是要建立诚信这么一个社会建设,推进这么一个指导意见,我觉得就更加强我们在人力资源这块,我们可以做,这块是有政策指导的,有政策倾向的。
个人信用为什么可以用数据挖掘来做,个人信用评分为什么和大数据有关系,可以用数据挖掘来做呢?其实本身个人信用评分就是基于个人的一些基本信息和信用数据,运用数据挖掘技术和统计分析方法,根据你所有的个人信用历史和信用行为,从里面挖掘你的信用模式和信用特征,我来把你信用行为用一个分数来表示,对你的未来进行预判。
我们当年和人民银行征信中心当时有6000万的一个记录,数据积累超过了3年,当时也有一些经验,所以我们从2006年6月份就组织了人民银行个人信用评分的项目,他的目标就是要运用数据挖掘技术和统计分析技术,运用消费者的住房贷款、汽车贷款、信用卡等等,挖掘你的行为模式,来预测将来你的违约概率,他要求通用性、准确性、解释性、全面性、高效性。我想这个东西和我们的人才信用怎么结合,我们应该采取什么样的数据,是不是这些数据也是其中的一部分,我们用这个数据或者作为辅助,来做这样的模型,最后我们得到的结果呢?预测其违约概率,给每个客户有一个信用评分,每个分数对应的好坏发生点,每个分数还给你一个解释。这个模型到2010年我们做新闻发布会的时候建立了个人信用评分的模型,K-S指标就是说明这个数据挖掘方法好坏的指标,参考多方意见,设计了多少个衍生变量,并应用这些数据。
我这里面提一个简单的想法,我们人才信用数据和刚才那个信用有一个不同的特点,因为我们的人是有不确定性的,是有复杂性的,是有动态性的,所以这里面的数据,这个模型可能造成我们的方法需要改变,所以这里面大数据挖掘方法我们可能和原来的不一样。如果我们做了人才信用指数以后,或者人才信用评分这个东西以后,我们可能会用到各种场景,因为人才评价、人才招聘可能都会用到这个东西。
我就简单说这些,谢谢各位专家。
各位领导、各位专家,非常荣幸能参加这个研讨会,来学习,说实话,我是人力资源管理这个行业的门外汉,但是因为这么多年我的专业是从事数据挖掘,现在搞大数据挖掘数据科学,也做过很多各个领域数据挖掘的项目。正是因为数据挖掘这个专业的特殊性,因为数据挖掘只有和各个领域、各个行业结合才能显示出他的作用,才能发挥他的作用。刚才听了王院长的报告,以及阅读了他的书以后,我更觉得大数据挖掘在人力资源管理方面还是有可用之处,也大有用武之地的。题目给我定的是数据挖掘在人力资源管理中的应用,我不敢这么提,也不敢这么命名,所以我就写了大数据挖掘与人力资源管理,我在里面提一些自己的想法。
允许做简单的介绍,我来自中国科学院虚拟经济与数据科学研究中心,我们这个中心是2004年中国科学院百人计划石勇回国创立的一个研究中心,一开始叫数据挖掘研究中心,和中科院研究生院管理学院院长成思危先生组织的虚拟经济中心,然后就合并在一起,我们从2004年开始筹建,到2007年挂牌成立。这是我们中心的网站,简称就是FEDS.AC.CN。这个中心是2007年正式挂牌成立的,他是属于中科院的创新单元的一个非法人研究实体,因为我们的体量比较小,就一直挂靠在中国科学院研究生院,现在叫中国科学大学。我们这个中心主要的研究任务就是想致力于用数据科学、数据挖掘、实证方法来研究虚拟经济、绿色经济、区域经济等等,这方面的一些科学现象,从中挖掘出规律来。随着这几年的发展我们中心现在有5个研究室,第一个是虚拟经济研究室,然后是我们的数据挖掘与最优化,为什么我用最优化呢?数据挖掘有很多种理论和方法,我们主要的研究方式是希望用最优化的方法来做这个事情。还有绿色经济、虚拟上午、社会计算与电子健康研究室内。我们现在的研究团队大概有60人左右,包括教授、博士后、学生等等。
随着大数据时代来了以后,我们做数据挖掘的肯定要紧跟大数据时代的步伐,从2014年我们就联合中国科学院大学的管理学院、数学科学学院和计算机学院,我们四个单位联合申报并且成立了中国科学院大数据挖掘与知识管理重点实验室,这个实验室就横跨三个学科,管理科学与工程、运筹学和应用数学,归中科院高级数据来管,属于应用基础研究,归口是数理部。实验室的研究重点,按照大数据的流程来说,大数据的收集我们关注是社会、经济大数据,我们主要有一个自己的重点,在数据的存储与处理方面不是我们的强项,所以我们并不参与这部分。
下面是大数据的挖掘和处理,有很多种大数据挖掘方法,我们有一个主要的方向是运用最优化来做大数据挖掘,数据挖掘以后出来的东西到底能不能作为知识,能不能作为决策,能不能作为管理,这也是我们在国家自然科学基金委的一个创新团队的追求研究项目,我数据挖掘出来的东西怎么来转化成智能知识,怎么来转化为决策,这叫智能知识管理。大数据的社会与经济运用,我们有全国个人信用评分系统,这是我们和中国人民银行证券中心一起做的,历时4年的时间。我们如果办第三代身份证,那里的指纹识别也是我们重点实验室做的。我们还给高层提供一些政策建议,过去5年我们有10几份高层建议都被两届领导批示。
这是我们实验室的主要框架,有四个研究机构,包括从理论、模型预算法以及技术和应用研究室,我们基本深涵盖了大数据挖掘的这四个主要的方向。这是我做一个简单的介绍。
咱们回到大数据,每次讲大数据我都喜欢用这个图片来讲,这个图片就可以把大数据的一些特征给描述出来,说这个人来到一个服务窗口,服务人员就根据他的一些信息来确定你这个人受欢迎的程度是23.5%,根据哪些信息呢?我们可以看出来根据他的亚玛逊的购买记录,再根据他的社交数据,亚玛逊的购买数据就是他的电商数据,还有一些location history,这是他的当地的一些数据。根据数据来源是多样化的,这是第一点,我们就体验了数据的第一个特点,数据来源多样化。第二,我要做决策,要实时,我要很快的给出你受欢迎的程度是23.5%,大数据挖掘的实时性。第三个特征,我怎么会得到23.5%的分数呢?是因为我根据成千上万的我的数据库里的人做出来,说明他的数据量比较大。第四是他的价值,真实的价值,根据这个数据做出一个决策来,这就是体现了数据挖掘的第四个特征,就是他的价值。
这是体现了大数据的特征,同时也体现了大数据时代来了,以后就改变了我们的决策行为,原来我们要做决策,要做管理,普通的服务人员做不了这种决策,现在我根据我的大数据,普普通通的服务人员就可以做这种决策,这个大数据就改变了我们的决策行为,所以和原来是不一样的。这是大数据的一些基本特征,我们就可以说大数据已经到来了,不管是互联网数据,脸书、微信、微博,状态更新,视频,还有照片,以及公共计算,交通数据,监测数据,还有商业服务,电商的一些数据。
这些大数据来了以后就对我们产生了新的运用需求,比如我要做精准广告分析,比如我要做智能交通预测,比如我要做消毒策略的制定,这些东西你产生了应用需求,怎么才能满足你的应用需求,最主要的是除了数据的收集整理,除了数据的ETL,最主要的就是我在建立数据中心以后要做大数据挖掘,这是最核心的部分,所以我们要做数据挖掘,其实在大数据之前就是有数据挖掘。什么叫数据挖掘呢?如果我们能回答这里面5个W问题,如果我们能回答为什么要用数据挖掘,是因为我们有迫切需求;数据挖掘是什么,就是我们要从里面找规律,根本规律办事;谁在使用数据挖掘,有需求的人,比如说人力资源管理,就需要有数据挖掘;数据挖掘有哪些方法?一会儿我有一张片子;下面就是数据挖掘用在哪些领域?比如健康大数据、医疗大数据、智能交通大数据,他可以用在各行各业里面;数据挖掘到底能做什么事情呢?如果说我能在行业里面把这里的应用问题归纳为数据挖掘的分类问题、关联规则问题、聚类问题、序列模式、预测相似时间序列,如果我能把行业里的这些问题归纳为数据挖掘中的问题,我就可以用大数据挖掘的方法来处理。
这就是一个数据挖掘的基本流程,首先进行商业理解,比如人力资源管理,你要做人才流失的预判,要做人才指数的东西,我首先要理解这个东西是什么,然后我才能对数据进行理解,从里面抽取数据,再数据准备,再建一个模型评估,模型发布。我们可以看到他是始终围绕数据来说话的,而且他是一个不断迭代的过程,随着行业的发展,随着数据的变化,我这个数据挖掘可能就要定期更新,这就是数据挖掘的过程。
我刚才说了在之前,在2012年以前,在大数据元年以前我们就在谈数挖掘,现在大数据时代来了以后,大数据时代的数据挖掘有什么新的需求,我们就可以看出传统的数据挖掘技术有很多的困难,比如原来就是单点式挖掘,数据中心,数据库就在一个点上,我要单点式挖掘,难以应对数据的规模和分布式。第二是依存度比较较,第三是实时性比较差。现在我们在数据时代,数据量特别大,又多样化,我们就从集成、离线的挖掘转向大规模并行实时的数据挖掘,这是对我们一个挑战。
我说一下在我们中心成立以来做的项目,这些项目除了第四个,公安部千万人级指纹识别我没有参与以外,其余的每个项目我都是从头到尾跟到底的,所以说我还是有一定的发言权在数据挖掘应用方面。第一个是我们和中国人民银行做的个人信用评分系统,就像刚才王院长说的,我们如果对人才进行信用评价,这些项目的经验就可以用在这里。人民银行为什么要做这个事情呢?人民银行有一个征信中心,他们要各大商业银行定期上报他们所有的数据,所有的贷款、存款数据,信用卡刷那记录都在这里面,他希望通过这些数据对每个之人的信用进行评价,通过以前的信用历史来进行评价,现在我们去打信用报告,信用报告后面的分数就是我们计算出来的,用我们的模型算出来的。现在我们和考拉互联网征信,互联网征信,他们也在做互联网金融,互联网金融一个最根本的基础就是要做互联网征信,互联网征信要的数据就更多了,拉卡拉里面就有一些刷卡记录,有一些投资商的税务记录、工商记录,如何把这些记录,把这些数据整合在一起,在这个基础上做互联网征信,可能面就会更广一点。我们现在还在和春雨医生,春雨医生大家可能知道,在线进行的医疗平台,我们和他们做健康大数据的平台,我们也可以看到在大数据挖掘里面他还是有一些应用的。
下面我说大数据和人力资源管理,我也是看了书以后,在网上找了一些材料,当然比较小儿科了,我们说我们可以做人才评价,可以做人才流失的预判,可以助力人才招聘,也可以做一个人才指数,王院长说他们也在做人才指数,我可以做行业的人才指数,地区的,甚至国家的人才指数。这些都是可以用大数据挖掘的方法做的。
主要讲的是我们可也可以做人才信用的东西,就像我们做的那些,征信是什么呢?征信是促进信用经济发展和社会信用体系建设,能发挥重要作用,他可以防范信用风险,提高经济运行效率,扩大信用交易,推动社会信用体系建设。征信分类我们就可以看出,按征信对象有企业征信和个人征信,服务对象里面有信贷、商业、雇佣征信、其他征信,按地理范围,按征信用途等等。在这里面有一个雇佣征信,比如说我要用人的话,那我们这个就可以做,这个就和人力资源里面有紧密结合。服务对象就是雇主,因为雇主用人,他提供决策支持。
现在世界征信体系基本上有三大类,市场主导型、政府主导型和会员制。市场主导型就是以美国为主,政府主导型就是欧洲国家,会员制唯一的一个国家就是日本。美国征信体系有企业征信,个人征信,个人征信有三大公司,益博睿、艾可菲和环联。这是一些基本的关于征信的东西。
中国征信一共经历了四个阶段,从1980年开始探索试水,起步阶段到发展阶段,我们是在2003年征信成立,他是2003年成立,2004年成立数据库,我们2005年就开始介入,和中国人民银行征信开始合作,2006年开始,实际上我们一共经过了3年的时间。昨天我从网上查到国务院发布指导意见,《加快推进社会诚信建设》的文,这是5月30号发的,就是要建立诚信这么一个社会建设,推进这么一个指导意见,我觉得就更加强我们在人力资源这块,我们可以做,这块是有政策指导的,有政策倾向的。
个人信用为什么可以用数据挖掘来做,个人信用评分为什么和大数据有关系,可以用数据挖掘来做呢?其实本身个人信用评分就是基于个人的一些基本信息和信用数据,运用数据挖掘技术和统计分析方法,根据你所有的个人信用历史和信用行为,从里面挖掘你的信用模式和信用特征,我来把你信用行为用一个分数来表示,对你的未来进行预判。
我们当年和人民银行征信中心当时有6000万的一个记录,数据积累超过了3年,当时也有一些经验,所以我们从2006年6月份就组织了人民银行个人信用评分的项目,他的目标就是要运用数据挖掘技术和统计分析技术,运用消费者的住房贷款、汽车贷款、信用卡等等,挖掘你的行为模式,来预测将来你的违约概率,他要求通用性、准确性、解释性、全面性、高效性。我想这个东西和我们的人才信用怎么结合,我们应该采取什么样的数据,是不是这些数据也是其中的一部分,我们用这个数据或者作为辅助,来做这样的模型,最后我们得到的结果呢?预测其违约概率,给每个客户有一个信用评分,每个分数对应的好坏发生点,每个分数还给你一个解释。这个模型到2010年我们做新闻发布会的时候建立了个人信用评分的模型,K-S指标就是说明这个数据挖掘方法好坏的指标,参考多方意见,设计了多少个衍生变量,并应用这些数据。
我这里面提一个简单的想法,我们人才信用数据和刚才那个信用有一个不同的特点,因为我们的人是有不确定性的,是有复杂性的,是有动态性的,所以这里面的数据,这个模型可能造成我们的方法需要改变,所以这里面大数据挖掘方法我们可能和原来的不一样。如果我们做了人才信用指数以后,或者人才信用评分这个东西以后,我们可能会用到各种场景,因为人才评价、人才招聘可能都会用到这个东西。
我就简单说这些,谢谢各位专家。