百度人力资源大数据应用实践
百度人力资源系统与运营平台高级经理王崇良在2016年6月17日“大数据人力资源宏观管理应用技术创新研讨会”的讲话
各位领导、老师:
大家好!
我这块讲的主要是在一个企业人力资源大数据方面如何实践和应用的,谈到大数据肯定要牵扯到信息化的建设,我们的系统建设如何其实取决于数据的完整性,包括系统之间互联互通,入离升降调,选用育留辞,各个系统之间是如何贯通,如何打通,如何用一套语言沟通,如何确保整个数据的完整性,是动态的,还是静态的。
我们分三个时代来做这样的事情,首先在1.0时代的时候关键词是静态和结果,2011年之前百度的信息化建设是1.0时代,那时候更关注的是发薪要正确,入职、离职要按时,要及时,更关注的是事务性的工作,这时候人力资源关注的,或者公司关注的是结果,人力资源的服务也是点对点的,比如入职办完了,离职办完了,OK了,这个结果就交付了,所以是我们整个状态,整个人力资源的状态,HR对企业的贡献基本上也是被动的,人力资源的高官经常被挑战,这么多人做什么事,你们干什么吃的。
在这样的背景下,我们在2012年做了全面的升级换代,从事务性的管理到整个人力资源全流程的建设,整个建设可能包括入离升降调,关停并转,包括选用育留辞,整个阶段的建设。整个阶段建设完成了以后,我们可以从原来静态点对点这样一个交付的服务到全流程的,端到端数据流转的这样一个全流程的过程。同时在报表的层面上我们也做了立案数据分析,驾驶舱、仪表这样一个盘情况的改善。
这样的情况下,我们做了一些数据埋点,做数据收集,只是做了一个数据收集和清理初级的阶段。我们做了一个基础,未来这个阶段怎么样去做大数据的分析呢?肯定有数据的积累,通过2012年、2013年、2014年三年数据的积累,我们在2014年底开始研究大数据的探索,我们自己内部的讨论,至少三年规范的数据你才能开始尝试做这样的数据分析,话又说回来,人力资源的数据能不能达到大数据的规模,我们至少要达到PB这样规模的数据才称为大数据。BAT三家我们做了一些交流,包括华为,人力资源数据做了一些交流,人力资源各个企业的数据基本上也就几个TB,BAT三家分别,可能也就是TB,华为有16万人,数据量相对来讲可能要大一些,我们这边做的相对来讲起步在BAT里稍微早了一点点,所以我们数据积累比他们多几十个T的水平。这块我的观点是我们可以利用大数据的方式、思维方法来探索人力资源小数据方面的应用。
2015年的时候,我们开始百度的SmartHR,智能化,我们其实在2014年底和2015年初就提出这样的规划,叫四化,一个是数据化,就是今天的主题,明事实、察问题、拉预警,报预测,这四个层面去做。同时在社交化、移动化层面也做了很多的升级换代,底层就是信息化的基础,进行数据的收集清理,大数据的平台去做。通过这样的建设,有底层的建设到数据化,到中间Smart HR,怎么样去助力业务,怎么样去帮助高管,帮助管理层做这样的决策。这是我们的架构,从2015年、2016年我们一直在致力于这样的建设。
这块实际上是我们的大数据平台,这个大数据平台是基于过去几年的数据积累,在去年的时候我们提出这样的业务架构,我们开始搭建,这块基本上从业务的角度分三块,一个是数据收集阶段,我们各种业务系统,靠HR,人力资源入职、离职,选用育留各方面的系统。这块可以理解成数据收集的接口,无论是通过结构化的数据还是非结构化的数据,各种评论。
在数据分析层面,我们做了一些模型建设,当然我们也搭建的指标体系,分了5个维度,200多个关键的指标,从人才管理、运营管理、组织效能,文化活力和舆情分析四个层面,这里面既有结果化的数据,也有非结果化的数据,他们之间的占比,我们通过一些调研和对标交流,基本上30%到40%是结构化的数据,非结构化的数据要占到60%、70%的层面,这是在企业内部来讲。通过这些指标体系的建设,在这之上,我们是一个表述层,给关系层提供的用户画像,提供了一些报表,对于我们企业内部来讲用户画像等多,因为百度是一个技术导向的公司,所以我们内部叫工程师画像,工程师他的水平如何,来自哪些学校,提交的代码量如何,平均水平如何,他的绩效如何,在一张表里就可以看到,他在他这个级别里排名第几,是前十名,还是低于平均水平。他晋升到下一阶段还需要哪些能力,需要提高哪些课程都可以在这个用户画像里看到。
这个层面是跟管理人员做这样的评判。最后有一些报表产出,我们的数据基本上是昨天晚上的数据到第二天早上,每天晚上刷新,到第二天早上这些总监级以上的基本上能实时看到这些数据。
这块是一个逻辑架构,整个系统的搭建,这个系统的搭建其实我们在2014年就开始了,我们从2015年底又重新做了梳理,因为你要做大数据的分型研究和我们传统BR的分析还是不太一样,大概有60%到70%的非结构化的数据引入,如何去处理,如何做,这之间怎么贯通,怎么样打通,从逻辑上是四层的架构,底层可以理解成数据收集,是系统建设层,系统建设是互联互通的,这块我们在2013年、2014年的时候已经贯通了,打通了所有的系统。百度除了数据(call H2)这个核心的系统之外,我们外挂了几十个自己开发的系统,这些系统之间怎么去打通,数据怎么样去自动的流转,在底层上首先是贯通的。同时还必须和业务系统打通,否则只有人力资源的数据,是没法评价,或者没法给企业产生效能,至多是做一个参考,财务系统和代码量系统和业务系统,我们之间会有打通,当然数据内部的交流还是有壁垒的,但是我们在尝试去做这样的事情,在逐步的打破这个壁垒,进行数据之间的交换,所以这块一直在不断的迭代。数据这一层面不用细讲了,有各种数据确保保证,各位老师都是专家,最后一层是表示层。
这块是我们这几年的分析之路,数据建设之路,刚才提到我们明事实、察问题、拉警报、报预测,其实我们在整个的架构上,从业务的价值和战略支持上我们是这样的过程,包括明事实,过去数据我们能看到什么,根据过去的数据,我们通过建模,通过机器学习,搭建,他来分析,找其中的关联关系,而不是我们去假设再去印证。通过对今天的数据做校验调整,及时的去观察,及时的去分析这些数据,并及时的调整模型,从而对未来这个数据做一些预测。
这块是说我从选用育留这四个层面上来讲,我们大数据平台需要挖掘哪些数据,或者说我们需要哪些数据去做,这块我是举了一个例子,在选用育留上可能需要这些数据来挖掘和分析,这个就比较具体了。这里简单举了个例子,我们从2011年之前,这张图展示的是2011年和2012年的时候我们的一个仪表盘,包括离职起配率,关键人才占比,包括调入调出升职、降职,他可以通过播放器的形势,动态的来展示这个数据。这个图是展示2013、2014做的,我可以知道人才分布的情况,我从入职以及在职的流动情况,内部的流转情况,以及流出,离职以后去了阿里还是去了腾讯,入职的是从华为来的多,还是从中移动来的多,我们会有一个动态展示,内部叫人才迁徙地图。右边的部分展示三张图,左边部分可以看到调转的情况,你内部自己人才分布情况。
我们还可以看到公司画像的截图,我们可以对人才进行比较,我们在选拔的时候,内部晋升的时候,可以像选汽车一样,把同类汽车放在一起,看每个人的特点是什么,分成四个,左下角就是四个人才去选拔的时候,一个直观的比较,在各项指标上大家是什么样的情况。
这里我举了一个人才画像的例子,左边那个图是完整的,右边是个性的特点,这边是把人物的情况、喜好、个人全貌展示出来。这是人才截图,我们叫才报,这块是一个截图,包括人才迁徙、离职分析、入职分析,这还是传统意义上的,我们的大数据平台本身除了这个之外还有其他的一些功能。举一个大数据场景,比如说360度评估,2014年底的时候我们第一次去尝试用大数据去解决360度评估Peer的选择,怎么样合理,大部分是上级主管来指定,或者HR协助判断。我们能不能说通过系统,通过智能化的判断和你关系紧密的10个人里,再去让老板选,这样是不是更客观一些,我们通过内部沟通,我们用内部的沟通工具,内容不看,因为牵扯到隐私,但是我们会看频次,你沟通的频次,你沟通的时段,这些数据是可以分析的,包括邮件,包括大小,包括会晤,这些之间的数据是可以抓过来的。我们去判别,内容我们是看不到的,只是分析这些频次大小数量,我们通过系统去推荐,当然我们还有规则,比如你是管理层,你是专业序列层,你是做销售的,也是不一样的模型去做的,建立这样的模型以后,我们在2014年底的时候,360度评估对Peer选择是通过系统推荐,当时李彦宏说他要选12个人,我们通过业界的评判可能7个人更合适,最后PK的结果是选10个人,让领导决定几个人给他真正做这个评论。
这是我们当时做的一个模型,如何做的,量化等等,当时的一个模型。在2015年的时候我们也做了一些其他的探索和尝试,包括离职预测,我们核心人员,哪些人员有可能可以提前30天,提前一个月,或者提前两周,我能知道,或者是他离职的可能性,他有这种预判,我们通过把这个建模,包括验证,通过一年的研究和探索,基本上这套东西,再应用1.0的版本上,这块我们对核心人员的预测和关注也在做。
还有高潜人也在做,还有管理风险,今年也在尝试做。比如我选一个产品的业务方向,领头人,那很关键,如果选张三去,选李四去,还是选王五去,领导犹豫不决的时候,我们可以通过系统仿真,我把他放在这样的环境里,或者放在这样一个情况里,他能不能胜任这样的角色,当然这个产品我们在探索和研究,还没有上线,今年正在探索。通过仿真去选拔领头羊,在不同的地区,不同的环境下怎么样开发新的市场,这是关键。
当然在一些绩效,在校招选择,在人才选拔,人才选用育留上,我们也做了一些其他的探索,包括人才地图,老板比较关注,我们也做金融,我们也做一些信息安全,我们也做大数据,这块人才如何吸引进来,人才地图,这方面的人才,他们分布在什么地方,比如说大数据的,银行金融领域比较多,作为我们企业来讲,我们怎么样把这些人吸引到百度,吸引到腾讯,吸引到阿里巴巴,其实大家都在做,他可能正在探索,或者说他通过大数据的方式知道这些人才分布在哪里,他有的放矢的去挖,去联系。这是我们正在做的。
今天我基本上是从企业内部的角度怎么来看大数据在人力资源这个领域的一些实践和探索。谢谢。