招聘大数据-人才大数据的实践、机遇和挑战
演讲嘉宾:单艺
速记整理:王宇熙
大家早上好,非常感谢大家来听我的工作分享,我要感谢China Hadoop峰会的邀请,有机会讨论我工作中做的事情和对未来的展望。我自己的背景是学机器学习和数据挖掘的。
经常有朋友问我你一个学机器学习数据挖掘的为什么去做招聘,这个是我在交流活动中经常遇到的一个问题。那我想一想,这个可能是来源于04年的一部电影,在04年的时候国内有一部电影,那时候我还在美国.它很有意思,叫天下无贼。不知道台下多少人看过这部电影。里面有一句重要的话,21世纪什么最贵,答案是人才。 今天已经有很多人认识到了人才是很多企业的核心竞争力。另一方面讲,人才数据,像猎聘这样的网站它积累了大量的人才数据,有很高的价值,在此基础上我们做数据挖掘和分析的人就可以做很多很有意思的事情。
大家看一下猎聘的大数据的基础,猎聘是一家做中高端人才招聘的网站。目前为止,我们有2700 多万的注册用户,我们服务的企业有40多万家。平时我们在线的职位有企业的职位也有高端的猎头发布的职位70多万个,每天我们的数据流水线可以收集到近亿条的日志,有各种各样的事件,所以这个是我们的数据基础。在上面那张图上你可以看到我们在猎聘网上核心的一些元素。在最左边是我们的用户,C端,就是我们的候选人,在最右端就是我们的企业,就是我们的用人方。上面中间就是我们的猎头,这是猎聘独有的特点,就是我们把猎头融入到整个招聘的环节中而且把它线上化了。猎聘是第一家, 并且目前是中国最大一家实现这一点。
底下一个部门叫GCDC, global career development center, 它的作用就是来联系用户和企业,将双方更好地撮合帮他们发现对方。所有里面产生的这些数据,比如说一个人在网站注册后留下的的简历,还有当你开始搜索和浏览职位时,所有的这些行为我们都将记录下来。同时企业发布的职位信息,企业本身的信息还有我们一些GCDC的小伙伴们,我们跟双方进行沟通的这些信息数据包括语音,我们销售的语音信息数据全部留存下来,所有的这些就构成我们的大数据的基础,在这个基础上我们就可以做一些很有意义很有意思的事情。
我们首先来讲讲我们去年做的一个项目,叫猎聘伯乐。伯乐这个词大家都明白,中国有句古话叫千里马常有而伯乐不常有,因为有的时候一个人才如果没有人帮助把他发掘出来,把他推荐给用人方,他很可能就埋没了。所以这个项目里我们的目标就是怎么自动的用高效的算法帮助企业找到他所需要的人才。传统来讲,企业的HR要自己去搜,自己去看简历,这是一个非常费时费力而且对HR有很高要求的工作,尤其是中高端职位,它是有专业性的要求的。比如在招聘大数据人才的时候我们往往要跟HR解释什么样的人是大数据人才,我这边需要什么样的人才,因为大家企业都是不一样的,所以做好这样工作意义非常大。我们用的是什么呢,我们用的主要是数据还有机器学习的方法。左边是我们基础的数据,就是企业发布的一些职位,还有我们对它的数据进行分析之后形成的公司的这样一个模型。上面呢有用户模型,用户模型可以解释成一种深度的用户画像。这里面我们对用户关键的信息,他的求职意向,他的工作领域,他的技能,他的职级,都做了很详细的量化分析。在这个基础上我们用了多个策略,比如文本相似策略,居正分解,技能匹配这些策略,这些策略,你可以认为它是相对简单的模型的算法,中国有句老话,叫三个臭皮匠顶过一个诸葛亮。每个算法都不是那么聪明,但我们把他们合起来就能得到一个比较不错的结果了。把这些结果融合起来就可以把他推荐给猎头。这个系统上线以后效果还是不错的,可以达到一个初级猎头的水平。因为找工作,找人才这件事情是一个很复杂的事情。我们距离人还是有一点差距,但是我们现在已经可以大规模使用了。那这个系统上线之后我们很happy,但结果出现一个风波我都没有想到,为什么呢,上线以后我们的GCDC部门,他们以前的工作就是帮助企业找简历,那后来发现说机器开始推的准了,他们工作的KPI开始受到一定影响了。因为他们好多KPI都是我们企业要找多少人,我们机器推的又快,虽然没有他们准,但是有新的CANDIDATE出来,有新的职位出来,我们立刻就可以推人。这让他们感到很不安全。所以当时他们找到我们的产品经理,开始聊,这个能不能在我们管的职位里面停一下。我们感觉说这个好像传说中的terminator来了,机器要开始吃人了。这个也是我们的工程师想事情也不太周全。后来我们跟GCDC进行交流,最后我们想了一个办法,这个也是未来一个视野。机器可以做一些相对容易重复性的工作,但对经历的不确定性,和沟通要求比较高的地方,在目前这个阶段,机器仍然不能胜任,所以呢我们和GCDC部门商量,我们联合起来背这样一个KPI,给客户推荐高质量的简历这件事情,然后由GCDC进行沟通,算法呢做一些比较琐碎和累的事情,这样的话我们最后很愉快地又在一起了,这个稍微谈远一点就是最近有阿尔法狗打败了李世石这样的围棋高手的事情,这个不仅在我们做机器学习的圈子里面引起了很大的轰动,包括很多人都对这个事情感觉到恐怖。我经常遇到甚至有做神经科学的博导过来跟我聊机器学习是不是5到10年就可以超越人类了,其实我觉得没有那么乐观,我觉得机器智能将来会是持续发展的,但人仍然有人的优势和长处,比如人对于复杂概念的理解,对于沟通,对于不确定性情况下的推理,人有非常大的优势。所以机器是不会完全取代人的机器和人会形成一个互补协作的关系,所以我想讲一下我自己的理解是说未来的社会里面会形成人机器协作这样一个关系,同时机器会代替掉一些低端的职位,高端的复杂的工作仍然有人来做,而且会创造更多这样的机会给大家去做。
另外一个是我们做的一个项目,这个我们做的更早一些,是我们做的职位推荐,我们给企业推荐人,那另一端用合适的算法我们也可以给个人推荐岗位。我们这个功能已经做到手机上面如果大家在手机上面装一个猎聘同道,打开第二个这个app就是我们做的算法提供的合适你的职位,通过这个职位呢我们只需要你的基本的一些信息,你的履历,你的一些行为之后,我们的算法立刻就可以跟上去推荐你需要的职位,而且可以不断的学习,越推越准。
我曾经把这张图推到某个著名的CTU的群里面,本来大家聊得挺高兴的,然后看到这张图,大家都不说话了,后来有人冒出来说我得去找猎头了。所以他的算法类似的原理也是通过用户基本信息,职业基本信息还有你的社交网络的分析,然后通过策略最后进行计算和融合,最后推荐出一些职位出来。另一方面我们在App里面还在做人脉的发展。在职业发展中遇到一个对你有帮助的人会有很大的价值,因为他能够给你带路,给你介绍机会,在我们的这个app里面也提供了这样一个服务,根据基本的这些信息我们去分析你所在的行业职能,你的社交关系和你的社交倾向,通过这些算法算出初步的结果然后进行融合,最后生成右边的这个关系,这是一个关系矩阵。通过这个算法上线以后,我们的人均邀请量是以前的四倍,转化率也提高了50%。再讲一点就是我们数据分析方面的应用案例,首先就是我们对这个数据会做很多深入的挖掘和分析,我们主要用的就是自然语言处理的技术,比如对职位,用户简历,公司信息形成三个相应的画像,我们叫三大画像。接下来,把用户的行为实时融合进去,进行交应起来,那就可以得到一个中国各行各业的中高端人群的行为一个特点,包括企业的行为,个人行为,接下来就通过经典的数据处理的方法,分类聚类降维这些具体的统计方法就可以形成分析报告了,接下来我们展示一些有趣的分析结果。在讲分析结果之前我们先介绍一个产品,就是我们的数据库,用户会在上面填写他的工作经历还有心得方面的现状和要求,基于两千七百多万用户填的数据我们可以对各行各业的薪酬进行一个详细的统计和研究。得到这个数据库可以给企业,目前这个产品主要给企业使用。他招人的时候会定薪定酬,这对各个企业都是很重要的事情。那我们就可以给企业提供一个更加客观的更加实时的数据,这个产品里面非常细分,比如互联网里面可以细分出互联网金融,OTO这些比较新的,然后我们的技能方面我们也可以把工程师分出THD工程师,Java工程师,财产工程师,而传统的里面只能做出比较粗的比如工程师,或者产品经理这样子,同时可以提出一些数据可视化的界面更方便大家的理解,这个薪酬数据库我们是一个季度更新一次,所以比传统的更快,因为我们知道传统的像做调研是一年更新一次。大家知道尤其像互联网领域发展的非常快,你用一年年的数据去定薪定酬肯定是错的。接下来展示一些我们用数据分析得到的一些有趣的报告。在去年的时候,我们分析了一下互联网行业,那时候互联网行业很火,现在仍然很火,那么从企业发布的职业需求和企业HR的行为来看到去年6月的时候互联网行业的指数是其他行业的三倍左右,所以是特别的旺盛。同时它的供给并没有比其他行业多多少,所以它的人才缺口是非常大的,然后互联网行业里面比较热门的职位有哪些呢,排名第一的是传说中比较苦逼的码农程序猿,为什么呢,因为去年创业多了,许多企业想法也多了,想法多了就差一个程序员。所以程序员的需求是很旺盛的,而互联网又是一个重用户体验的行业,所以需要产品经理来打造用户体验,接下来呢中国的互联网有特别重视运营,所以运营的人员排第三,这些都是真实的数据在背后支持的,就可以看出互联网行业最热门的职位是什么。大家在选择职位的时候可以考虑一下。还看到一些人才流动的现象,其实在去年的时候大批的人才从传统行业向互联网转移,这样的趋势是非常明显的。这张图里面的蓝线就表明是流入,可以看出互联网的流入是非常高的。还有一部分是大家都会关心的薪资,虽然谈钱伤感情,但是我们肯定都关心。跟传统行业相比,互联网行业的薪资发展的非常快。你会发现他工作三五年以后,他的薪资就明显的高于传统的企业了。所以从薪资的角度看来,入行入互联网仍然是一个很好的选择。还有一个是教育,我们抽取了一部分高薪的,就是50万以上顶级的程序员工程师都来自哪里。排名第一的是清华,第二是北京大学,去清华北大都会拿这个调侃他们。其他的都是大家熟悉的著名院校,但另一方面大家看到这些占比都并不高,其中最高的清华不过1.6%,所以在互联网领域里面做程序员真的是英雄不问出身,只要是技能强,学校可能只是最开始有点影响,后面影响不大。另外看一下职业发展,关于某个具体的职能能够提供很多有趣的洞察出来。这个也是去年做的一个关于数据分析师的一个需求分析,我们可以看到在在14年1月份的时候在猎聘网上只有两三百个数据分析师的职位,但是到15年的8月的时候已经有2500,其实我们还有11月的最新数据,我们没有把它拿出来,11月的时候应该是接近4000了,所以就是分析师这个需求是暴增的。因为大数据来了么,国家也在讲,各行各业的数据也有积累了,大家也意识到这里面有价值可以挖,所以需求是暴增。然后企业对于分析师提供的薪资方面跟其他职位比较是有优势的,就是它愿意给好的分析师比较高的薪水,可以看到分析师在起步的阶段的平均薪酬和其他职位差不多,但过了三年五年之后差距就愈来愈大。所以如果能够成为一个分析师是一个很有前途的发展方向,还有我们把发出来的文本做关键词抽取,主要是技能词方面的关键词抽取,然后做出一个灵图,就能看出企业在招聘分析师的时候需要什么样的技能,这个对于你的学习,对于培训机构都非常有参考价值。这里面第一还是数据分析,接下来有数据挖掘,还有一些与业务有关的,比如需求分析,比如统计和销售。通过这个可以帮助自己安排一下学习,提高一下自己的技能。
好,谈完我们做过的事情之后,我们谈谈未来的一些展望。我觉得人才大数据领域里面还有很多机会可以挖,有的甚至是一些不错的创业机会。我来谈一下我的想法。传统的企业里面HR工作分六大模块,第一个是人才规划,我要准备为了企业的战略目标我要招什么样的人,招什么样的人在什么地方找人都是要有一定依据的。以前是没有依据的,没有很好的方法去做,现在有了大数据之后我们可以对行业的人才数据进行一个分析,帮助你做科学合理的规划,接下来在人才招聘方面,我们举得一些例子已经介绍了人才数据和算法帮助HR进行高效招聘的一些案例,还有当你员工来了以后内部做培训,培训怎么做,是大家都上一样的课么,也不一定。根据各种各样人的特征和培训的效果我们可以设计一些模型和培训的program.员工的工作有好有坏,这就涉及到一个绩效的问题,大型的企业都会关心,什么样的员工是高效的,这里面就可以用一些数据分析的方法。我们也曾经做过一些分析,就是success factor,能够看出哪些销售真的能够在这个公司里面做出比较好的业绩跟他的背景和行为特征是有很强的一些关联的,还有薪资激励,我们可以用前面讲到的薪酬报告。最后一点是员工关系,其中一点是流失风险的预测,因为高级的人才是不缺工作的,外面的机会很多,那这种人是不是有流失的风险呢?这通过数据也是能够看到的。我们曾经给某个大的互联网企业交流过,他们已经在背后看员工在浏览哪些网站,然后做一些分析,有的人能看出流失的风险有多大。通过看外面的机会怎么样,员工的投入怎么样这个模型出来应该是很容易预测出来是不是有风险的。这个是企业方面,然后个人呢,个人有几个大的问题。第一个是选择,你的选择可能比你的努力有时候影响更大一点,这时候看到真实的数据,比如说职业发展报告,你可能更清楚自己合适的方向在哪里。另外在求职的时候,你可以用一些职位推荐的服务,可以不用花什么力气就能找到自己很感兴趣的职位。接下来,咱们自己都要学么,学的时候看看职业发展报告,看看哪些技能对我来说发展是最有利的。最后一点是职场社交,可以用这些人脉推荐的工具帮助你找到对你职业发展有用的人。这里面举一个例子,是关于教育的,去年的时候去华南理工交流,我们就临时简单地抽调了一些华南理工毕业生的情况,我们追踪到差不多20年左右老校友的情况,可以看到有不少人走上了很好的管理岗位,然后也有很多做工程师的,因为它是一个理工科学校。接下来你会看到很多跟建筑工程,跟房地产有关的职位,原来我不知道华南理工的强项在哪里,看了这个表之后,我们就猜华南理工的房地产,建筑会很厉害。跟他们的老师一交流,他们说对的,在华南地区他们的房地产,建筑是最强的,所以这个数据就验证了 他们的优势。然后我们当时又拉出来一个关于钱的数据,广东著名高校的薪酬的比较,排名第一的是中大,第二是华南,接下来是暨南大学。原来我对这个排名也不太清楚,看完这个图我就清楚了,给他们展示的时候,同学老师们也非常认可这个事情,可以看出这个和他们当地的学校排名还是有强关联的,这是一些很有意思的数据。像刚才谈到教育的话是说人才大数据对学校的专业规划是很有帮助的。因为现在的教育很多都是要面向应用面向市场的,那市场的需求在哪里,看看这些真正的从企业招聘需求中总结出来的报告对专业设置和课程设置是有帮助的。细节一点,哪技能是企业真正关心和需要的。就业指导也是类似,上面的这些报告都能起一些指引。另外非常有趣的一点是校友关系,我们是做中高端的,中高端的人才是需要一定时间积累的,这时候我们可以追踪到很多高校的老校友发展状况,比它的校友办公室追踪的数据还更多,更深入一些。同时我们的app像同道的人脉推荐里面不仅有同行,还包括老同事,和同学的推荐。我们经常听到用户的反馈说喔,通过这个我找到了我失散多年的老同学,又联系上了,这个是很有惊喜感的事情,我们觉得很有成就。对于政府和社会来讲,就业是各级政府都会关心的一个话题。那么政府在做产业规划的时候也要看看本地的人才是怎样,看看这个地方到底是适合发展哪些产业,尽可能利用这个地方有强竞争力的这批人,这样对这个地区产业的发展有帮助。另外也可以做教育优化,人才资源的优化。最后一点是跟经济的统计和预测有很强的关联。一个地方的兴衰和它的人才是有很强的关系。我举个例子,去年六月份的时候我们的分析师在做各个地区全行业的人才流动情况时候就发现东北这个地区的职位在快速的下降,东北的经济肯定出问题了。到了八月份的时候,国家那时候开始出一些新闻反映东三省的问题出来。所以人才的数据是非常有用的先行的信号,对经济统计和预测来讲,这方面仍然是一个待开发的领域。如果说台下有一些老师或者做这方面研究的人我非常愿意一起合作做方面一些事情。讲完了机遇以后呢,我们讲讲人才大数据的一些挑战。我们的这个工作其实是蛮有挑战性的,有很多困难。第一个讲是缺乏有经验的人才,数据人才的培养需要一段的时间,它相对来说是一个比较新的领域,中国国内的积累是比较少的,像我们这边都很需要很好的大数据工程师,做机器学习的,做数据分析的。打个广告哈,在做的如果有对猎聘做的事情感兴趣的,可以直接找我来聊一聊,我们很缺乏有经验的优秀的人才。技术上来讲,我们做这些模型它的统计性能,它的准确率在高噪音的状态下,因为大数据典型是个高噪音的环境,如何保证它统计的性能仍然是在技术上有挑战的一个课题。接下来就是模型的可解释性和合理性,机器学习里面会有很多模型的算法做出来以后它的效果不错,但当你给业务讲的时候,拿这些报告给别人解释的时候仍然是会有挑战的,因为有些模型是很复杂的非线性的模型,而且保证里面内部的一些合理性在很多情况下都是一个挑战。还有经济成本,我们怎么样低成本的获得数据,我们现在能收集到一些数据,猎聘有两千七百万的用户,但是还不足以是全部的,我们还是想获得更多的数据,这是一个挑战。还有永远跟大数据关联在一起的就是隐私和合规性的问题,用户在网站上的信息到底开放到什么程度这个是需要大家仔细思考去做的。目前猎聘是提供了很强的隐私保护,我们有十几项隐私保护的功能,你甚至可以一键隐藏,就是在上面谁也看不见,你自己偷偷看机会,所以隐私的问题我觉得是做跟人有关的大数据都会面临的一个挑战。刚才就是简单的介绍了一下猎聘大数据研究院做的一些工作和对未来的一些展望,谢谢大家,谢谢大家的时间。
以上就是单艺先生的演讲内容,相关PPT下载请点击【查看】。
本文版权由CHINA HADOOP大数据资讯网与演讲者共同拥有,转载请保留原文来源链接及公众号信息,违者必究。
China HADOOP Summit 2016 上海站将于7月29日30日在上海市召开,现向业界召集演讲。有兴趣的朋友请联系我们。
-
大数据生态系统 大数据安全;存储;YARN;HDFS命名空间等;
-
大数据与工业4.0 电力、电网、能源、炼钢等;
-
大数据与电子商务 国内互联网主流电商企业应用与架构分享
-
金融大数据 银行、证券、个人征信、企业征信、量化投资与大数据
-
智慧城市与大数据 交通、医疗、安防、税务工商、旅游等
-
计算引擎与实时计算 Spark、Tez、Impala、Flink、Google Mesa、 Storm、Fafka等
-
大数据即服务 Azure、AWS、阿里云、Docker/Container、Mesos等
-
NewSQL/NoSQL ·HBase/Druid;MongoDB/CouchDB;VoltDB;SequaioDB;Hana等
-
数据挖掘与图计算 R语言、GraphLab、GraphX、OrientDB等
-
数据仓库与可视化 EBay Kylin、LinkedIn Cubert、QlikView、Tableaue等
-
大数据创业与融投资 分享大数据领域的创业团队和故事