- 1、本文档共41页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第四届 “泰迪杯”
全国数据挖掘挑战赛
优
秀
作
品
作品名称:网络招聘信息的分析与挖掘
荣获奖项:特等奖
作品单位:湖北工程学院
作品成员:贾园园 蔡黎 饶希
指导老师:张学新
第四届 “泰迪杯”全国数据挖掘挑战赛
网络招聘信息的分析与挖掘
摘要:网络招聘凭借其信息传递速度快、空间距离小、成本低廉等优势,已成为招
聘者发布和应聘者获取信息的主要渠道。因此,对网络招聘信息进行分析研究,了解社
会和相关行业的需求特点与趋势,为广大求职者提供正确的就业指导有着非常重要的意
义。本文将基于数据挖掘技术对某招聘网站发布的50 多万条招聘信息数据进行内在的
信息挖掘,提取我们需要进行分析的部分进行深度挖掘和分析。
3
针对问题一:本文首先将附件 中的非结构化数据进行去重去空、中文分词及停用
词过滤等数据预处理,然后基于TFIDF 权重法提取50000个候选特征词,形成词袋,构
造词汇-文本矩阵,由于这种方法具有高维度,高稀疏度以及同义词影响的缺点,因此,
LSA SVD -
本文进一步利用基于潜在语义 ( )分析的奇异值分解算法 ( )对词汇 文本矩阵
进行空间语义降维,语义压缩后的文本向量被认为投影在了同一空间里,再通过k-means
聚类算法对职位的职业类型和专业领域进行划分。
针对问题二:本文将附件1 中结构化的数据数值化处理后,运用主成分分析法构建
综合排名算法得出各个热门指标的排名,进而对各个指标的未来人才需求走向进行可视
化分析,引入时间因素预测短期人才需求走向;
针对问题三:本文将所有大数据相关职位筛选出来,深入分析其需求增长趋势、行
业分布情况、地域分布情况、行业职位特征、行业薪酬情况以及技能要求,对其进行可
视化展示,并运用关联规则挖掘对其各个指标的内在联系进行剖析。
针对问题四:文本另外抓取了58 同城的网络招聘信息,通过计算TSI人才紧缺指数,
深入分析了IT行业在地域、职位、学历方面的供求现状。
最后我们根据目前统计学人才培养方案与实际行业需求的差距,提出针对性建议。
关键词:TFIDF;奇异值分解;K-means文本聚类;主成分分析;关联规则挖掘
1
第 页
第四届 “泰迪杯”全国数据挖掘挑战赛
AnalysisandmineofNetworkRecruitment Information
Abstract:Network invite applications for ajob by virtue of its information transmission
advantages in speed, small space distance, low cost and so on, has become the released
recruiters and applicants to obtain information from the main channel. Therefore, it is very
important to analyze and study the network recruitment information, to understand the
characteristics and trends of
文档评论(0)