- 1、本文档共14页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
RQDA和文挖掘框架包tm结合进行文本挖掘
RQDA和文挖掘框架包tm结合进行文本挖掘应用定性数据分析包RQDA(Qualitative Data Analysis)和文挖掘框架包tm结合进行文本挖掘。在对访谈内容或剧本、小说部分内容进行文本挖掘时,如果用不断的剪粘保存的方法非常繁琐而且容易漏掉一些内容。好在黄荣贵开发的RQDA包可以进行文档管理和内容编码及提取,大大方便了利用tm包进行文本挖掘,既提高了效率又提高了准确性,下面举一个小例子:安装RQDA包、tm包和中文分词软件(分词软件见下面链接);/bbs/thread-853290-1-1.html/bbs/thread-853290-1-1.html现在中文分词软件已经直接放到RQDAtm程序包中(/R/?group_id=137/R/?group_id=137),不需要另外安装。2、装载RQDA包并建立一个新的工程项目;3、输入相关文本文件;4、进行编码和作标记;5、双击想要提取的编码即可提取相关文本;6、运行下面下载的程序进行文本提取、转换、分词、文本挖掘工作。 gg - RQDA2tm(记者 ,mf = FALSE) ggA corpus with 55 text documents------------------------------------------------ ### 去掉多余空格 #### reuters - tm_map(gg, stripWhitespace) reuters[[1]]这个也是临时改的?这儿应该放一个那样的桌子。------------------------------------------------ ## 全文有哪些信誉好的足球投注网站 ## searchFullText(gg[[1]], 是临[时]?改)[1] TRUE------------------------------------------------ ### 查找以某字开头、结尾等的词条 ### stemCompletion(gg, c(财, 政, 部)) 财 政 部财政部就是替政府花钱的 ------------------------------------------------ ### 元数据管理 ### DublinCore(reuters[[2]], title) - 建国60周年 meta(reuters[[2]])Available meta data pairs are: Author : DateTimeStamp: 2010-07-15 02:06:27 Description : Heading : 建国60周年 ID : 2 Language : eng Origin :------------------------------------------------ ### 创建词条-文件矩阵 dtm - DocumentTermMatrix(reuters,control = list(minWordLength=2))##最短词两个字 inspect(dtm[1:2, 3:6])A document-term matrix (2 documents, 4 terms)Non-/sparse entries: 0/8Sparsity : 100%Maximal term length: 5Weighting : term frequency (tf) TermsDocs 10000 12 120 1966 1 0 0 0 0 2 0 0 0 0------------------------------------------------ ## 操作词条-文件矩阵 ## ## 1、找出最少出现过3次的词条 ## findFreqTerms(dtm, 3)[1] 政策------------------------------------------------ ## 2、找出与应该相关度到少达0.6的词条 ### findAssocs(dtm, 应该, 0.6)0.11 应该 桌子 临时1.0 1.0 1.0 0.7其他看上面的链接中的内容,其实生成词条-文件矩阵后还有许多工作可以做,比如用支持向量机进行文件分类、话题分类、根据话题用词频率分析作者所熟悉的行业等等……民网 时政 时政专题 网友进言/GB/8198/138817/index.html/GB/8198/138817/index.htmlMetaID fname fid1 0 公安部答复本网网友关于轻微交通违法处罚等4问题 12 0 公安部答复本网网友关于驾龄计算、异地购车上牌、老人驾车等8问题 23 0 公安部答复本网网
文档评论(0)