- 1、本文档共78页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
北邮郭军web有哪些信誉好的足球投注网站chapter2研讨
* WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC * WIR WIF WIC 常用核函数 多项式核函数 径向基函数 Sigmoid函数 特征选择 文本聚类和文本分类都以词作为基本特征来描述文档 高维文档特征不仅带来高额的运算开销,而且会产生由训练样本不足所导致的模型不可靠或失效的问题 特征降维非常重要,特征选择是方法之一 两类特征选择算法 包含算法: 从空集开始选择越来越多好的特征,直到适当为止 排除算法: 从初始特征集开始逐步排除差的特征,直到适当为止 包含算法 算法 1) 对每个词,计算其类区分性测度 2) 按区分性测度对词进行降序排序 3) 保留最好的n个词作为特征用于表达文档 各个词的类区分性一般是独立计算的,因此这类算法具有贪心(greedy)的特点 区分性测度是关键 常用测度包括χ2、互信息、Fisher鉴别指数等 χ2 测度 以二类问题为例,设 k00, k01分别为不包含/包含词t的类0中文档数 k10 , k11分别为不包含/包含词t的类1中文档数 n = k00 + k01+ k10+ k11 P(C=0) = (k00+k01) / n … 定义 χ2越大,类与词之间的相关性也越大 互信息 通过互信息计算文档类与词之间的相关性 互信息通过P(x,y)对P(x)P(y)的偏离程度对随机变量之间的依赖程度进行测量 如果随机变量X和Y相互独立,则对于所有的取值x和y P(x,y)/P(x)P(y)=1 因此,定义互信息为 Fisher鉴别 以二类学习问题为例,令X和Y分别表示一类向量的集合。向量的元素可以是令向量长度归一的实数 Fisher鉴别在寻找一种映射α*,它使得X和Y两个数据集被映射到二者质心间的距离相对集合内数据的展开幅度达到最大的方向上,即 令S = (SX+SY)/2,当S-1存在时,α = S-1 (μX-μY) 是一个解 Fisher鉴别指数 Fisher鉴别是一种变换,具有破坏特征稀疏性的特点 将每个词t都看作为一个候选的方向,即令 αt = (0,…,1,…,0)T,即1只在词t的位置出现,定义t的Fisher鉴别指数为 由于αt的特殊形式,上式可简化为 对于多类问题 排除算法 排除算法从全部词特征集T开始逐步对“无用”特征进行排除,直至获得一个满意的特征子集F 排除算法的核心思想是尽量保持P(C?|T)与P(C|F)的相似性,因为分类与聚类可以基于类(C)的后验概率分布来设计算法 P(C?|T)与P(C|F)的相似性可用KL距离来度量 排除算法 如果P(P=p|Q=q,R=r) = P(P=p|R=r),则称P
您可能关注的文档
- 办公自动化软件在课程教学中的应用(精简版)研讨.ppt
- 办公自动化软件应用研讨.ppt
- 办公自动化设备的使用和维护陈国先(第二版)第12章数码摄像机研讨.ppt
- 办公软件研讨.ppt
- 办公软件基础知识培训二excel研讨.ppt
- 功率MOSFET的驱动电路和保护技术研讨.ppt
- 办公软件基础知识培训word研讨.ppt
- 功率器件接口研讨.ppt
- 功率器件新员工培训2006研讨.ppt
- 功率放大电路设计研讨.ppt
- 近代中国反侵略、求民主的潮流+课后作业 高三统编版(2019)历史二轮复习.docx
- 第14课+历史上的疫病与医学成就+教学设计 高二历史统编版(2019)选择性必修2经济与社会生活.docx
- +现代中国的政治建设、祖国统一和对外关系专项练习 高三统编版(2019)历史二轮复习+.docx
- 浙江省高考政治选择题专练4- 高考政治二轮复习统编版.docx
- 第2章+化学键+化学反应规律 章末复习课件 高一下学期化学鲁科版(2019)必修第二册.pptx
- 高三生物专项突破:+基因的本质与表达.pptx
- 化学与STSE知识点大全 高三化学二轮复习.docx
- 第25课+中华人民共和国成立和向社会主义的过渡+教学设计 高一上学期统编版(2019)必修中外历史纲要上+.docx
- 第13课+当代中国的民族政策+教学设计 高二上学期历史统编版(2019)选择性必修1国家制度与社会治理.docx
- 新民主主义革命的胜利+学案 高中政治统编版必修一中国特色社会主义.docx
最近下载
- 疾控中心招聘笔试临床考试试题.pdf
- 七年级上册语文古诗词全部.pdf
- 人教版(2024)新教材七年级生物下册第三单元《植物的生活》每课时分层作业汇编(含八套作业题).doc VIP
- 地理高考说题课件省公开课金奖全国赛课一等奖微课获奖PPT课件.pptx VIP
- 《义务教育法》解读.ppt VIP
- 包装厂ISO9001:2015一整套质量管理体系文件汇编(手册+程序文件).pdf VIP
- 七下11《山地回忆》 课件(共38张PPT).pptx
- 电大资源网11301《病理生理学》国家开放大学期末考试题库(390)[笔试+一平台机考].pdf
- 4.2 做自信的人课件 -2024-2025学年统编版道德与法治七年级下册.pptx VIP
- 小学生必背古诗词169首.pdf
文档评论(0)