- 1、本文档共18页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
四、K近邻(jìnlín)算法应用面或者场景预测某人是否喜欢推荐电影(Netflix)模式识别,特别是光学字符识别?数据库,如基于内容的图像检索编码理论(最大似然编码);数据压缩(MPEG-2标准)向导系统;DNA测序;剽窃侦查;拼写检查,建议正确拼写相似比分算法,用来推断运动员的职业表现。第15页,共18页。四、K近邻算法应用面或者(huòzhě)场景简单说一下这个数据的意思:这里用打斗次数和接吻次数来界定电影类型,如上,接吻多的是Romance类型的,而打斗多的是动作电影。还有一部名字未知(这里名字未知是为了防止能从名字中猜出电影类型),打斗次数为18次,接吻次数为90次的电影,它到底属于哪种类型的电影呢?第16页,共18页。五、K近邻(jìnlín)算法KNN最近邻基于欧几里得距离的java算法实现1.小规模数据集2.假设所有数据及类别都是数值类型的3.直接根据数据规模设定了k值4.对原训练集进行测试第17页,共18页。Thankyou!第18页,共18页。kNN算法是著名的模式识别统计学方法,是最好的文本分类算法之一,在机器学习分类算法中占有相当大的地位,是最简单的机器学习算法之一。现已经广泛应用于文本分类、模式识别、图像及空间分类等领域*在机器学习和模式识别等领域中,一般需要将样本分成独立的三部分训练集(trainset),验证集(validationset)和测试集(testset)。其中训练集用来估计模型,验证集用来确定网络结构或者控制模型复杂程度的参数,而测试集则检验最终选择最优的模型的性能如何。(先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集)一个典型的划分是训练集占总样本的50%,而其它各占25%,三部分都是从样本中随机抽取。* 往往是多数表决,即由输入实例的K个最临近的训练实例中的多数类决定输入实例的类别*k值选择过小,得到的近邻数过少,会降低分类精度,同时也会放大噪声数据的干扰;而如果k值选择过大,并且待分类样本属于训练集中包含数据数较少的类,那么在选择k个近邻的时候,实际上并不相似的数据亦被包含进来,造成噪声增加而导致分类效果的降低。通常,K值的设定采用交叉检验的方式(以K=1为基准)经验规则:K一般低于训练样本数的平方根。交叉验证(Cross-Validation):?有时亦称循环估计,是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析,而其它子集则用来做后续对此分析的确认及验证。一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集*multi-modal:多模态*因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。*1、该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。2、将样本集按照近邻关系分解成组,给出每组质心的位置,以质心为代表点,和未知样本计算距离,选出距离最近的一个或者若干个组,再在组里面应用一般的KNN算法,这样就可以减少计算量,但是不能减少存储量。*1、许多学习方法,比如决策树方法,选择部分属性作出判断,而k-近邻方法中实例间的距离是根据实例的所有属性计算的。实例间距离会被大量的不相关属性所支配,可能导致相关属性的值很接近的实例相距很远;解决维度灾害问题的常用方法:1)属性加权;2)属性选择。2、k-近邻算法的所有计算几乎都花费在索引近邻问题上,因此,如何建立高效的索引是k-近邻算法的另外一个实践问题。3、同样的数据,K值不同可能导致不同的预测结果4、k-近邻算法推迟所有的计算处理,直到接收到一个新的查询,所以处理每个新查询可能需要大量的计算。5、k-近邻算法的归纳偏置是:一个实例的分类xq与在欧氏空间中它附近的实例的分类相似。*””第1页,共18页。目录(mùlù)算法简介算法思想算法实现算法应用场面或场景算法的应用案例第2页,共18页。一、算法(suànfǎ)简介何谓K近邻算法,即K-NearestNeighboralgorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:分析一个人时,我们不妨观察和他最亲密的几个人。同理的,在判定一个未知事物时,可以观察离它最近的几个样本,这就是kNN(k最近邻)的方法。第3页,共18页。二、算法(suànfǎ)思想如上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中
文档评论(0)