图像标注的翻译模型精读.pptx

下载文档 降价啦

2
0
约 16页
2016-12-17 发布于湖北
举报
版权申诉
保障服务

图像标注的翻译模型精读.pptx

1、本文档共16页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

图像标注的翻译模型及K-means(K-均值聚类)1什么是图像标注就是通过计算机给这幅图像加上sky、horse、grass这样能表达图像语义内容的词。2如何实现？先要提供一个由人工标注了语义词的图像集，在此图像集上通过各种方法寻找图像特征与标注词之间的映射关系。对于一副未标注图像，先提取其图像特征，然后根据前面找到的特征与标注词之间的映射关系，确定出这幅图像应标注的语义词。3翻译模型（就是一种寻找图像特征与语义词之间映射关系的方法）思想：将图像标注的过程看作是从“视觉”语言到“文本”语言的翻译问题。其中，视觉词汇是由图像的各个分割区域经过聚类的结果，被称为“聚类块”；而文本词汇就是标注词，然后利用机器语言翻译的方法建立起“聚类块”与文本词汇之间的对应关系，进而得到图像的语义标注。4翻译模型的标注过程（1）对已人工标记的图像集进行分块、特征提取、聚类分块：每幅图像分为9个块，整个图像集共有4×9=36个块特征提取：对36个块分别提取图像特征[xx,xx,xx,xx]，共有36个特征值聚类：对36个特征值进行聚类，得到N个聚类聚类1：对应分块2、4、5、6、19、20、25、28、30、33、35、36聚类2：对应分块11、12、13、14、21、22、24、26、27聚类N：……4翻译模型的标注过程（2）对N个聚类进行标注词统计聚类1：对应分块2、4、5、6、19、20、25、28、30、33、35、361#｛山、水、船｝各4次（2、4、5、6）3#｛山、草、水｝各3次（19、20、25）4#｛山、水、树｝各5次（28、30、33、35、36）统计得:山：12次水：12次树：5次船：4次草：3次结论为：聚类1={山、水}（注：取统计值较大的前几个，或设定一个阈值）4翻译模型的标注过程（2）对N个聚类进行标注词统计聚类2：对应分块11、12、13、14、21、22、24、26、272#{水、草、鸟}各4次（11、12、13、14）3#{山、草、水}各5次（21、22、24、26、27）统计得：水：9次草：9次山：5次鸟4次结论为：聚类2={水、草}最终得到一个特征向量及对应语义词的映射表：一个聚类对应的特征向量怎么计算出来的？4翻译模型的标注过程（3）标注一副图像图像特征向量向量语义词映射表语义词4翻译模型的标注过程（3）标注一副图像4翻译模型的标注过程相似度计算：欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、标准化欧氏距离、马氏距离、夹角余弦、汉明距离、杰卡德相似系数、相关系数与相关距离、信息熵（3）标注一副图像5K-means(K-均值聚类)K-means聚类算法是将N*P的矩阵X划分为K个类，使得类内对象之间距离最小,而类之间距离最大。它是一个无监督的机器学习过程。5K-means(K-均值聚类)Kmeans的计算过程大概表示如下:（1）从N个样本中随机选择K个做为聚类中心。（2）计算每个样本到K个聚类中心的距离。（3）将每个样本聚类到离它最近的中心，此时共有K个聚类，每个样本点属于其中一个。（4）对每个新类从新计算聚类中心（求质心），并以此中心替代原中心。（5）转至（2）步，重复以上步骤直到满足收敛要求。(就是中心点不再改变或满足一定迭代次数)5K-means(K-均值聚类)下面为一个对平面上20个点的K均值聚类matlab仿真：clearall;data=floor(100*rand(20,2));%随机范围0-100；共有20个点；x=data(:,1);y=data(:,2);plot(x,y,*);%画出20个点axis();K=input(请输入一个K值:);[Idx,C,sumD,D]=kmeans(data,K,dist,sqEuclidean,rep,4);%Idx:N*1的矩阵，存储N个向量的分类标记；%C:K*P的矩阵，存储的是K个聚类质心%sumD：1*K的和向量，存储的是类间所有点与该类质心点距离之和%D：N*K的矩阵，存储的是每个点与所有质心的距离5K-means(K-均值聚类)%画出K个质心点holdonx=C(:,1);y=C(:,2);plot(x,y,ro);%质心与同类点连接线段fori=1:size(C,1)forj=1:size(Idx,1)ifi==Idx(j)plot([C(i,1),data(j,1)],[C(i,2),data(j,2)],k:);endendend5K-means(K-均值聚类)算法特点：（1）聚类结果与初始点有关，因为是迭代递进的过程；（2）是局部最优解，对脏数据敏感，K值不易确定；（3）在实际做的时候，可随机选择多组初始点，最后选择拥有最低TSD（TotalSquaredDistance）的那组；一些别的算法：K-MEDOID