网站大量收购闲置独家精品文档,联系QQ:2885784924

如何教计算机看懂一张图.pptx

  1. 1、本文档共28页,可阅读全部内容。
  2. 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
如何教计算机看懂一张图要点

如何教计算机看懂一张图;李飞飞2015年在TED的演讲——“我们如何教计算机理解图像” TED演讲的主旨是:Ideas worth spreading. 【T】Technology 技术【E】Entertainment 娱乐【D】Design 设计。;;今天,ImageNet数据集已经成为全球最大的图像识别数据库,包含了使用日常英语标记的超过 1400 万张图像,跨越 21,800 个类别。而且这个集合了全球智慧和力量的数据库是免费的。这也就意味着,全球所有致力于图像识别的公司,都可以免费对自己的算法进行反复测试。 数据集应用于一年一度举办的The ImageNet Large Scale Visual Recognition Challenge (ILSVRC)?比赛 ?2016年李飞飞教授也从学术界转移到了工业界,正式加入谷歌,任Google Cloud Machine Learning(谷歌云机器学习)负责人。 ;2016年李飞飞开启了VisualGenome(视觉基因组)计划,要把语义和图像结合起来。 在VisualGenome 的官方网站上,把它定义为: VisualGenome 是一个数据集,知识库,不断努力把结构化的图像概念和语言连接起来。 VisualGenome 的图像要比ImageNet的图像标签更为丰富,包括名字、图片的不同细节,以及在对象和动作信息之间的关系。 ImageNet大规模视觉识别挑战赛 VisualGenome 挑战赛;深度学习在图像语义分析的应用; 图像分类(image classification) ;基于深度学习的图片分类;InputLayer就是输入图片层,每个输入图片都将被缩放到固定尺寸,分rgb三个颜色维度输入。 Layer1~ Layer5是卷积层。在Layer1,卷积滤波后,还接有ReLUs操作和max-pooling操作。 Layer6~ Layer8是全连接层,相当于在五层卷积层的基础上再加上一个三层的全连接神经网络分类器。 Layer8的神经元个数相当于训练目标的图片类别数。;目标检测;给定一张图片,利用selective search方法来产生2000个候选窗口。 然后利用CNN进行对每一个候选窗口提取特征(取全连接层的倒数第一层),特征长度为4096。 最后用SVM分类器对这些特征进行分类(每一个目标类别一个SVM分类器),SVM的分类器的参数个数为:4096*N,其中N为目标的类别个数,所以比较容易扩展目标类别数。 ;图像理解;;图像描述 ;;End-to-end方法;机器翻译;;Decode 我们将源句子的向量表示和目标句子中第i时刻的词的词向量一起作为RNN网络的输入,如下面公式所示,s表示源句子的向量表示(source sentence),V(f_i)表示的第i个词的词向量,通过隐藏层计算后,再通过一个softmax函数生成一个K维的向量(这个K表示词典的长度),向量中每一维的值表示基于前面的词以及源句子后,出现下一个词的概率。 ;最后我们可以将这个网络完整表示为如下所示;m-RNN(multimodal Recurrent Neural Network)模型;其结构特点可以归纳如下: 模型的输入是图像和与图像对应的标注语句(比如在下图中,这个语句就可能是a man at a giant tree in the jungle)。其输出是对于下一个单词的可能性的分布; 模型在每个时间帧都有6层:分别是输入层、2个单词嵌入层,循环层,多模型层和最后的Softmax层; 循环层的维度是256维,在其中进行的是对t时刻的单词表达向量和t-1时刻的循环层激活数据的变换和计算 ; 多模型层连接着模型的语言部分和图像部分。图像部分就是上图中绿色虚线包围的部分,其本质是利用深度卷积神经网络来提取图像的特征。在该文中,使用的是AlexNet的第七层的激活数据作为特征数据输入到多模型层,如此就得到了图像特征向量。而语言部分就是包含了单词嵌入层和循环层。 模型的语句生成:模型从一个特殊的开始符号“##START##”或者任意个参考单词开始,然后模型开始计算下一个单词的概率分布。然后取概率最大的一个单词作为选取的单词,同时再把这个单词作为输入,预测下一个单词,循环往复,直到生成结束符号##END##。 ;谷歌NIC(Neural Image Caption)模型; NeuralTalk:?一个开源的从图片生成文本描述的工具;实验结果;结论和展望;

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档