2014解构微软技术.docxVIP

下载本文档

4
0
约 15页
2016-12-25 发布于上海
举报
版权申诉

2014解构微软技术.docx

1、本文档共15页，可阅读全部内容。
2、有哪些信誉好的足球投注网站（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

微软HoloLens技术解谜2015-01-29HoloLens拥有这么几个关键要素：是增强现实产品， AR 技术将计算机生成的图像与真实的世界相叠加。类似的产品有图像投射到视网膜上的 Google Glass，以及叠加在手机摄像头画面上的手机 AR 应用。是独立的计算单元，自带 CPU ＋ GPU ＋HPU，不需外接计算机。它的 CPU 和 GPU 基于英特尔的 14纳米工艺的 Cherry Trail 芯片，HPU 是微软发明的缩写， Holographic Processing Unit，即全息处理单元。HPU 是一块 ASIC（Application-specific integrated circuit），是微软为 HoloLens定制的集成电路，有钱任性。HoloLens 不是什么？Matrix 要来了。那么你要好好看这一段，因为 Matrix 是 Virtual Reality / VR / 虚拟现实，VR 的特点是让参与者置身于计算机生成的三维图像世界中，淡化真实的世界。VR 近期的代表产品是 Oculus Rift，戴上 Rift 后你是看不到真实世界的。在我看来 VR 最大的问题是：这个虚拟世界很真实很精彩，但是有什么用呢？也就是说 VR 只能做到更逼真的三维世界，它无法帮助人们更好地理解真实的世界。HoloLens 不是 Google Glass（以下简称 GG），它比 GG 多了：三维感知能力，可以对身边的三维场景进行建模。而 GG 只能看到 RGB 像素值。三维渲染能力。人机交互能力，可以用手势来进行控制。HoloLens 也不是市场上常见的的 AR，常见的基于摄像头的 AR 应用基于摄像头有：基于丑陋的黑白标记图片的 AR以及基于任意图片的 AR。很炫是吗，但是它们只能检测到图片所在的那个平面。HoloLens 比它们都牛，它能检测到各个角度的三维场景！HoloLens 的 AR 是如何得到三维场景深度信息的？我们回到 AR 的定义，想要实现增强现实，必须先理解现实，那么对于 HoloLens 而言现实是什么呢？是传感器的数据。传感器是啥？是摄像头。同样是摄像头，为什么 HoloLens 就可以感知深度呢？微软的 Kinect 在这方面很成功，那么是不是 HoloLens 上放了一台嵌入式的 Kinect 呢？答案在下面的原型图片中：HoloLens 拥有有四台摄像头，左右两边各两台。通过对这四台摄像头的实时画面进行分析，HoloLens 可覆盖的水平视角和垂直视角都达到 120 度。也就是说它采用的是立体视觉 / Stereo Vision 技术来获取类似下图的深度图（depth map）。立体视觉是计算机视觉学科的一个子学科，专注于从两个摄像头的图像数据中得到真实场景中的物体离摄像头的距离。示意图如下：下面是基本的步骤，查阅 OpenCV 文档可以了解具体到函数用法?：摄像头校正，undistortion。由于摄像头的镜片出厂时都存在扭曲，为了得到精确的数据需要在使用前进行较正。常用的方法是基于棋盘的各个姿态拍几次，然后计算相机的矩阵参赛。下图便是常见的标定界面。图像对齐，rectification。因为两个摄像头的位置不同，因此它们各自看到的场景是有偏差的，左边的摄像头能看到最左的场景，右边的看到最右的场景。图像对齐的目的是得到相同的场景部分。左右图像匹配，correspondence。可以使用 OpenCV?，得到 disparity map。通过重映射函数，比如 OpenCV 中的 cv::reprojectImageTo3D，得到一张深度图。只有一张深度图是不够的，它只是某一时刻真实的场景在摄像头中的映射。要想得到完整的三维场景，我们需要分析一系列的深度图。HoloLens 如何从多张深度图重建三维场景？答案是 SLAM，Simultaneous Localization And Mapping，即同步定位与建图系统。这个技术被用于机器人、无人汽车、无人飞行器的定位与寻路系统。解决的是非常哲学的问题：我现在在哪里？我可以去哪里？SLAM 有很多实现的方式，有一个开源的方式，实现了很多深度图的处理和匹配算法，可以认为是三维版本的 OpenCV。而微软围绕着 Kinect 的深度图数据发明了 Kinect Fushion 算法，并发表了两篇论文：KinectFusion: Real-time 3D Reconstruction and Interaction Using a Moving Depth Camera；KinectFusion: Real-Time Dense Surface Mapping and Tracking。为什么我认为 HoloLens 与 Kinect Fushi