【钛坦白】七维科技李晓波：VR视频的交互性-钛媒体官方网站

在钛媒体Pro专业用户和付费用户专享的“钛坦白”在线课堂第36期，我们再次请来三位钛客，探讨如何从“伪VR”走向“真VR”。本期钛客之一、七维科技VP李晓波，是中国图像图形学学会虚拟现实专业委员会委员，《新媒体系列丛书》顾问，从事虚拟现实、增强现实、虚拟仿真领域工作十余年，在众多高校担任虚拟现实项目实践导师。
本文节选自李晓波在钛坦白的分享。如果您还不是钛媒体Pro用户，希望查看钛坦白所有干货，进入钛坦白九个专业群交流，并查看更丰富的专业数据和信息，可点击：https://www.tmtpost.com/pro 注册。

以下根据李晓波在钛坦白的分享实录整理：

很高兴能够在今天晚上和大家分享我对VR的一些见解。刚才看了一下群里边有很多业内的专家，也有很多之前打过交道的投资人，也有之前没打过交道的，非常感谢各位。今天我要讲的是我对VR的一些看法，请各位大咖多多指点。

刚才在群里聊天的时候，有朋友问到说为什么叫七维科技？关于这个问题，我首先解答一下。我们七维科技在起名字的时候就有一个考虑：在九十年代，有物理学家提出说宇宙是十一维的空间。爱因斯坦认为，宇宙是四维的，三维空间加上一维的时间，然后就是说还有七维的空间是我们感受不到，但是客观存在的，所以我们就叫七维科技。因为本身我们也是做图形图像的，充满着科幻感。

我个人是2007年开始从事虚拟现实这个行业，群里边青瞳科技的祖厚超也在，他是我以前的同事，我本身从引擎开始做起来。从2007、2008年开始做3DVIA VIRTOOLS这个引擎，在2011年底的时候开始做Unity这个引擎在国内整个的市场的推广销售和教育计划，然后在2014年年底的时候，很有幸的能够以合伙人的身份加入到七维科技里边来，目前主要是从事七维科技的产品、市场和运营工作。

七维科技是一家以技术见长的公司，我们目前给自己的定位是一家图形图像和视频处理技术的一家公司，所以我们公司从2012年之初就开始做大量的技术储备工作，目前我们的技术储备在全景的拼接缝合、实时渲染和面部的识别，还有一些slam技术以及holographic三维实时重建技术方面都有一定的知识量的积累。

目前我们的核心技术演化出来的产品以及服务的领域，包括Vibox这个产品主要是基于引擎的工具包，目前主要服务于影视内容和VR直播领域，Vicam面向空间定位技术，还有Viface、ViCloud、ViCap以及我们自己在去年年底推出的一个Go！PanoS1全景相机，另外我们也在去年年底的时候跟阿里云、当虹云共同推出了基于互联网云端渲染的VR方面渲染的Go！Cloud。

全景视频与VR视频的关系

上周接到咱们钛坦白这边的题目叫做“从伪VR走向真VR”，其实大家都知道，我们目前从事相关的视频领域，大家都在拍摄全景的视频或者是360度立体的或者是180度立体的视频，当然在VR圈里面有很多的朋友们都认为，全景视频或者全景图片只是一个图片或者只是一段视频，不是真正的VR，对于这个观点我本身也是比较认同的。

VR应该具备的三个特点，一个是沉浸感，一个是交互性，一个是可构想性，这是在VR这个概念诞生之初就具备的一些技术特点。凡是具备这个特点的我们都被称之为VR，反观我们现在的视频，可能只具备了沉浸感，他的交互性、可构想性并没有那么强，所以全景视频跟VR视频还是有很大的差异的。

但实际上，全景视频又是视频领域向VR方向发展中一个必不可少的技术基础，在了解什么是VR视频的时候，我们肯定都要先去把全景视频搞明白了。毕竟全景视频是VR进行沉浸感很重要的一步，现在国内有很多公司，都在基于全景视频上开发了大量的硬件和软件，所以全景视频作为一个走向真VR过程中间一个很基础的技术还是非常重要的。

全景视频可以分为几大类——360度平面的视频、 360度带立体带景深的视频、180度立体，就是我们最早认知的双目180度平面拍摄的方法。很多都是基于这三种进行的演化。但实际情况是，这三种视频各有各的特色，而且拍摄的成本以及对播放器的要求也不太一样，目前针对360度视频，他全景的球的标准化建立起来可能比较容易。180度立体的话，因为有的做出来是180度，有的做出来是160度，有一些公司做出来的话是120度，所以就是在双目180度这个部分，它的标准建立起来并不是那么的容易。所以说目前各大视频平台在去做这个全景视频的时候可能首选的还是360度这种全景的视频，这种更为规范和标准。

我们在拍摄360度视频的时候，很难去引导观众的视角，我们在前面去进行主事件的过程中，很多观众都在背身面对事件发生的过程，所以360度视频的拍摄，或者直播的进行更难去调整导演的镜头语言。反倒是说180度立体，因为它只有一个面，跟我们拍传统视频的镜头语言实际上差不多，所以可能入门的门槛会更低一些。

视频实际上更多的分为两类，一类是点播拍摄的视频，另外一类就是直播的。拿直播举个例子，因为过去一年多时间，我们做了大量的国内VR的直播，实际上也发现了一个问题就是：360度的视频，背后更多的都是观众席或者是一些次重要的画面，前端的内容对观众来说更加重要，后面的后端的内容对于用户来说有效价值会更低一些，所以我们也在调整我们的一些镜头和拍摄的一些方法，180度立体的面向于演艺、综艺、体育可能是一个更加合适的方法。

360度立体的拍摄，更适合于对场景感要求更强的，比如旅游或者是VR全景电影这样的情况下，这种情况对360度立体的需求可能会更加旺盛一些。而我们会认为不管是360度立体还是360度全景或者是180度这种立体的拍摄方法，还要根据不同的场景和不同内容的策划，去完成最终的呈现方式，这个也是我们根据不同的项目和不同的标的制作过程中间要去思考的一个点。

VR视频采集所用的软、硬件

在VR硬件的选择过程中，我们也是分为大概两大类，一类是基于传统的相机，包括佳能、索尼这些相机上面做了一些改装而形成的一些360度，或者是180度的拍摄。包括之前的林以斌的《help》也是针对四台red dragon进行的组合，另外一类就是目前像insta360、德图、Z-cam还有我们自己都推出了全景相机，直接使用一台主机进行拍摄，内置可能有一些软件或者硬件，信号连接出来以后，再进行外部的拼接方式，形成全景视频。

下图是我们在去年年初推出来的一款对标Vahana一款软件的一个全景实时拼接的软件，名字叫GO!Pano Studio，可以兼容目前市面上主流的相机，包括索尼的A7、佳能的5D2，包括其他的一些相机组合，不但可以形成360度的拍摄，而且可以形成180度立体的拍摄。目前这个是我们在去年上半年推出的一个软件。这个工具目前在国内很多视频网站、视频平台和广电领域都有比较多的应用。目前这个软件也分为三个版本，一个是收费定制化的版本，还有一个是共享的版本，还有一个是免费的版本，这个主体的功能都是差不多，但是在定向推流和云服务这块会有一些差别。

这个全景的软件，我们去年做了大量VR的直播。实际上，支持SDI和RTMP的推流，是目前做VR直播很重要的点，可以直接把流给推出去。另外就是在图像的实时处理方面，包括亮度、色相等参数都可以进行动态的调整，可以在直播过程中间直接去调整画面，做一些实时的改变，另外我们在实时拼接方面支持自动的拼接，支持PTgui的导入，也支持手动的拼接，三种拼接的方法能够快速适应各种的相机，在去拍摄过程中间能够提高效率，能够节省大量的时间。

除了软件产品以外，我们去年在软件的基础上，开发了一个硬件产品，我们称它为Go panoS1，这个产品主要的特点就是比较小，大概只有我们手拳头这么大小，可以输出4K的分辨率、30帧的画面。最重要的是它本身是基于FPGA一体化拼接，就是内置拼接模式，不需要再用外部软件和硬件去进行画面的缝合，直接可以在机子里面推出一路信号直接是360度的画面，这个就比较方便去使用和携带，目前我们给他一个定位是专业入门级的设备。去年众筹完以后，大概在这个月会进行量产。通过软件+硬件就在前端形成了一个比较好的拍摄工具集，这个也是满足了我们VR视频基础的采集的过程，就是不断通过传统的相机可以进行实时的拼接，而且可以通过一体化的相机进行一路信号的采集，完成图像的采集过程。

VR视频的交互方法

采集完以后，我们就进入到了视频的第二步——实时渲染，这个也是今天我们着重要去讲的，就是我们的VIBOX这款产品。怎么解决VR视频的交互性？那就是全景视频。怎么在全景视频里面去进行交互？这个是我们在信号采集到以后第二个部分要做的工作。具体这个部分怎么做？下来我通过几个案例给大家去简单的展示一下。

大家看到的下面这张图片是2015年的春节联欢晚会的一个现场的画面，就是撒贝宁和虚拟的阳阳进行交互，虚拟的阳阳是在现场看不到的，而是通过我们电视画面看到的。它本身是刘纯燕进行的配音，一个舞蹈演员穿着动作捕捉设备进行的采集，这个也是最早的在视频里面去进行交互的一种方法。

下面这张图片是2014年《我爱世界杯》的一个画面，就是我们在世界杯决赛的时候做的德国队和阿根廷队的视频，里边包括球员、赛场、大巴、当地的天气预报都通过实时渲染技术和引擎技术进行视频，进行三维模型引擎和传统视频信号的一个叠加过程，形成了一种利用VR或者AR技术和视频进行轻交互的一个模式，这个模式是在2014年和2015年我们都在逐步进行的技术的积累。

通过这两张照片，我们可能大概会有个印象，就是在传统视频里面，怎么样和画面的内容去进行交互，它的本质实际上还是一个视频采集和引擎相互整合的过程。反观在VR领域，我们只是说在视频的画面上面，它的可视角度从以前的180度提高到现在的360度，它的整个在本质的交互的技术的形成上面，我觉得差别并不是特别大，所以说还是一个引擎+视频采集的这么一个技术的基础。

有了这样一个引擎的话，我们实际上就可以在视频里面去进行交互，包括通过控制器、手柄、鼠标键盘，这个交互过程也是一个逐渐的发展，最早可能我们在传统视频里面去进行交互的时候，更多的是通过手机的摇一摇，通过这些固定的交互的方式跟API接口的模组去进行。但是现在VR大的引擎的概念引入以后，交互方式可能跟之前有比较大的差别，这个也是VR最重要的一个特征吧。

今天它的交互手段实际上变得越来越多种多样，包括像HTC VIVE或者像Oculus通过控制器去进行交互的方式，或者通过Leap Motion，通过手势去进行交互的方式，乃至于说通过这种像七鑫易维眼动进行交互，包括现在受人关注的脑电波这种交互的模式，这种交互模式可能更适合于我们现在通过VR头盔这种观看的模式下去进行交互的一个方式。

VR直播的交互方法

在理清楚VR视频交互大概的技术基础以后，实际上我们更多的还是在VR的实际应用过程中间，去找到一个比较切实可行，可以落地的一个方向，过去的一年多的时间里都在做直播，所以说我们现在也在不停的探索怎么样在VR的直播过程中间，去加入大量的交互，目前我们大概有一些思路在这里我也给大家分享一下。

当然我说的VR直播，不是像传统那么去进行打赏，跟秀场主播去聊天的这么一个交互，更多的还是说在于本身我们VR所具备的一些场景化，所具备的一些体验化的过程引起交互的过程，实际上，在去年的时候，我们在HTC VIVE上面上了一个应用，原来最早叫糖狗VR，现在可能叫GoVR。

这张图片里面我们更多的是把传统的视频，集成到现在通过Unity引擎开发场景化里面，把视频进行开窗的处理，然后在引擎化的这个场景过程里面，实际上还是遵循了传统游戏，或者是传统VR开发的过程，能够去进行场景化的交互。比如说我们在恐怖的场景里面观影，我们要塑造的一个诉求点就是说，把我们这个恐怖的场景怎么样通过VR或者是交互的方式，能够让它变得更加的恐惧，比如说大家看到了一个僵尸，我现场可能会虚拟出来一个真的僵尸，我们在扭动的过程中间，就可以看到僵尸在你的身边，看到一个比较浪漫场景的时候，可能满天会下满了桃花这种比较浪漫的感觉，同时通过手柄、控制器可以和身边的这些僵尸进行交互，这个我觉得是VR场景化整合过程中间最起码的一个交互的方式。

除了场景化里面集成视频的交互方式以外，我们可能还有一种在全景视频里边去叠加我们虚拟场景的一个过程，下面这张图片是我们去年在做欧洲杯《豪门盛宴》的现场照片。我们可以看到，除了现场拍摄的以外，天空、凯旋门、欧洲杯的奖杯、国旗、飘着丝带都是实时虚拟上去的，我们在里面进行了SDI信号的开窗，在全景视频观看的过程中间，加入了大量虚拟的场景，而且还可以看到传统CCTV5里面播放的画面。

在进行VR视频的交互的过程中间，主要有两种模式，一种是在场景化里面去构建视频的窗口，另外一种就是在视频的画面中去叠加虚拟场景化的内容。无论是怎么样的一种选择，一定是一个线性的视频结构加上非线性的引擎场景化整合的一个过程，这也是我们进行VR视频交互第二个技术的积累点，也是我们去进行VR视频交互很重要的一个基础工作。

下面这张图片，很好的解释了视频和场景化的之间的关系。我们看到左上角那张照片是我们实际拍摄全景的画面，右边是通过引擎制作出来的机器人和UFO的飞船，而进行实时合成完以后，在视频里面，我们可以看到一个UFO和一个机器人，而这个UFO和视频因为他们是引擎做出来的，是可以进行交互的。

猛然一看这个照片，可能很像传统电视栏包装的概念，实际上，传统电视栏包装用的引擎，也是最早VR的一种呈现方式。比如以前我们在看《春晚》的过程中间，漫天的花瓣的效果，实际上在现场很多人是看不到的，所以说在现在VR开发的过程中间，我们用到的unity、unreal更为普遍使用或者门槛更低的技术的话会更便于去掌握它，所以在前些年的时候，我们把不是那么方便或者门槛相对比较高的VIbox也进行了移植，下来我给大家简单介绍一下。

下图是VIbox的基本的功能，当然它是兼容传统视频拍摄实时播放的方式，也符合现在全景360度立体和180度立体下边去进行虚拟形象的植入或者是虚拟场景的植入，我们不但支持增强现实的一些植入，包括实时动物的一些数据，包括在做直播过程中间的蓝箱，传统的一些跟踪，包括多机位的通信转换，都可以去完成比较好的虚拟化场景和视频的整合。

多机位切换的部分，实际上我们在去年阿里淘宝的造物节中间已经尝试过，就是让观众自己来选择直播的角度，去年我们做了三个机位，观众可以通过VR这种进行注视的交互，去看蓝色的三角形，或者橙色或者红色的进行不同机位的选择，当然观众自己选择的话也是其中最基本的一个交互点。

这个是我们去年4月份，在发布会的时候所做的一个VR的直播，我们可以看到，在天空中间我们虚拟出来了一个大鱼鲲整体形象，包括之后视频里面还有很多的水，还有很多鲲游动的过程，都可以进行很好的虚拟化场景的整合，也可以进行一部分的轻交互。

用交互式VR和传统视频去进行整合时怎么去实现VR视频的交互？我认为目前大概有几种形式：一种是很简单的图文特效，比如说在传统体育赛事直播过程中间，一面是180度的立体画面，后面可能是直接缝合上去另外180度的虚拟画面，包括左侧可能是新疆队的篮球球员，右侧是辽宁队的篮球队员，每个人他比赛的数据都可以在现场去进行一个实时的观看，还可以进行微信、微博这种通过数据去进行的交互，这个也是美国NEXVR目前主要的实现方式。

还有一类可能是为我们现在VR视频变现提供了一个比较好的方法，就是动态广告植入，这个动态广告植入实际上很像微软的hololens，我们在观看的时候产生的这种在真实场景里面去叠加虚拟场景的一个过程，虚拟的形象或者是虚拟物体的一个过程，当然现在随着slam技术越来越成熟，包括我们现在高通835也推出slam整体的解决方案，可以去进行动态广告的植入。我们看到桌子上是什么都没有，但是通过VR观看的过程中间，就可以虚拟上很多的内容，这就是直播，当然我觉得不单单是说在传统的秀场直播过程中间，要去增加趣味性，在VR直播过程中间也要去增加趣味性，我个人也是不太喜欢这种纯VR的场景，就是把人和现实完全隔离开的一个过程，可能现在我们也在尝试着通过视频采集和VIBOX场景化的整合，去虚拟出来趣味性强的东西，

以上我介绍了一下视频的沉浸感跟交互性，其实也引出来我们现在整体的运营模式，我简单发个图给大家看一下。软件层面，我们的Go pano studio、Go panoVIbox和支持后期缝合的Go pano stitch。硬件方面，我们有Go panoS1小型的入门级的相机，然后在重型上面有Go pano rig，支持索尼、佳能这种级别的相机。同时搭配我们现在整个云服务体系，还有我们为内容，VR内容聚合平台提供的播放器就形成了我们整体的一个从端到端的解决方案，从信号采集、实时拼接、实时渲染、编撰码、云服务，再到达最终客户用户端的播放器的一个全流程。

对VR视频未来交互的看法

我对VR视频未来交互的看法，就是在微软的holographic这种技术开始大量的普及和slam技术越来越成熟的情况下，不论是全景视频，还是在全景视频上叠加VR场景化所进行的交互，都是真正VR交互发展过程中的一个中间状态，最终要实现的还是类似于holographic这种带有景深，能够去实时的进行三维体积采集的真正的VR形态。

真正的VR到来的时候，可能我们只需要简单的采集设备，就可以去实践我们跨越空间、跨越时间的交互，这个交互也不用再去做大量的建模，而是可以去实现实时的重建过程，类似于微软发的这个视频里面的展示的holographic，就是我在北京你在天津，我们可以共同在上海去实现一个场景的交互和浏览，不但可以看到我们的正面180度，而且可以围绕我个人进行360度浏览，进行放大、缩小这么一个交互过程。

我自己认为holographic是未来VR视频发展的一个大的趋势，所以我们目前在holographic三维体积采集的过程，也在做大量的这种技术的积累，同时也跟很多合作伙伴去进行slam这种技术还有追踪技术的合作，也希望在群里面的各位，如果对这种holographic这种体积采集的方向有兴趣的朋友们，可以跟我们多交流，也希望能够跟大家一起合作。

非常感谢钛媒体能够给我这个机会和群里面的310位朋友做交互，当然这也是跟钛媒体的第二次合作，去年5月底在深圳跟钛媒体的赵总有过一些交流，也很高兴能够跟钛媒体再次的合作，也希望大家都能够更多的投入到VR这个行业里面去，毕竟现在VR还处于一个缓慢的上升期，也希望能够跟各位多多合作，再次感谢钛媒体，也感谢群里面的310位VR行业的从业人员跟朋友们，谢谢你们。

（本文独家首发钛媒体，根据七维科技VP李晓波在钛坦白上的分享整理）

……………………………………

钛坦白第36期，从“伪VR”到“真VR”2，今晚分享、交流继续！

地点：钛坦白 | VR AR（微信群）

报名听课、交流：
钛坦白目前有医疗健康、人工智能、文娱社交、VR/AR、区块链、支付创新、体育、云计算、SaaS等九个专业群。
1、钛媒体Pro专业版用户，可以点击链接https://www.tmtpost.com/pro，登录账号，在线免费、任意选择自己要进入的群，按提示操作；
2、非钛媒体Pro专业版用户，可以添加微信号taitanbai0，在通过好友后，发99元红包给小钛，你将有权利从九个群中任选一个群进入，长期听课、交流。请告诉小钛你要进入哪一个群，然后等待小钛拉你入群~
推荐钛客、赞助、合作：
请与钛坦白负责人佳音联系，邮箱jiayinge@tmtpost.com