无绿幕MR特效，谷歌开源AI语义分割模型DeepLab-v3+

小编刘卫华 | 分类：开源 / 快讯 | 发布日期 2018年3月16日

加入映维网会员

文章相关引用及参考：映维网

实时视频分割。

（映维网 2018年03月16日）在3月出我们有报道说谷歌利用AI实现视频的背景分离，而这涉及到语义图像分割技术。语义图像分割是指将诸如“道路”，“天空”，“人”，“狗”等语义标签分配至图像中的每一个像素，从而实现一系列的新应用，比如Pixel 2和Pixel 2XL人像模式中的合成浅层景深效果，以及实时视频分割。

延伸阅读：没绿幕也能做MR特效视频了，谷歌用AI实现背景分离

分配语义标签需要精确定位对象的轮廓，因此这比其他视觉实体识别任务（如图像级分类或边界框级检测）要求的定位精度更严格。好消息是，映维网了解到谷歌日前在GitHub上开源了最新的语义分割模型DeepLab-v3+（应用在Tensorflow）。

这一版本包含基于强大卷积神经网络（CNN）骨干体系架构构建的DeepLab-v3 +模型，旨在应用于服务终端。另外，谷歌同时分享了他们的Tensorflow模型训练与评估代码，以及已经预先经过训练的Pascal VOC 2012和Cityscapes基准语义分段任务模型。

自三年前Deeplab模型的第一次出现以来，优化的CNN特征提取器，更好的对象比例建模，对情景信息的详细同化，改进的训练过程，以及越来越强大的硬件和软件带来了DeepLab-v2和DeepLab-v3的优化。对于DeepLab-v3 +，谷歌添加了简单而有效的解码器模块以细化分割结果，尤其是沿对象边界。谷歌进一步将深度可分离卷积应用于空间棱锥面缓冲池和解码器模块，从而形成更快速，更强大的语义分割编码器-解码器网络。

由于方法，硬件和数据集的进步，构建在卷积神经网络之上的现代语义图像分割系统已经达到了五年前难以想象的精度。谷歌希望与社区分享他们的系统，从而帮助学界和业界的其他团体能够更容易地进行复刻，同时进一步优化系统，对新数据集进行模型训练，并且为这一技术设想新的应用。