退出

看了今年《英雄联盟》S11比赛,我见识到了这些玩出花的黑科技

看了今年《英雄联盟》S11比赛,我见识到了这些玩出花的黑科技

最近,《英雄联盟》除了推出国服手游以外,也迎来了一年一度的世界总决赛。上周,葡萄君在虎牙看比赛时,发现今年的赛事直播竟然多了一些黑科技。

比如,《英雄联盟》本身是没有HDR配置的,虎牙却可以将直播调整为色彩更丰富、对比度更高的HDR画面。

1634179058315738.png

各个平台都会有一路、二路、主播解说等多个房间同时直播赛事,这不是什么稀奇事。有趣的是,虎牙这次有个直播间叫AI字幕。进去后,你会看到解说的人声内容都实时转变为了字幕,而且准确度还挺高,不仅英雄、技能名字翻译正确,连国外选手的外号、一些赛场梗也能对应上。

1634179058788273.png

当然,AI还没有聪明到能完全听懂外国人说话。当国外选手接受采访时,AI字幕的“可爱表现”往往能成为另一种趣梗。

1634179059193255.png

同样,通过AI实现的,还有弹幕防遮挡和打点回放功能。在S赛这种高热度赛事上,如果你打开全部弹幕,画面会瞬间被弹幕淹没。从实际效果来看,弹幕防遮挡可以识别英雄、皮肤、技能,就像检测到真人一样,弹幕会主动避开。像EZ大招那种全图型技能经过时,还会扫走弹幕,开出一条路。

640?wx_fmt=gif

或许某种程度上,这也算是一种加强沉浸感的方式(?)

如果你留意进度条,还会看到有团战、争夺大龙资源等关键时刻的时间点,直接点击就能回到对应的比赛时间。更方便我们回看选手下饭精彩操作,也不用全程盯着屏幕,生怕错过某些精彩瞬间。

1634179059528573.png

那么,这些黑科技到底是如何实现的?虎牙又为什么要花这么大力气去做?

「尝试定义游戏直播HDR的效果」

从数据统计来看,目前在支持HDR功能的虎牙直播APP版本里,约15%的S11观众在观看HDR直播,而这个比例在4K HDR频道里还要更高。

虎牙音视频算法负责人陀健告诉我,HDR是音视频直播技术迭代的必然趋势。目前市面上一些采集设备以及高端手机都已经支持了HDR的视频拍摄,该类型的显示屏更是越来越多。虎牙在极大优化了直播的延时和清晰度等问题后,视频色彩顺理成章地成为了提升画质的着力点。

1634179059433487.png

HDR画面

1634179060627637.png

普通画面

葡萄君是技术门外汉,一开始看到直播支持HDR的时候,有过一阵纳闷。毕竟《英雄联盟》本身是没有HDR配置的,那直播视频要怎么做出HDR的效果?

陀健认为这也是他们遇到的难点之一。大家普遍把一般视频称为SDR视频,以此来区别HDR,这里涉及到色深、峰值亮度、色域映射等一系列参数。举例来说,SDR的图像理论上色深是8bit,而虎牙用到的HDR10是10bit。从感性认知角度来看,SDR能显示约1658万个颜色单位,而HDR10的标准下,能拥有10亿多个颜色单位。

“目前虽然有很多视频平台会对SDR视频进行HDR的转换处理,但其实转换后的视频有些只是经过色域映射,即用tonemapping技术来拟合HDR效果,实际上还是一个SDR的普通视频。” 

事实上,目前大部分游戏本身也是没有HDR效果的。陀健团队要通过AI图像生成模型、视频编解码、播放器渲染等方式,把游戏画面转换为色彩更丰富的HDR视频画面。这里面,大到虎牙流媒体各个系统的支持,小到一个图像内存拷贝的函数优化,都得按需进行。

“与所有音视频直播领域面对的问题一样,我们还有个最入门但也最苛刻的要求:实时性。尤其对S11直播而言,以4K+60FPS+HDR举例,我们需要在1秒内对60张1080P图像进行超分辨率到4K,以及对4K图像进行SDR2HDR的AI模型推理,最后通过编码器编码成4K HDR视频流。”

1634179060503598.png

在研发过程中,为了获取最佳HDR效果,陀健团队做了一系列精细化的处理。比如对视频场景实时分类,以此区别游戏场景和舞台场景的HDR效果;为了准确控制HDR的亮度分布和色彩呈现效果,进行了实时的ROI分割,使用对应的SDR2HDR模型进行调色转换等等。 

在落实SDR2HDR的AI模型时,陀健团队里有个年轻的算法研究员小曹,在做效果fine-tuning时,需要长时间盯着屏幕校对效果。由于HDR拥有更高的峰值亮度和对比度,眼药水成了小曹的常备物品。团队甚至开玩笑地用滴眼药水的次数来检验各模型的优劣。

“我们其实也不知道游戏的HDR效果应该是什么样。我们无意参与到游戏创作里面去,但我们尝试去定义游戏直播HDR的效果。这需要长期的算法和优化经验沉淀。”

要怎么保证AI字幕的准确和流畅?

再说到黑科技的部分。像去年就推出的AI智能回放和弹幕防遮挡功能,我们不难想象它们的使用场景。比如经典的The Shy剑魔天神下凡1V4,这种精彩操作总会让人去回顾和欣赏,同时玩家还会有讨论热情,想要看看弹幕是怎么说的。

而AI字幕功能,放眼所有传统体育赛事中都颇为罕见。虎牙技术副总裁许佳告诉我,其实这也是从用户需求出发。 

“首先,虎牙赛事观众有很多硬核玩家,他们想要通过观看比赛向职业选手学习。解说可以把专业的战术、关键的操作捕捉到,讲解出来,便于玩家学习。光听一遍,可能很快就会过去,但如果配合字幕,观众可以加深印象,或者更好地理解赛事里转瞬既逝的内容。

1634179060162366.png

另外,直播内容本身是视觉+语音多模态的。当观众没有耳机也不方便外放(或者听力不方便时),比如在乘车坐地铁,或者晚上和家人在一起,甚至上班的时候,AI字幕就可以满足观众的需求,将多模态内容完整呈现出来。”

正如文章开头提到,游戏赛事直播中,会涉及到大量的黑话、专业术语、甚至是无厘头的梗等等。大家用过语音转文字,都能感受到文字转换的准确性是影响体验的重要因素。那虎牙的AI字幕要怎么保证准确性?

许佳表示:“虎牙从5、6年前就开始直播S赛事,现在还有LPL、LCK等联赛的语音和视频数据。我们会针对S赛事做很多标注,比如战队名、英雄名、选手名、黑话,积累一个比较大的数据集,并且训练一个深度学习模型。这个模型在AI领域叫作语言模型,我们也叫热词模型,能够识别专业的术语。保证准确性就是在虎牙积累的数据前提下,不断做内部算法迭代的过程。

虽然字幕功能真正测试可能就1-2个月,但真正底层的语音转文字技术,我们做了一年多。目前我们AI字幕的识别错误率已经降低到了4.02%,在游戏直播场景上已经领先所有第三方识别引擎。”

1634179061436640.png

此外,我在实际观赛时,发现虎牙的AI字幕显示类似于YouTube的识别字幕,是逐字逐词出来,而不是一整句话的形式。许佳说这种流式的处理方式也是为了保证识别的低延迟性。

“举个简单的例子,我们讲一句话需要3到5秒时间,当听完整句话再去做识别时,其实直播里已经跳到了下一句话,所以用流式的方法边讲边识别,在延迟和算法上有天然的优势。如果观众对比其他平台的直播字幕,会发现我们至少快上10秒。这也是前端后端配合开发出来的。 

比如,我们从赛事方拿到视频流以后,直接在local的服务器上做了语音识别,然后把文字发送到观众端,这个过程其实数据量很小,打的是时间差,最后文字和音频、视频到观众端的时间是同步的。相比于第三方拿到视频做完识别后,先把文字嵌入到视频中,做了一次视频转码再走CDN把整个视频发出去,我们的传输会更快。虎牙的AI字幕通过信令传输到观众端渲染显示,不仅延迟更低,字幕呈现也更清晰流畅。” 

而当谈到AI字幕难以识别国外选手的采访时,许佳也承认,目前他们在技术上还有很多迭代的空间。不只是语言翻译问题,语速较快的解说也会对流式的语音识别有较大的挑战,又或者多个解说同时讲话,能否准确识别也是一个可以改进的地方。

技术驱动内容

有了这些黑科技之后,我的观赛体验确实有所提升,虽然不算天翻地覆,但起码我多了好几个选项,可以自由地选择各个功能。 

对于虎牙来说,更重要的是,通过S赛事这样的大型节点,他们可以针对性地对直播基础能力做优化,在底层技术上研发出更多的配套功能。

去年S赛推出的智能回放和弹幕防遮挡功能,目前已经成为了虎牙的赛事直播标配,应用到了《王者荣耀》《和平精英》等比赛中。虎牙视频、主播动态中,系统自动捕捉并剪辑的主播精彩时刻,其实用的也是智能回放的技术方案。 

而像AI字幕的核心技术——语音转文字也可以应用到更多场景。比如在直播间的合规审核中,可以更智能地辨别主播是否违规;在算法推荐时,可以通过识别语音,自动给直播间加上标签,帮助用户找到他们想看的内容;甚至在商业化、功能性的相关内容上,语音识别也可以更灵活地触发广告、特效,辅助主播直播。

在实际的观赛功能以外,虎牙也结合虚拟形象技术、AI技术、肢体驱动系统推出了虎牙双马尾的虚拟形象,在PGC综艺《虎说S11》中,和解说、主播同台互动。类似的还有《联盟键盘侠》这样的赛事评论节目,在赛后承接用户的讨论。 

目前,直播这条赛道上,头部平台已经形成。我们可以看到,虎牙近年的策略便是从用户的角度出发,在技术迭代的过程中,用内容满足用户体验与需求。而这些技术驱动下诞生的功能,如果未来能得到更广泛的衍生与应用,或许整个直播行业生态,都会得到一个更好的发展。