AV1和开放媒体联盟(AOM)的发展、成果与未来Alliance for Open Media(开放媒体联盟)是由亚马逊、思科、⾕歌、英特尔、微软、Mozilla以及Netflix等互联⽹公司成⽴。该联盟旨在通过制定全新、开放、免版权费的视频编码标准和视频格式,为下⼀代多媒体体验创造新的机遇。AV1是开放媒体联盟Alliance for Open Media (AOM) 开发的第⼀代视频编码标准。本次分享,我们邀请到了AOM的通信和会员发展副总裁——Matt Frost先⽣,他向我们分享了开放媒体联盟的产⽣,成⽴六年来所取得的成就及开放媒体联盟在下⼀代视频编解码器⽅⾯所做的进展。
⽂ / Matt Frost
整理 / LiveVideoStack
⼤家好,我是Matt Frost。是开放媒体联盟,即AOM的通信和会员发展副总裁。同时我也是⾕歌开源媒体技术团队的领导⼈之⼀,我们的团队致⼒于开发下⼀代的免版税的开源数字媒体技术。欢迎⼤家参加开放媒体联盟第⼀次中国会议。
我不确定在座的各位是否都熟悉开放媒体联盟的历史,因此,⾸先我想告诉⼤家为什么⾕歌对开发免版税的开源视频编解码器感兴趣。然后我会谈谈其中的经历如何催⽣了开放媒体联盟、开放媒体联盟成⽴六年来所取得的成就、开放媒体联盟在下⼀代视频编解码器⽅⾯的进展。最后我想分享为什么我们特别举办⼀场⾯向中国观众的会议,以及为什么希望激励你们加⼊我们的⼯作。
正如我所提到的,我先简要谈谈是什么促使⾕歌开始开发视频编解码器。
#1. 开源编解码技术的背景
⼗多年前,⾕歌推出了两个项⽬,旨在改善互联⽹的媒体体验。
⾕歌⾸先启动的第⼀个项⽬是WebM,该项⽬旨在开发免版税的开源视频编解码技术。随后不久启动了WebRTC项⽬,为视频会议等应⽤程序推出了开源免版税的IP通信栈。⾕歌对这些领域感兴趣有⼏个原因:
⾸先,⾕歌是⼀家业务与互联⽹紧密相连的公司,因此我们希望确保互联⽹的继续发展和繁荣。
互联⽹建⽴在开放的免版税的技术上,允许任何⽤户⽆需⽀付版税就可以建⽴⽹站。起始时,⽹络上充斥着⽂本和静态图⽚,现在⽹络体验更加丰富,有视频、⾳频和新兴媒体类型。⾕歌希望确保创新者能够使⽤免费的尖端媒体技术,从⽽创造新的基于IP的媒体体验。但是让视频技术成为互联⽹体验的核⼼不仅是⼀个理论问题。
2010年,⾕歌有许多团队在做视频服务⽅⾯的⼯作,如YouTube和安卓等平台。他们对互联⽹的新媒体体验卓有远见。然⽽,他们感觉受到了限制,因为当时所使⽤的技术是由⼴播电视⾏业为⼴播电视的⽤例⽽设计的,这些技术是根据⼴播电视⾏业的时间表开发,以10年为周期,匹配机顶盒和电视更新率,
这个周期与互联⽹创新的快速步伐并不同步。
经常有⼈问我,为什么⾕歌和其他开放媒体联盟的⼤公司会员关⼼开发免费的开源技术。⼈们可以理解为什么⼩型初创企业可能想要使⽤开
源编解码器,但为什么许多开放媒体联盟的⼤公司会员也会关⼼开源技术。
⼤多数⼈应该都有过类似的痛苦经历:知道采⽤新的编解码器会有许多挑战,要整合新技术并确保所有重要的设备都⽀持它,我们要⾯临技术障碍。但是,业务条款也可能成为应⽤的障碍。⽆论是授权⽅就授权条款讨价还价的漫长等待,还是开发商必须获得多个许可的授权要求。在这两种情况下,⼤⼩公司都⽆法使⽤新技术。⽽使⽤开源免版税的技术,我们可以事先知道条款,那拿到授权就简单明了了。这意味着开发团队可以快速地使⽤新技术,⽽不必因为要与授权⽅就授权条款和版税⽽苦苦搏⽃,等待数年。
当然,成本是⼀个重要因素。对于那些发⾏了上亿份APP却还没赚到钱的创业公司来说,使⽤免版税的尖端技术显然⾮常重要。但成本也是⼤型公司需要考虑的问题。举个例⼦,⼀家⼿机制造商想要为预算⾮常有限的⽤户打造具有媒体功能的设备,这是⾕歌⼀直特别关注的很现实的情况。制造商⾯临的问题是必须⽀持多代收取昂贵的版税的媒体技术,⽐如视频编解码器、⾳频编解码器、⾼端视频和⾳频增强技术,这使它⼏乎不可能为绝⼤多数全球市场⽣产⾼性能⽽且价格合理的设备。
博客为什么没人用了另外,如今⼏乎所有的⼿机仍然⽀持H.264,这是⼀项20年前引⼊的有版税技术,很可能在未来⾄少10年内仍将在⼿机上使⽤。
为了确保设备之间的兼容性和现有内容的回放,我们需要在设备中添加新格式,但很少删除。如果只是将⼀代昂贵的技术叠加在另⼀代上,那就是在⽆情地推⾼设备的成本。让那些买不起昂贵设备的⽤户⽆法获得最好的体验,或是迫使他们⽀付这些他们⽆法承担的设备费⽤,这是个值得解决的问题。
#2. 开放媒体联盟
以上因素促使⾕歌努⼒开发免版税的编解码技术。
当我们推出第⼆代编解码技术——VP9的编解码技术,在与合作伙伴讨论项⽬时,发现越来越多的公司已经开始使⽤开源技术。这些公司对传统编解码技术的授权难⽽感到越来越沮丧。在讨论时,发现这些公司有着共同的原则,都将使⽤相同的媒体技术,都希望新技术开发出来后能尽快投⼊使⽤,我们可以共同努⼒创造新技术,同时仍然积极竞争开发使⽤这些技术的最佳产品和服务,以及,由于都是业务不断增长,为丰富的媒体体验创造设备和服务的公司,所以可以通过销售产品,⽽不是通过向新的编解码器收取⾼额专利使⽤费来赚钱。
2015年,参与这些对话的公司⼀起成⽴了开放媒体联盟。会员名单上包括⼀表⾯上看起来不太可能出现在⼀起的竞争对⼿——⾕歌和微软、Amazon和⽹飞以及英特尔、AMD和ARM。
该联盟遵循了激励⾕歌前进的共同原则。
#3. AOM联盟原则
我们正在开发免版税的技术,它是开源的。并且致⼒于快速提升技术以跟上互联⽹视频世界的创新步伐。通过组成联盟,这些公司可以改善我们的开发过程,可以采⽤现有标准机构的⼀些最佳⽅法以确保推出的编解码技术能够获得⼴泛的社区反馈,并且发布了经过严格审查的⽐特流标准规范,增加额外的专利审查程序,为正在制作的免版税编解码技术提供更⼤的信⼼。
通过开放媒体联盟,我们可以多增加⼀个审查程序,增加每个会员的专利审查流程。因此,⾕歌等会员公司仍然使⽤他们⾃⼰内部和外部的法律和技术专家,来审查新的编解码器⼯具;⽽开放媒体联盟则使⽤联盟⾃⼰的律师和技术专家来进⾏第⼆轮专利审查。这是开放媒体联盟和传统标准机构之间的另⼀个巨⼤区别:我们把专利审查程序放在⾸位。
我们尽⼒吸引那些拥有丰富专利组合的公司来提供尽可能多的视频技术知识产权。努⼒确保公司正在使⽤的技术或受到开放媒体联盟会员的专利保护,或是开发⼯作中新创建的技术,或是公共领域的技术。这与其他标准机构的流程形成了鲜明对⽐。在其他标准机构的流程中,参与者主动将其专利技术纳⼊新标准,这样即使他们没有提⾼编码效率也可以获得版税。
经常有⼈问开放媒体联盟对会员公司的期望是什么,开放媒体联盟会员公司的义务是什么。实际上联盟对每个会员公司只有两项明确规定的义务:
第⼀,对我们开发的每⼀项技术都承诺免版税专利许可。这是为了确保开发过程结束时,每个会员公司都免费授权技术,没有会员公司试图改变主意收取版税。但有⼈感到困惑,这是否意味着他们放弃了收取任何专利费⽤的权⼒。答案是否定的。虽然开放媒体联盟会员不能对其⽤于开放媒体联盟制定的标准范畴内的编解码技术的相关专利收取费⽤,但同样的专利应⽤于付费标准是可以在付费标准范畴内收取专利费⽤的。
举例来说,如果开放媒体联盟的某个会员公司拥有⼀项⽤于AV1和HEVC两种标准的专利,会员不得对使⽤AV1的收取专利费⽤,但是开放媒体联盟的规则并没有禁⽌会员对于HEVC或任何收取版税的未来标准收取专利费⽤。当然也有⼀些开放媒体联盟会员拥有对各种MPEG标准⾄关重要的专利,虽然他们必须为AV1免费授权这些专利,但仍然可以对其⽤于MPEG标准中的专利收取费⽤。
开放媒体联盟会员的第⼆项义务是缴纳年费。正如之前提到的,开放媒体联盟聘请了律师来确保正在开发⼀项免版税的技术。事实上,所收取的所有会员费都⽤于聘请帮助评估专利的律师。
就这两项,会员有义务不收取任何开放媒体联盟所制定的标准的版税,并⽀付会费。
话虽如此,我们欢迎拥有许多有效视频专利的会员公司,欢迎拥有渴望开发新⼯具的⼤型编解码器团队的公司加⼊联盟成为会员,欢迎⼯程师们——不⼀定⾮得是算法专家来参加联盟的⼯作组会议参与讨论。
我们希望会员公司使⽤AV1以及将来的AV2,但不要求。
#4. 开放媒体联盟的成果
⾃2015年以来,开放媒体联盟取得了很多成就,会员也不断增加。
⽬前有47名开放媒体联盟会员。更重要的是,不断有全球领军企业加⼊,⽐如苹果、三星和脸书,还有中国的领军企业阿⾥巴巴、华为、爱奇艺、OPPO和腾讯等。
会员名单不仅反映了全球技术领军会员的深度,还显⽰了重要使⽤类型的⼴度。会员中包括开发关键流媒体服务的公司、实时通信领域的领军企业以及芯⽚和设备硬件开发的领军企业。这些不同的技术领先企业确保我们正在开发的技术,考虑了整个视频⽣态系统各个⾓落的输⼊。
在发展开放媒体联盟视频⽣态系统的过程中,这些不同的有影响⼒的会员也发挥着⾄关重要的作⽤。制定新标准只是挑战的⼀半,⽽让这个新标准应⽤到复杂的视频⽣态系统中是另⼀半。即使是最好的新视频标准,也只有在可以应⽤到所有创建和使⽤视频的⼯具和设备上时才有⽤。
对于开发商和制造商来说,使⽤新的视频编解码器是⼀场既费时⼜费钱的博弈,但是由于刚才列举的所有视频领域的领先企业的参与,开发商和制造商有信⼼,将会因为⽀持开放媒体联盟的媒体标准⽽得到回报。他们明了开源标准的授权条款,使⽤需求从何⽽来,因此可以迅速⾏动起来⽀持这些标准。
在成⽴开放媒体联盟以来的6年⾥,我们成功地招揽了很多领域的会员公司。但更重要的是兑现了新技术开发的承诺。
2018年完成了AV1视频编解码器⽐特流标准,并相⽐HEVC有了显著的性能提升。
从上图中可以看到,制造商们很快在产品线中添加了AV1⽀持,赋能开放媒体联盟的会员公司和其他⾮会员公司来提供基于AV1的新服务。
此外,我们在⼀些重要终端上进⾏了快速推⼴,使这些终端上的服务可以使⽤AV1。爱奇艺、脸书、⽹飞、Vimeo和YouTube都先期通过利⽤个⼈电脑浏览器和安卓⼿机上的软件解码器来使⽤AV1。
⽽且,随着越来越多完整的AV1硬件被应⽤到客厅设备和移动电话上,新的设备类型能够搭载AV1流,并具有⽐以前更⾼,更节能的性能。可以看到,YouTube在2020年型号的电视上⽀持AV1后,就能够⽴刻利⽤AV1的硬件编解码器来提供AV1的流服务。
AV1也迅速被应⽤到视频会议应⽤程序中,这是在AV1的应⽤⽅⾯的⼀个⾮常令⼈兴奋的事情。思科最
近宣布,在⽹讯上添加AV1⽀持;⾕歌的视频聊天应⽤程序Duo也在使⽤AV1。实时通信服务在技术上要求很⾼,需要实时编码,⽽且曾⾮常依赖硬件加速。这充分说明了AV1软件的改进速度,以及使⽤AV1改善视频会议体验的能⼒。
我们与Duo合作尤其引⼈注⽬,通过AV1,可以⽤低于60kb/s的速度实现真正良好的视频聊天体验,每秒60千⽐特,我们可以花⼀分钟来想想这件事是多么有意义。也就是说以拨号调制解调器的连接速度可以进⾏的视频会议,凸显了新压缩技术的⼒量,它确实有能⼒去改善⼈们的⽣活。
与我们推出VP9时的情况类似,HEVC也有类似的情况,就是AV1的推出催⽣市场关注这些新技术如何使新的⾼端体验成为可能。我们可以看到AV1是如何催⽣8K视频的故事,这当然是真的。YouTube⽀持8K视频,⽽这些8K视频仅在AV1中可⽤。
让我们来看看YouTube上⼀次添加新编解码器⽀持时发⽣的事情。它在2013年添加了VP9视频编解码技术的⽀持。
当时,许多合作伙伴都专注于研究VP9来实现4K或⾼帧率⾼清视频的能⼒。我认为⾄今许多流媒体服务都犯了⼀个错误,那就是只为⾼清视频引⼊新的编解码器⽽忽略了它们在标准分辨率和低分辨率中的作⽤。有⼀个⼀直都很明显的事实,那就是改进后的视频编解码技术能给那些宽带条件最差的⼈带来最⼤的体验提升。
在全球,⼏乎每个观看VP9格式视频的⽤户在YouTube上花费的时间都⽐观看H.264格式视频的⽤户多。但是,正如从上⾯这张地图中所看到的,在新兴市场,如巴西、印度尼西亚和北⾮的观看时间⼤增。因为视频开始速度更快,流媒体更流畅。⽽且⽐以前流媒体的分辨率更⾼。
现在,在互联⽹连接⾮常发达的地区如北美、西欧和亚洲部分地区,⼈们已经获得了很好的YouTube体验,新编解码技术让这个已经很好的体验更上⼀层楼,这些⽤户也在持续增加他们的观看时间。YouTube在尽⼒改善这些⽤户的体验的同时也降低了⾃⼰的流媒体成本。
所以,当开始推出AV1时,我们的计划是沿⽤VP9⾛过的路,通过AV1在新兴市场提⾼分辨率和流畅播放,同时在⽹络连接更好的地区制作⾼分辨率视频并降低流媒体成本。
我们意识到,AV1这样优秀的编解码技术⼏乎可以做任何事情。可以在改善⽤户体验的同时降低YouTube的成本。这也是在继续开发下⼀代视频编解码技术时,⾕歌团队在YouTube和其他制作团队中拥有⾮常热情的合作伙伴的原因之⼀。
#5. 下⼀个时代:AV2
这激发⾕歌团队研究AV2,也是今天与你们讨论的主要原因之⼀。尽管⽬前仍处于AV1应⽤的早期,但我们已经在努⼒开发下⼀代视频编解码技术AV2了。
经常有⼈问,刚刚才发布了⼀代新的编解码技术,真的这么快就需要开发下⼀代了吗。我还和⼀些⼈讨论过,他们认为随着⽹络技术的改进(带宽的提升),最终将解决所有的视频流问题,⽽⽹络速度将会提⾼到不再需要进⼀步压缩的地步。
过去⼀年,全世界的经历表明⼈们在⼯作、社交和娱乐中对视频的依赖程度是多么⾼,所以我们还有很长的路要⾛。可以看到流媒体视频和视频会议的使⽤量都在飞速增长。这使互联⽹的容量开始紧张。去年夏天,欧洲监管机构曾⼀度要求YouTube、⽹飞和其他流媒体服务降低分辨率以减轻互联⽹的压⼒。视频压缩的改进提供了⼀种快速提⾼⽹络吞吐量⽽⽆需构建昂贵的物理容量的⽅法。
⼤家应该都认识到了视频会议体验还有很长的路要⾛。
即使是在家⾥或办公室有着良好⽹络连接的⼈,也经常发现⾃⼰参加线上会议时,视频或者⾳频会死机、质量下降甚⾄完全退出会议。新冠病毒改变了⼈们的⾏为模式,在⼯作和个⼈交流中更加依赖视频会议。⽽这种改变不会消失,即使在新冠肺炎结束之后,也会有更多的⼈每周在家⼯作⼀两天,与合作伙伴的通话也将更多的通过视频会议进⾏。越来越多的⼈会上⽹,通过视频聊天应⽤与亲朋好友保持联系。即使