声网与RTE开发者社区联合主办的RTE2023第九届实时互联网大会于昨日正式开幕。此次大会汇聚了众多RTE领域的技术专家、产品精英、创业者与开发者,大家就AIGC、出海以及数字化转型等热门话题进行了深入探讨。

在开幕演讲中,声网创始人兼CEO赵斌宣布,“声网在RTE行业首次实现广播级4K超高清实时互动体验。”他强调,“4K不仅仅是分辨率的提升,动态范围、色彩的真实度和饱和度,以及色彩渐变的细腻度,都是超高清体验不可或缺的组成部分。”广播级超高清将带来更真实的视觉体验,高对比度和丰富的色彩能够使影像更加生动,细节更加清晰,从而提升观众的整体观影体验。
赵斌指出,结合虚拟人和AIGC所创造的情感与情绪价值,未来有望解决社交供需不平衡的问题,并引领交互对象的变化。随着AIGC能力的不断提升,越来越多的应用开发将被AIGC所替代,API与AI的结合将极大提高开发效率。
尽管大模型在快速发展,但当前的交互界面仍然局限于文字聊天。赵斌提到,经过一年的努力,声网推出了行业首创的AIGC-RTC能力模块,能够与任何大模型平台结合,实现更低延迟、更自然和更沉浸的实时语音对话,为企业协作、社交、直播和游戏等多种场景提供新的玩法和机会。
在AI等核心技术的推动下,实时互动的QoE体验正在变化,这对用户留存和使用行为的影响愈加明显。声网合伙人兼客户成功副总裁孙雨润介绍道,“根据声网在某东南亚的头部泛娱乐客户的数据,当视频从标清升级到高清时,观众的停留时间超过30秒,观众数提升了19%,人均观看时长提高了30%,同时观众的打赏率也大幅提升。某国内知名社交出海应用在升级至声网极速直播后,送礼率增长了12.3%。”
AIGC被视为当前技术革命的重要组成部分,它与RTE的深度结合将带来怎样的变化呢?FoundeRs space创始人兼CEO史蒂夫·霍夫曼在分享中指出:“人工智能将对多个领域产生深远影响。在AI赋能的RTE未来,我们将体验到更加个性化的互动,动态程序将随着图形、音频和视频的实时变化而变化,AI将为我们带来前所未有的连接方式。在更深层次上,AI还将提升人类的生产力,创造动态的虚拟世界,让我们享受到更为沉浸的体验。”
史蒂夫·霍夫曼还表示:“在AI与RTE技术的加持下,新的穿戴设备可能会问世,如皮肤电子设备和感官增强设备,它们能够让我们听到超出人类听力范围的频率。此外,脑机接口将读取我们的脑电波,帮助我们实现冥想或控制其他设备。”在工业RTE场景中,人们可以聚集在一起,实时观看虚拟或真实工厂的流水线运作和产品生产。在AI伴随的场景中,人工智能伴侣将成为人们社交生活、娱乐和工作的一个组成部分。
综上所述,未来可能会出现各种类型的伴侣应用和新的实时接口,同时也可能会开发出全新的硬件,以极大地改变RTE领域的发展前景。
随着AI时代的来临,实时互动的发展将何去何从?声网首席科学家、CTO钟声从技术角度进行了深入探讨。
钟声指出,回顾过去五年,最显著的事件是大模型的突破。从2017年的Transformer到如今的ChatGPT-4,人工智能的发展使信息传播和消费日益智能化,中心化AGI接管的趋势和威胁也愈加明显。尽管大模型带来了发展机遇,但也伴随了计算需求的快速增长、算力受能源供应限制、大模型数据资源不足、存储需求激增等问题。未来,我们不仅要关注负责任的AI,还需在端侧和边缘实现分布式实时智能,从而成为价值公平分配的重要技术手段,并减缓中心化AGI对人类的潜在威胁,这将成为新的技术发展趋势。
钟声认为,AGI将融入实时互动,帮助在应用场景中复制名师、网红,甚至普通人也能通过AI分身丰富体验,缓解时间的稀缺瓶颈。此外,他预测,具备端边实时智能的高清实时互动能力将成为新的趋势与竞争焦点。
钟声介绍,实时高清需要多种端上实时AI支持。在低层次视觉与音频的需求层面,声网的SDK 4.1.x和4.2.x版本已支持1080P/4K视频的超分辨率、虚拟背景、感知编码、降噪和去回声等底层计算机视觉和高音质计算机听觉处理能力。在高层次视觉与音频方面,声网已初步实现对物体、声音和场景的理解与重构,包括面部捕捉、动作捕捉、情感计算、物体识别和场景重建等,这将显著改善多种应用场景下的用户体验。
AI技术的发展为各行各业带来了用户体验的改善和场景玩法的创新。对此,喜马拉雅首席科学家卢恒、Soul app技术副总裁张高政、小红书音视频架构负责人陈靖、商汤科技商务总监兼数字文娱事业部副总裁李星冶、声网首席运营官刘斌等进行了圆桌讨论。

在讨论AI技术对业务发展的影响时,卢恒表示,作为全国最大的有声内容平台,喜马拉雅在文本处理和音频内容生成中应用了大量AI技术,目前AIGC生成的音频内容日均播放量已超过250万小时。张高政则提到,大模型的理解能力对UGC平台和用户是极为有利的,它不仅能快速提升内容生产效率,还能降低内容生产的门槛。
AI大模型的发展既带来机遇也带来挑战。陈靖指出,对于许多公司而言,清晰阐述AI大模型项目的必要性是一大挑战,因为许多项目难以与用户留存和转化等指标建立直接关联。李星冶则表示,他观察到的挑战主要有两点:首先,在为许多C端流量产品提供服务时,算力、带宽和智力相关的弹性储备是一项现实挑战;其次,大模型开发商如何平衡投入与预期收入之间的关系也是一个难题。嘉宾们分享了AI大模型在实时互动领域的一些创新玩法,陈靖提到提高主播观看率的美颜美体功能可能是AI为实时互动领域带来的最大贡献,希望未来能看到更多新的尝试。
如刘斌所总结的,无论未来面临怎样的挑战或机遇,我们都应在各自的行业中积极尝试。我们期待在大模型新范式的发展下,看到越来越多的场景落地和业务价值的实现。
