世博体育官网2024安卓最新版_手机app官方版免费安装下载-世博体育而是先让它“写札记”-世博体育官网2024安卓最新版_手机app官方版免费安装下载

世博体育而是先让它“写札记”-世博体育官网2024安卓最新版_手机app官方版免费安装下载

发布日期:2026-03-28 06:14  点击次数:158

世博体育而是先让它“写札记”-世博体育官网2024安卓最新版_手机app官方版免费安装下载

IT之家 3 月 24 日音问,阿里巴巴通义实验室本日发布了 PrismAudio,这是一个视频生成音频(Video-to-Audio)框架,其琢磨要点是环境音 / 音效合成,比如马蹄声、风雨声、金属敲击声等与画面推行同步的布景声息,而不是给东谈主物配音。

IT之家附官方属目先容如下:

PrismAudio 是首个强项化学习与念念维链风雅蚁集的视频生成环境音框架。浅陋来说,咱们教模子学会了“先念念考,再发声”,而且有四位“老诚”同期给它打分。

语义老诚盯着画面,教模子认准“这是马蹄声,不是鸟叫声”。

时序老诚拿着秒表,监督声息和看成必须严丝合缝。

好意思学老诚抉剔音质,条目声息当然、有头绪、不逆耳。

空间老诚听声辨位,查验声息是不是从该来的方针来。

但问题来了:四个老诚同期打分,淌若条目不一样何如办?比如语义老诚说“这个声息像了”,时序老诚说“但慢了半拍”,听谁的?

PrismAudio 的解法是:让模子先想明晰,再首先。

第一步:先写札记,再发声

传统的配音模子是“端到端”的:输入视频,径直输出音频。模子里面发生了什么,没东谈主知谈,也没东谈主限定。

但咱们但愿模子不是“瞎蒙”,而是“有念念路”地生成。是以,咱们没让模子一上来就生成音频,而是先让它“写札记”。

这段视频里有什么?应该发出什么声息?

声息什么时候运行?什么时候结束?章程何如排?

声息应该是什么质感?清翠还是低千里?遐迩何如处理?

声源在左边还是右边?有莫得出动?

四份札记写完,拼接成一份完好的“行为指南”,再交给音频生成模子去实践。这即是咱们说的领会式念念维链,不是让模子“一拍脑袋”出声息,而是让它把念念考进程远离、写下来,每一步齐有据可依。

第二步:四位老诚,合手续打分

生成音频后,何如判断它作念得好不好?光靠“像不像委果声息”这一个尺度,仍然会让模子再次堕入“纳履踵决”的老问题。是以,咱们给每个老诚配了一个“打分器”(奖励函数),让四个老诚各自打分,互不禁止:

语义老诚用 MS-CLAP 打分,查验声息和画面推行是否匹配

时序老诚用 Synchformer 打分,精确测量声息和看成是否同步

好意思学老诚用 Meta Audiobox Aesthetics 打分,从澄澈度、动态、丰富度等多个维度评估音质

空间老诚用 StereoCRW 打分,考证傍边声谈信息是否与画面中的声源位置一致

四个分数加在一齐,酿成一个概括评分。模子的方针,即是束缚相似我方的生成计谋,让这个总分越来越高。这样模子不会被单一尺度牵着走,而是必须同期昂扬四个的条目,哪个维度齐不掉队。

第三步:高效查考,惩处效用瓶颈

有了打分机制,下一步即是用强化学习来优化模子。

但这里有一个现实问题:强化学习查考扩散模子,太慢了。

传统时事每一步齐要作念立时采样,资本极高。淌若每一步齐这样折腾,查考一轮可能要好几周。是以咱们筹划了一个高效查考算法 Fast-GRPO。

它的中枢念念路很浅陋:把立时探索遗弃在刀刃上。只在生成进程的极短技术内作念立时采样,其余技术走快速通谈。这样既保留了探索空间,又把查考技术大幅缩小。

落幕裸露:在单独优化某个方针时,Fast-GRPO 只用 200 步就达到了传统时事 600 步的性能水平。

恶果何如样?

咱们作念了严格的测试,在传统的 VGGSound 测试集上,PrismAudio 全面特出了现存最佳时事:

在咱们我方搭建的复杂场景测试集 AudioCanvas 上,差距拉得更大:

PrismAudio 独一 5.18 亿参数,生成 9 秒音频只须 0.63 秒,比那些动辄几十亿参数的模子更轻量、更实用。

这项琢磨已被顶级会议 ICLR 2026 收录,代码行将开源

论文地址:arXiv:2511.18833

开源地址:https://prismaudio-project.github.io/世博体育



相关资讯
热点资讯
  • 友情链接:

Powered by 世博体育官网2024安卓最新版_手机app官方版免费安装下载 @2013-2022 RSS地图 HTML地图