文档秒变演讲视频还带配音!开源Agent商业报告/学术论文接近人类水平:学术论文

PresentAgent团队 投稿

量子位 | 公众号 QbitAI

现在的AI Agent在文档生成PPT或视频方面,要想像人一样,把文字、图片、讲解、音视频全都串起来讲清楚,还真不太行学术论文

来自澳大利亚人工智能研究所、利物浦大学、拉筹伯大学的团队联合提出PresentAgent,一个多模态智能体,旨在自动将结构化或非结构化文档转化为配有语音讲解和同步幻灯片的视频演示,实现一个完整集成的视频体验,模拟人类演讲者的信息传递方式学术论文

打工人福音啊学术论文

文档秒变演讲视频还带配音<strong></p>
<p>学术论文
</strong>!开源Agent商业报告/学术论文接近人类水平:学术论文

它能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示,比如商业报告、技术手册、政策简报或学术论文等学术论文

团队在测试集上进行了验证,结果表明,PresentAgent在所有评估指标上接近人类水平的表现学术论文

文档秒变演讲视频还带配音<strong></p>
<p>学术论文
</strong>!开源Agent商业报告/学术论文接近人类水平:学术论文

方法:模块化生成框架PresentAgent

将长篇文档(如商业报告、技术手册、政策简报或学术论文)制作成高质量演示视频通常需要耗费大量人工精力学术论文

这个过程涉及内容筛选、幻灯片设计、讲稿撰写、语音录制,以及将所有内容整合成一个连贯的多模态输出学术论文

文档秒变演讲视频还带配音<strong></p>
<p>学术论文
</strong>!开源Agent商业报告/学术论文接近人类水平:学术论文

该任务的挑战远超传统的摘要或文本转语音系统学术论文 ,因为它需要:

选择性内容抽象

基于布局的视觉规划

视觉与语音的精确多模态对齐

为应对上述挑战,团队提出了一个模块化生成框架——PresentAgent,如图1所示学术论文

其流程包括:1、将输入文档语义分块(通过大纲规划);2、为每个语义块生成具有布局指导的幻灯片视觉内容;3、将关键信息重写为口语化解说文本;4、语音合成后,与幻灯片进行时间同步,最终生成一个结构良好、讲解清晰的视频演示学术论文

文档秒变演讲视频还带配音<strong></p>
<p>学术论文
</strong>!开源Agent商业报告/学术论文接近人类水平:学术论文

△图1:PresentAgent概览

该系统以文档(如网页)为输入,经过以下生成流程:(1)文档处理(2)结构化幻灯片生成(3)同步字幕创建(4)语音合成学术论文

最终输出为一个结合幻灯片和同步讲解的演示视频学术论文 。图1中紫高亮部分表示生成过程中的关键中间输出。

输入端的文档形式如图2所示,展示了评估基准中的文档多样性学术论文

文档秒变演讲视频还带配音<strong></p>
<p>学术论文
</strong>!开源Agent商业报告/学术论文接近人类水平:学术论文

△图2:评估基准中的文档多样性

如图3所示,左侧给定多样的输入文档,如论文、网站、博客、幻灯片或PDF,PresentAgent能生成带讲解的演示视频,输出为同步的幻灯片和音频学术论文

图3右侧学术论文 ,团队设计了PresentEval,一个双路径的评估框架:

客观测验评估(上)学术论文 ,通过Qwen-VL进行事实理解检测;

主观打分评估(下),借助视觉-语言模型从内容质量、视觉设计与语音理解等维度进行评分学术论文

文档秒变演讲视频还带配音<strong></p>
<p>学术论文
</strong>!开源Agent商业报告/学术论文接近人类水平:学术论文

△图3:方法框架概览

值得一提的是,整个流程具有可控性和领域适应性,适用于多种文档类型和演示风格学术论文

评估:接近人类表现水平

为有效评估此类复杂多模态系统,团队整理了一个涵盖教育、金融、政策与科研等多个领域的30组人工制作的“文档-演示视频对”的测试集学术论文

同时,我们设计了一个双路径评估策略:一方面使用固定选择题测试内容理解;另一方面通过视觉语言模型打分,评估视频的内容质量、视觉呈现与观众理解程度学术论文

考虑到这种多模态输出的评估难度,团队引入了PresentEval,一个由视觉-语言模型驱动的统一评估框架,从以下三个关键维度全面打分:内容忠实度(Content Fidelity)、视觉清晰度(Visual Clarity)、观众理解度(Audience Comprehension)学术论文

评估采用基于提示的方式进行学术论文 。团队在一个精心整理的包含30对“文档-演示”样本的数据集上进行了实验验证,如下图所示。结果表明,PresentAgent在所有评估指标上接近人类水平的表现。

这些结果展示了可控多模态智能体在将静态文本材料转化为动态、有效、易获取的演示格式方面的巨大潜力学术论文

这表明将语言模型、视觉布局生成与多模态合成结合,能够实现可解释、可扩展的自动演示生成系统学术论文

论文链接:

hts://arxiv.org/pdf/2507.04036

代码仓库:

hts://github.com/AIGeeksGroup/PresentAgent

本站内容来自用户投稿,如果侵犯了您的权利,请与我们联系删除。联系邮箱:835971066@qq.com

本文链接:http://dfjyzz.com/post/98.html

学术论文发表网