当前位置:首页 > 每日新闻 > 正文

生数科技CEO唐家渝:视频生成尚处早期,还有技术瓶颈待突破

“用AI做叙述类影片,可能废片的比率会是50:1,即生成50张图片,其中只有一张才可能符合这类叙述创作。”9月11日,在北京生数科技有限公司(以下简称生数科技)举办的媒体开放日活动上,一名影视创作者在分享时作出上述表述。

伴随着大模型生成技术的发展,越来越多的影视创作者开始尝试将AI技术用于创作之中,但就目前看来,还存在很多痛点。

“AI生成视频不可控,元素一旦多就无法理解多个角色和空间场景。”来自AI影视创作者Vicky表示。来自海内外多位AI影视创作者表示,在实际创作过程中,普遍存在的核心问题即可控性不足或一致性不足,尤其当涉及复杂场景和交互场景时。

尽管AI视频模型在遵循指令方面表现出色,但输出结果仍有不确定性,可能需要多次尝试才能生成较为满意的画面。另外,AI生成模型在运镜、光影效果和细节处理方面仍然存在限制,难以做到完全精细地控制。

生数科技于今年7月30日正式上线了AI生成视频大模型,为了帮助创作者提升效率,该公司日前将视频模型Vidu的功能进行了新升级,发布了“主体参照”功能,该功能即针对一致性问题进行的开发,它可以实现对任意主体的一致性生成,让视频生成更加稳定、可控。

“主体参照”功能允许用户上传任意主体的一张图片,Vidu能够锁定该主体形象,通过描述词任意切换场景,输出主体一致的视频。

9月11日,澎湃科技(www.thepaper.cn)记者登录生数科技官网Vidu平台尝试视频生成。分别上传了一张美国影星莱昂纳多·迪卡普里奥的三维图片,输入“蓝天”、“酒杯”、“敬酒”等关键词;以及一张日本动漫《跃动青春》女主角的二维截图,并输入“跑步”、“迟到”、“早晨”等关键词。实测发现,三维图片生成的视频中人物主体性和原图有较明显差别;二维动画风格的人物主体性、画面细致流畅度明显优于三维写实风格。

生数科技CEO唐家渝:视频生成尚处早期,还有技术瓶颈待突破  第1张生数科技CEO唐家渝:视频生成尚处早期,还有技术瓶颈待突破  第2张
AI根据三维图片生成的视频。(00:03)