今年春节期间,DeepSeek发展迅猛,之后全球都在探寻下一个能与之媲美的存在。
2月底,阿里开源通义万相Wanx 2.1模型,仅6天便超越DeepSeek – R1,登上模型热榜和模型空间榜榜首。此后,腾讯混元、阶跃星辰、昆仑万维等新的开源视频生成大模型也纷纷亮相。
“下一个DeepSeek”会在AI视频领域诞生吗?
无论是专业AI视频创作者,还是传统影视工业、短剧产业链以及网文平台等IP所有者,都对此极为关注。
所谓“下一个DeepSeek”,可简单理解为“模型效果处于第一梯队且开源”。关键问题在于,一个足够出色的开源视频大模型,是否会让当下的视频生成头部平台大幅降价,使视频生成变得极为廉价?
若真如此,后续又会引发怎样的连锁反应?
开源凶猛
一切要从X(推特)上突然涌现的大量AI美女视频说起。
2月25日,阿里巴巴宣布开源通义万相2.1视频生成模型,这不仅巩固了中国在全球AI开源领域的领先地位,还点燃了技术爱好者的热情。
该模型支持文生视频、图生视频任务,通过低显存需求降低了技术门槛,还支持无限长1080P视频编解码。其14B版本在权威评测Vbench中超越了Sora、Luma等海外知名模型。
更重要的是,Wanx 2.1模型的开源许可方式极为宽松,且具备许多之前开源乃至闭源模型都难以实现的能力。
它是“全球首个支持中文文字特效生成”的视频模型,能深入理解“中国风”指令,比如生成水墨晕染的“福”字视频。还能精准模拟物理规律,像雨滴溅落的动态效果。
经X网友实测,该模型对于一些特定指令,在模型层未屏蔽过多关键词,生成内容更加开放多元,引发了大量自发传播。
万相2.1开源6天内就登上Hugging Face趋势榜,也就是DeepSeek爆火前所在的榜单。它与之后开源的文本大模型QWQ – 32B先后称霸榜单,阿里被一些开发者称为“源神”。
开源如同鲶鱼搅动市场,国内其他重要的开源视频大模型也在近几个月密集发布:
腾讯混元HunyuanVideo – I2V已开源推理代码和权重,有130亿参数,支持5秒短视频生成,新增对口型、舞蹈动作驱动功能,支持中英文生成,宣称在文本一致性、运动质量等方面表现领先。
阶跃星辰Step – Video – T2V开源模型支持复杂场景生成,实测在人物动作和物理规律模拟方面表现出色,例如芭蕾舞动作生成。
昆仑万维SkyReels – V1面向AI短剧创作,基于13B参数微调好莱坞影视数据,支持T2V和I2V,能生成电影级光影和表情动作。开源一周内,Hugging Face下载量超2.4万次。其短剧应用DramaWave和FreeReels全球下载量达2309万次,内购收入流水超780万美元,若实现实拍和AI短剧混合推送,盈利空间可观。
闭源的视频大模型也不示弱。1月底,生数科技公布Vidu 2.0版本,生成速度最快不到10秒,单秒视频成本仅“4分钱”;官网还推出错峰模式(低峰时段不限量生成,且不扣积分)。
生数近期动作不断,先是老总唐家渝挖来原字节火山引擎AI解决方案负责人骆怡航加盟并担任新CEO;接着入驻联想小天,通过PC预装拉新;还与两位好莱坞导演组建的新动画工作室合作,计划合拍AI动画大片。
字节除主打即梦品牌外,去年底开始大力推广“豆包”客户端试水视频生成入口,并在今年春节前后全量上线。豆包视频生成功能免费,但每天限10次,与即梦相比,在清晰度和能力上有一定限制。
价格战前夜?
DeepSeek通过技术优化,普及了原本昂贵的推理模型,大幅压缩成本,API定价仅为OpenAI同类模型的3%。
这迫使国内外闭源大模型厂商紧急调整。OpenAI将GPT – 4.5、深度研究等功能从200美元/月的最高档会员下放,o1释放思维链供用户参考。百度原本收费50元/月的文心一言会员4月1日起全面免费。阿里通义、腾讯混元大模型API价格下调至每百万tokens 0.1元左右。
目前,国内视频生成领域的两大头部平台可灵和即梦,会员定价坚挺,分别为66元/月和69元/月。虽包年稍便宜,有时有折扣,但总体单次生成费用约0.6元/秒。
由于缺乏局部修改功能,创作者需多次随机生成来完成内容制作,单个镜头常需反复生成几十次。
由传统广告公司转型AI短剧的夫子AI团队表示,他们开通了可灵和即梦的包年会员,两家年费共5594元(平均每月约466元)。他们制作的AI短剧《我在阴间送外卖》,单个镜头需“抽卡”30次以上,每次约3.5元,单镜头成本超100元,整部短剧制作成本约5000元,最终播放量超90万,虽无直接收入,但吸引了商业客户咨询。
由广告人转型AI科幻短片的希希叔叔,选择制作非系列化单集短片,如《失败者宇宙》,降低对画面一致性的要求。他每月花约200元开通可灵 + 即梦会员,单部短片成本控制在2000元以内。作为个人创作者,他通过会员积分和“闲时折扣”压缩成本,一部短片制作周期约7天。
由UI设计师转型AI短剧的丹尼,主要靠本职工资支撑创作。他制作的《白骨精前传》“抽卡”花费约5000 – 6000元,平均每月投入超1000元。他尝试过海外服务,但Runway价格是可灵的10倍(约1美元/5秒视频),所以坚持使用国内平台。
对比海外定价,国外平台费用平均约为国内的5 – 6倍。谷歌最新发布的Veo 2视频生成模型,每秒0.5美元的定价更贵,4秒钟就要15元。
参照DeepSeek引发的低价风潮,一个广泛普及的视频生成大模型,有望使头部闭源模型的API价格降至原来的1/10;企业服务可能从万元级项目制转向百元级订阅制,“大模型施工队”可能再次面临失业。
若开源视频大模型复制DeepSeek的发展路径,当前可灵、即梦等,乃至Sora、Veo等海外模型的商业模式都可能面临巨大挑战。
视频的特殊性和普遍性
万相2.1虽优秀,但还未达到让友商纷纷接入的程度,所以价格战尚未打响。实际上,目前市面上的AI视频大模型,效果都无法完全替代真人实拍,“油性”即“AI味儿”很重,更不用说乱码和幻觉问题。
即便有商业化想法,人们也不敢给AI短片定与人工短片相同的价格。湖南台风芒App播出的《兴安岭诡事》制作成本60万,全集解锁只需5.9元,与真人微短剧不在同一水平。该剧最终播放量达5000万次。
有人乐观地将万相2.1比作DeepSeek的V3或V2阶段,期待一个视频版“R1”能带来业界期盼已久的变革。
但实际情况可能没那么简单。
目前国内AI视频创作者使用的平台各有特色。可灵的核心优势是真实的人类动作和高清晰度。可口可乐广告团队认为可灵生成的人类动作更自然,画面清晰度领先于其他工具(如Leonardo、Runway)。
娱乐资本论此前报道,创作者董嘉琦提到可灵对文本的语义理解能力更强,模型迭代快,能快速响应复杂需求;擅长生成符合东方审美的场景和人物,适合广告、短剧等需要真实感和高完成度的场景。
创作者朱旭评价,即梦对物理世界的运动逻辑(如物体碰撞、光影变化)模拟更精准,适合现实类短片、纪录片风格内容。即梦也较早推出首尾帧控制功能。
生数Vidu在动漫风格化、多主体参考功能上表现出色(如生成多角色互动镜头)。就像其在《毒液:最后一舞》的水墨宣传片中展示的,生成的镜头运镜更有创意,适合抽象或艺术化表达,受二次元动画、艺术实验短片作者欢迎。
Runway、Luma等国外工具常用于欧美风格创作。
所以,专业视频团队很难完全摆脱对定价较高的“两巨头”的依赖,就像作图领域虽有豆包替代,但MidJourney或Recraft的特定风格仍有一定受众。
目前开源视频模型的发展未达DeepSeek的高度,但视频生成领域的价格战或许已箭在弦上。
同属闭源模型的生数科技Vidu,推出2.0版后上线全新收费套餐,将每秒单价成本最低降至4分钱。以720P每秒单价计算,Vidu 2.0为0.258元/秒,不到行业平均价格的一半;官网“错峰模式”在半夜“抽卡”甚至全免费。
去年底,生数科技投融资负责人樊家睿对娱乐资本论表示,今年Vidu预计在生成速度、多元一致性和多模态真正融合方面有重大突破。“在生成速度上,Vidu将进一步‘逼近极限’。提高速度意味着提升性价比,AI视频生成会更普及、高效。”
大家都在思考“大模型全开源了,怎么盈利”的问题。其实即便没有开源冲击,闭源厂商也会在价格上竞争,因为视频大模型背后并无太多秘密。
正如Manus联合创始人张涛所说,看似强大的Sora也是“大算力出奇迹”的常规路线,是算力、算法、数据堆叠的结果。各家闭源厂商按常规发展,就能快速扩大规模、降低价格。
年初备受关注的Sora最终表现不佳。在国内视频生成模型的竞争中,国内模型效果迅速达到世界领先水平,获得全球客户认可。去年圣诞节可口可乐的广告就以可灵为主力工具。
根据AI产品榜2月份应用(不含网站端)数据,可灵海外版全球认知度更高,在出海总榜排第12位,海外版月活环比增幅达90.55%。相比之下,曾经热门的Luma月活下降31%,是2月统计中降速最大的应用。
当前问题是,该赛道的参与者还不够多。
API和本地部署问题
影响定价的另一个因素是,若云计算平台开放部署一些视频大模型的API,或用户在本地电脑安装较小模型,降低普通视频制作成本,是否会促使头部模型降价?
春节期间,DeepSeek官网和官方API因流量涌入而瘫痪,但“一鲸落,万物生”,云计算提供商越早部署R1,用量增长越快。
微软、腾讯、百度都迅速在云服务和C端产品接入DeepSeek。硅基流动日均调用量突破千亿token,较半年前增长十倍,从小型云服务商变得广为人知。
在视频生成模型方面,近期知名的开源模型已在HuggingFace和魔搭等平台开放使用。若厂商有自己的云,也会第一时间部署。
作为没有自有云的小厂,阶跃的模型和Vidu等类似,优先服务于自家官网平台,当前首要任务是让更多人使用。
不过,这些服务都未出现用量“国运级别”的暴涨。
当然,中小型云服务商乐意接入更多开源模型,以锁定用户。去年11月,硅基流动上线Lightricks开源的视频生成模型LTX – Video,这是基于DiT架构的2B参数模型,能在832*480分辨率下生成24 FPS的视频。
但现实问题是,目前对视频生成模型API的调用缺乏通用方案。Chatbox、Cherry Studio等网页UI或客户端,只覆盖文字对话或文生图界面,视频生成界面和参数尚未统一。
而且,从文本、图片到视频,token的消耗和浪费成倍增加,用户用量相应减少。
视频还有一个问题,每次预览“抽卡”成果都会给服务器带来较大负担。娱乐资本论曾探讨国内视频网站画面模糊的原因,提到平台因服务器成本压力,不得不降低码率,用锐化等方法处理。
云服务商需要进行性能调优,例如硅基流动的OneDiff加速库可使Stable Diffusion出图效率提升3倍。但如何将此类经验应用到视频领域,为普通用户节省成本,形成对商用模型的竞争,尚无定论。
本地部署模型虽免费不限量,但此前存在性能不佳的问题。
DeepSeek – V3和R1有大量社区用户结合llama、qwen进行蒸馏,使其能在PC、Mac甚至手机上运行。这是两年多来,用户首次能断网使用基本可用的模型,本地大模型不再只是摆设。
但在图片和视频生成方面,还未达到这一水平,目前本地小模型使用仍很困难。用户能本地部署Stable Diffusion已久,但Midjourney并未因此降价。
通义万相2.1小型的1.3B版本可在消费级显卡(如RTX4090)运行,生成480P视频只需4分钟,但无法保证解决画质、一致性、细节和幻觉问题。
总之,视频和图片一样,若不能局部修改,只能靠“抽卡”生成,现有模型仅靠画风和连续性的细微差异,将维持各自的市场地位。
AI视频创作彻底下沉
根据AI产品榜2月份应用数据,国内总榜中即梦排第9,月活环比增加106%;Minimax的海螺排第19(分拆改名前数据),环比月活增加10%,且海螺以日均使用时长6.63分钟排在国内时长榜第2位;可灵独立客户端排第23,月活环比增加113%。</p
2 本站部分内容来源于网络,仅供学习与参考,如有侵权,请联系网站管理员删除
3 本站一律禁止以任何方式发布或转载任何违法的相关信息,访客发现请向站长举报
4 精准获客感谢您的访问!希望本站内容对您有所帮助!
暂无评论内容