资讯分类

营收超1亿美元！可灵，凭什么？ -

来源：爱看影院iktv8人气：97更新：2025-09-02 07:26:51

由第一财经记者何昕晔与吴洋洋报道，近期YouTube平台上出现了一部探讨克隆议题的短片《Kira》（克隆人），该片时长接近16分钟，其剧情设计、视觉呈现以及音乐风格均展现出与《黑镜》相似的特质。然而，与《黑镜》单集制作成本动辄数百万美元的豪华配置形成鲜明对比，《Kira》的创作者Hashem AI-Ghaili公开表示，这部作品仅耗费了12天时间，通过与「多个AI工具」进行600次交互便完成制作，总成本控制在500美元以内。该短片在YouTube发布后收获了5.9万次观看，随后被搬运至国内平台Bilibili后，播放量迅速攀升至47.9万次。尤为值得关注的是，短片前半部分的弹幕评论中，观众仍在热议该影片是否为AI生成，而在后半段，弹幕内容则完全转向剧情讨论——这表明观众已被内容本身深深吸引。

《Kira》是一部聚焦克隆人题材的短片，由Hashem AI-Ghaili在其YouTube频道发布。此前，该创作者还制作了一部引发中国社交媒体热议的作品《The Colorless Man》（无色人），其制作周期同样仅为两周，成本控制在600美元以内。Hashem本人负责剧本创作，其余工作则借助AI技术高效完cheng：ChatGPT、MidJourney和Dreamina（即梦）负责视觉设计，Kling（可灵）处理视频剪辑，ElevenLabs兼顾语音合成与音效制作，Dreamina同步唇形动画，Suno创作背景音乐，MMAudio则辅助音频处理。

《The Colorless Man》是一部讲述无色人故事的影片，其创作者Hashem AI-Ghaili出生于1990年，身为分子生物学家的同时，还兼具科学传播者与导演的双重身份，其在Facebook平台拥有3491万粉丝。在推出AI辅助影片《Simulation》（模拟）并斩获伦敦独立电影奖提名之前，他已深耕视频创作领域。

视频生成技术曾在AI赛道中被视为发展潜力有限的领域。2023年时，百川智能创始人王小川曾明确表态「不跟」，认为该方向「既不代表AGI，也不代表场景」。同年三季度，百度CEO李彦宏在内部总监会上同样表示：「Sora这类视频生成的投入周期过长，十年甚至二十年都难以见到商业回报。无论市场热度多高，百度都不会涉足。」然而，仅一年后，像Hashem这样的创作者已开始用AI制作的影片赢得电影节认可，或通过内容引发用户情感共鸣。与此同时，可灵等视频生成模型和公司也在这一尚未完全成熟的领域实现了商业化突破。

根据可灵母公司快手2024年6月初披露的数据，该模型年化营收（ARR）在3月已突破1亿美元，这一数字超越了MiniMax。英国《金融时报》2023年10月曾报道，MiniMax当时向投资者透露2024年有望实现7000万美元营收。值得注意的是，MiniMax此前以语言模型为核心，其主要盈利产品面向海外市场。相比之下，QuestMobile数据显示，腾讯元宝在2024年上半年的月活用户仅为2480万。

尽管视频生成模型的技术成熟度仍落后于语言模型，但可灵已展现出显著的商业化潜力。作为国内首个上线且开放用户使用的类Sora模型，其自2024年6月发布1.0版本以来，快手持续进行技术迭代，先后推出1.5、1.6及2.0版本。这些更新不仅扩展了训练数据和参数规模，更在交互层引入了多项提升生成效果的「可控性」功能，其中「首尾帧」功能允许用户上传首帧与尾帧图片，由模型自动生成连贯过渡画面。

在可灵1.5版本更新中，新增了「运动笔刷」、「人脸一致性」和「口型同步」三大功能，这些功能显著增强了视频生成的可控性。其中「运动笔刷」允许用户为图像中的元素设定运动轨迹，模型即可依据指令实现元素的精准位移；「人脸一致性」功能通过上传多张人脸图像训练模型，使其在不同场景中生成的人物形象能够保持统一特征，这对以人物为核心内容的影视制作具有关键意义。商业创作者如广告商与电影制作团队，若缺乏人脸一致性技术，将难以充分信赖视频生成模型作为可靠工具。

可灵AI近期推出1.6版本，新增了多图参考功能。该功能允许用户上传数张图片作为参考素材，模型将综合分析这些图像的构图、风格、色彩等元素，从而生成更符合预期的视频内容。例如，若用户上传猫、夹克和太阳镜的图片，并要求生成「穿着夹克和太阳镜的人形猫在舞台上摆pose」的视频，系统便能将指定元素整合至视频中，实现更可控的创作效果。用户还可通过图片指定背景、主角等要素，提升生成内容的精准度。此前，视频生成效果主要依赖文字提示，成功率较低，业内常用「抽卡率」形容通过文字描述获得满意视频的概率。据报道，Sora生成的300个视频中仅有约1个可用，抽卡率不足0.3%。可灵AI事业部负责人盖坤曾表示，这种低成功率源于文字单模态提示的局限性，强调需要更直观的交互方式。

2024年4月，可灵推出2.0版本，整合了交互层多项创新，支持多模态交互模式。用户可上传参考图像、视频片段，并指定人物身份、外观、场景、动作等参数，这种交互方式被命名为「MVL（多模态视觉语言）」，被视为「人机交互的新范式」。据可灵运营负责人曾雨珅透露，1.6版本是用户增长的重要转折点，2.0版本则成为第二个里程碑。数据显示，1.6版本发布时用户量突破600万，到2.0版本时用户数已超2200万；而自2.0版本发布后，用户数再次翻倍，达到4500万。

尽管部分功能非可灵首创，但其对技术的快速迭代能力显著。例如，首尾帧技术由Luma首创，快手在7月8日跟进支持；角色一致性技术由生数科技开发，可灵在9月更新的1.5版本中实现应用；多图参考功能则由生数科技于11月率先上线，快手在1月的1.6版本中推出。可灵在视频生成领域的商业化表现与行业标杆Runway相当，The Information数据显示，Runway去年12月ARR（年度经常性收入）达8400万美元。相比之下，生数科技、字节跳动即梦AI、Minimax海螺AI等产品虽已实现盈利，但规模仅为可灵的十分之一。

在市场表现方面，可灵的市场份额持续领先。Poe发布的《2025年春季AI模型使用趋势》显示，5月初可灵动销占比达30%，超过Runway的23.6%和Veo2的16.6%。Freepik CEO Joaquin Cuenca Abela在WAIC2025期间透露，其平台接入了10余个视频生成大模型，但用户选择使用可灵生成的视频数量，超过了其他模型的总和。可灵AI运营负责人曾雨珅指出，虽交互层价值被低估，但模型层的底层能力仍是核心，强调「没有强大的模型支撑，任何交互创新都难以落地」。

POE平台上的视频生成模型调用分布正在经历显著变化。然而，这种市场主导地位并非牢不可破。去年Luma AI推出Dream Machine模型后，仅用四天便吸引了超过一千万用户，而这些用户此前大多曾使用过Runway和Pika。当前市场仍呈现出用户粘性薄弱的特征，Poe榜单中的市场份额波动清晰印证了这一趋势：每当有新模型上线，市场份额便会快速更迭。数据显示，Runway在1月时占据平台40%的份额，至5月已缩减至约20%；而Google的Veo 2模型上线后，市场份额从零迅速攀升至30%；可灵2.0大师版则在发布三周内斩获21%的市场份额。值得注意的是，包括可灵、Runway在内的视频生成企业均将战略重心放在P端（专业用户）市场，这类付费用户对模型性能的敏感度天然高于免费用户。同时，资金实力更为雄厚的大型企业正加速追赶步伐。全球范围内，Google已于今年5月推出具备声音生成功能的Veo 3模型，此前市面上的视频生成模型均需后期添加音频。根据SimilarWeb的数据，Veo 3发布后，Google AI相关服务的访问量同比激增了162%。

2023年5月，字节跳动推出整合后的视频生成模型Seedance 1.0。在国内平台上，字节跳动旗下的即梦同样在追赶可灵的步伐。相较于快手在去年9月底发布的PixelDance和Seaweed，字节跳动在视频生成领域的发展稍显滞后，但随着今年4月AI Lab团队并入Seed团队，其研发进度加快。直到5月，字节跳动将这两个模型融合，正式发布豆包视频模型Seedance。团队与产品的整合标志着字节跳动在视频生成方向上的加速推进。可灵作为行业先驱已引领市场一年，其未来的挑战可能更加严峻。以下为第一财经「新皮层」与可灵AI运营负责人曾雨珅的对话实录（内容经删减和编辑）：

①新的交互方式：灵动画布

新皮层：在WAIC期间，可灵发布了「灵动画布」这一功能，该功能能为用户带来哪些具体价值？曾雨珅：我们认为，它能够有效帮助用户维持创作时的心流状态，使整个创作体验更加流畅，并新增了团队协作能力。该功能在很大程度上类似于一个工作流（workflow）。我们在统一画布中整合了文生图、图生视频等多元功能，形成流程化操作，同时每个步骤均支持协同功能。观察发现，在AI时代，许多场景下单凭个人难以完成所有创作，10人规模的生产工作室十分常见，灵动画布也能够有效解决此类协作需求。

新皮层：是否意味着灵动画布本质上是一个创作工具而非成品展示模块？曾雨珅：确实如此，它是一个创作工具。我们的目标是将可灵从AI素材生成器升级为一站式AI创意平台。传统AI生成需要在不同页面和窗口间频繁切换，过程繁琐。我们希望通过灵动画布实现所有创作在单一界面完成。工具切换的不便性在于每次生成结果都是独立呈现的，即便在统一平台，图生视频与文生视频入口也可能分散。例如，完成文生图后开展图生视频操作，入口不同且不够直观。将这些功能整合到画布后，流程各环节的关系将更清晰。如需保持人物一致性，使用同一图片进行多次生成，结果会在画布上集中展示，便于筛选优质素材。

新皮层：这是否代表了一种新的交互方式？曾雨珅：更准确地说，这是一种交互体验的革新。新皮层：提到团队协作功能，是否仅限于管理可灵平台生成的素材？曾雨珅：目前主要管理平台内生成的素材，同时支持导入其他来源的图片和视频。

②「从一开始，我们就知道可控能力很重要」

新皮层：可灵过往1.5、1.6及2.0版本在交互层面有诸多创新，您的年化营收突破一亿美元，这一成绩是否主要依托于交互层的突破？曾雨珅：模型效果和交互设计都有影响，但第一阶段的成功更多源于模型本身的技术优势，包括动态质量、画面质量、美学表现等。之所以聚焦视频商业潜力，主要有两个原因：首先，视频素材生成市场规模达千亿级别，且已有大量自媒体制作纯AI内容；其次，AI工具已深度渗透传统内容创作流，如Netflix在财报中披露，其新剧《the eternaut》采用AIGC镜头，Amazon Prime推出的《House of David》同样运用了相关技术。综合来看，无论是个人创作者还是行业应用，都有大量落地案例，这也解释了为何能实现不错的商业化营收——模型效果已能在现有市场实现部分替代，增量市场亦开始显现。

新皮层：交互或可控能力在多大程度上影响了视频生成的商业化？曾雨珅：除模型效果外，控制能力同样关键。初期强调模型效果，但随着技术迭代，控制能力成为用户体验的关键。从可控性角度看，协作性与易用性是产品端重点优化的方向，如首尾帧功能、运动笔刷功能、多图参考功能等，均有助于创作者保持人物角色、物体、场景一致性。而灵动画布等新交互体验则提升了协作效率，使创作者能更高效整合复杂的AI创意生产过程。

新皮层：您提到的首尾帧、运动笔刷等功能，从去年下半年开始集成到模型中，当时为何选择开发这些能力？曾雨珅：从研发之初，我们便深知可控能力的重要性。一方面通过与不同层级的创作者沟通收集需求；另一方面DiT（Diffusion Transformer）模型架构存在不可控性，却带来了创意的发散性。基于用户反馈，我们明确可控性是生成优质内容的核心。缺乏一致性便无法完成完整时长的视频内容，例如1分钟、3分钟乃至30分钟的作品。

新皮层：可控性是否限制了视频的长度？曾雨珅：不仅如此，还会制约叙事能力，进而影响技术在内容产业中的应用深度。新皮层：这些可控功能是如何将视频生成从随机状态转变为可控制状态的？曾雨珅：可以理解为从随机生成转变为能讲述指定故事的状态。没有主体、物体、环境的一致性，作品可能呈现片段化特征。例如，某一帧是人物采访，下一帧切换为其他场景，缺乏一致性则难以构成完整叙事。大多数故事都有固定主角与场景，包括场景细节如花瓶数量等，这些关键元素需保持一致，否则难以构建合理情节。

新皮层：是否意味着模型能识别并保持用户指定的不变元素？曾雨珅：在可控能力中，指令遵循能力尤为重要。从技术层面看，指令遵循是最理想的控制方式，通过文字即可调节所有一致性需求。然而部分内容难以用文字精确描述，如人物外貌。即使能描述，也存在呈现偏差。因此我们采用多模态视频生成路径，即通过多模态输入和输出实现更精准控制。用户上传照片时可选择模型参考区域，如仅保留人脸特征或同时包含服饰的整体特征，从而实现更灵活的控制。

③可灵1.6版本成为重要分水岭

新皮层：贵司在可控一致性方面的首个功能是什么？曾雨珅：是首尾帧和运镜控制功能，固定首帧与尾帧后可有效控制画面主体一致性，这是一项简单但适合商业化场景的基础能力。新皮层：首尾帧、运动笔刷、多图参考等功能是否获得显著市场反馈？曾雨珅：确实获得明确反馈。从1.0到1.5、1.6、2.0、2.1版本，每代产品均有显著提升。1.6版本及其中的首尾帧功能广受创作者好评，因为其在动态质量、画面表现等方面有更好呈现。这些功能使创作者能完成1-3分钟的完整叙事，而不仅是片段创作。我们通过产品使用量、用户规模、收入数据等直接指标评估，相关数据均显示业务取得实质进展。

新皮层：1.5到1.6版本，再到2.0模型，用户规模是否实现跨越式增长？曾雨珅：1.6版本是首个重要分水岭，当时用户规模与口碑均表现突出。2.0和2.1版本则构成第二个里程碑。

新皮层：贵司是否是行业内首个提出多模态交互概念的？曾雨珅：多模态编辑语言（Multi-modal Visual Language，MVL）确实是我们率先提出的。虽然行业内对创作痛点存在共识，但我们在多模态技术路线的选择与坚持上更具优势。目前多数企业仍基于已验证的DiT视频生成模型进行优化，而我们更早布局多模态交互的深度整合。

新皮层：是否比同行更早认知到交互层多模态能力的战略价值？曾雨珅：是的。我们的目标是构建支持图像、视频、音频等多类型素材的交互系统，实现对视频内容的可编辑性。例如广告场景中，同一模特可快速生成不同产品的宣传素材，这种能力将显著提升创作效率。

新皮层：注意到部分功能如首尾帧控制由Luma率先推出，Vidu在多图参考和人脸一致性方面也较早布局，但贵司的迭代速度更快。曾雨珅：我们认为各家研发可控性功能的时间差并不显著，运动笔刷功能应当是我们首创。行业技术演进过程中，不同公司会根据自身优势选择重点突破方向。

新皮层：在视频领域实现技术突破对用户体验而言意味着什么？曾雨珅：早期布局确实带来一定先发优势。用户会形成特定操作习惯并积累创作资产，从而更愿意尝试新工具。但市场竞争激烈，真正的护城河在于技术领先性与创作者生态的建设。

新皮层：观察到poe数据显示视频模型市场份额波动较大。曾雨珅：我们更关注Freepik等专业平台的统计数据。可灵在Freepik的视频调度量已超过平台所有其他模型的总和，显示出在专业领域持续的技术竞争力，特别是在海外市场。

新皮层：从1.6到2.0版本，用户规模从600万快速增长至4500万。曾雨珅：全球市场扩张与多版本布局（网页版 App）是重要因素。技术迭代带来的效果提升、App产品的推出以及海外市场拓展，共同推动了用户基数的扩大。

新皮层：1年内实现从600万到4500万的用户增长是否在预期之中？曾雨珅：虽然略有意外，但这验证了当前商业模式的可行性与持续性。用户规模的超预期增长也促使我们重新评估行业发展趋势。

新皮层：探索市场过程中是否遇到超出预期的发展节点？曾雨珅：今年上半年的行业变化超出预期。从技术验证到商业化落地，国内外竞争加剧。好莱坞罢工后的快速转变尤为显著，如詹姆斯·卡梅隆加入AI公司董事会，奥斯卡颁奖礼采用AI对口型技术等。

新皮层：AI是否已从替代工具转变为创作辅助？曾雨珅：确实如此。行业已出现AI分镜师、AI视频生成师等专门职业，表明AI正在深度融入创作流程。相比大语言模型的通用场景，视频生成工具的产出更具备明确的商业价值。

新皮层：视频生成模型发布一年来，行业变化最快的阶段是什么？曾雨珅：去年年底至今年上半年是加速发展阶段。相比去年6月初期相对缓慢的市场反馈，当前国内外竞争已进入白热化，印证了该领域的商业潜力。

新皮层：去年下半年乃至年底发生了哪些推动行业竞争和盈利的关键事件？曾雨珅：可灵1.0的发布使行业看到技术可行性，促使企业形成技术选型方案。同时我们的用户与营收增长也证明了该模式的市场价值。OpenAI、Google等公司同期的进入进一步加速了技术发展。

新皮层：未来可灵的发展方向会是什么？曾雨珅：我们将重点探索AI Agent技术，这将实现从文生图到图生视频的全流程自动化。例如用户可通过指令生成绘本内容，Agent将自动生成脚本与分镜，最终形成可迭代的创作体系。这种模式类似于编程领域的Agent，能显著降低创作门槛。

新皮层：届时创作者界面会与现有版本产生差异吗？曾雨珅：我们正在研发新型交互界面，如灵动画布已提供完全不同的创作体验。未来界面设计将更加注重创作流程的自然衔接与效率优化。

新皮层：Runway创始人将视频生成类比为新的电影技术，认为将催生AI原生内容而非简单辅助现有形式。曾雨珅：可灵这类平台本质上是新型生产工具，既可提升存量内容市场效率（电影、广告、短视频等），也将孕育更具实时交互性的增量内容形态。

资讯分类

营收超1亿美元！可灵，凭什么？ -

最新资讯

热门资讯