HeyGen CEO谈语音克隆边界与互动式虚拟人的未来

AI PM 编辑部 · 2024年10月15日 · 14 阅读 · AI/人工智能

正在加载视频...

视频章节

在这期播客中,HeyGen CEO Joshua分享了公司爆红后的真实体验,以及企业如何在实际场景中使用AI视频工具。他重点讨论了语音克隆的安全与伦理边界、创作者平台面临的内容张力,并提出一个重要判断:未来的AI创作将不再依赖时间轴,而是走向更“互动”的虚拟人形态。

HeyGen CEO谈语音克隆边界与互动式虚拟人的未来

在这期播客中,HeyGen CEO Joshua分享了公司爆红后的真实体验,以及企业如何在实际场景中使用AI视频工具。他重点讨论了语音克隆的安全与伦理边界、创作者平台面临的内容张力,并提出一个重要判断:未来的AI创作将不再依赖时间轴,而是走向更“互动”的虚拟人形态。

从“看起来很神奇”到“每天都在用”:AI视频真正起作用的时刻

为什么这很重要?因为很多AI产品停留在“演示惊艳”,却难以进入真实工作流。Joshua在节目一开始就谈到,HeyGen真正让他感到震撼的,并不是视频在社交媒体上走红,而是看到用户开始在日常工作中反复使用这些AI生成的视频。

他回忆第一次看到自己站在屏幕里“说话”的感觉时,用了一个非常直接的词来形容——“magical”。但他很快补充,真正重要的不是这种一次性的惊喜,而是当用户把虚拟人视频用于培训、市场、内部沟通等高频场景时,AI才算真正产生价值。他提到:“Some other magic moment is when you actually start putting it into day-to-day use.”

这背后反映的是HeyGen对企业用户的理解:企业并不追求炫技,而是稳定、可控、可规模化的内容生产能力。这也是为什么HeyGen能在近期完成一轮高达6000万美元的融资,并达到约5亿美元估值——投资方如Benchmark,看中的正是这种已经被验证的使用黏性,而不是单点技术突破。

创意工具的下一步:不再围绕时间轴的编辑体验

为什么这很重要?因为编辑范式的变化,往往意味着一代新工具的出现。Joshua在谈到AI创意工具的现状时,明确表示,当前我们仍然被“时间轴”这种传统视频编辑逻辑所限制。

他的判断非常明确:“The whole editing experience will be vastly different, and we may not need to operate on the timeline.”这句话的含义并不是简单地让剪辑更快,而是AI将直接理解创作者的意图,再自动生成和调整内容结构。

在HeyGen的视角里,视频不再是由一段段素材拼接而成,而是由角色、语义、语气和场景共同构成的结果。这也是为什么他们如此重视多模态能力——文本、语音和视觉必须在同一系统中协同工作。对于创作者来说,未来的“编辑”更像是在和一个智能系统对话,而不是拖拽素材。

企业正在如何使用HeyGen:不是“万能工具”,而是角色清晰

为什么这很重要?因为AI工具失败的一个常见原因,是试图服务所有人、所有场景。Joshua在节目中多次强调,HeyGen虽然是一个通用的视频生成平台,但在不同垂直领域,使用方式差异极大。

他提到,一些企业用HeyGen来制作标准化的内部培训视频,有些则用于市场推广和产品介绍。这些场景的共同点在于:内容需要反复更新,但表达形式相对稳定。虚拟人正好承担了“稳定表达者”的角色。

更有意思的是,新用户和老用户的行为差异。Joshua提到,理想状态下,系统会根据用户熟练度,自适应地调整虚拟人的模式和行为——新用户需要更多引导,而高级用户则希望获得更高的控制权。这种“行为随用户成长而变化”的设计思路,体现了HeyGen并不只是把模型做得更强,而是在思考产品长期使用中的人机关系。

语音克隆的边界:技术能力越强,规则越重要

为什么这很重要?因为语音AI的能力增长,正在逼近社会和平台的信任底线。Joshua在节目中明确谈到了HeyGen在语音克隆方面的安全与规范思考。

他并没有回避一个现实问题:当AI可以高度逼真地复刻一个人的声音时,平台就必须建立清晰的使用边界和审核机制。这不仅是法律风险,更是长期信任的问题。他还提到,像TikTok这样的平台,正面临一个两难选择——既要保护创作者生态,又无法忽视AI生成内容的效率和规模优势。

Joshua的态度相对务实:技术不可逆,但规则可以前置设计。相比事后补救,HeyGen更倾向于在产品和流程层面嵌入安全原则,这也是他们在企业市场更容易被接受的原因之一。

从文本到视频,再到互动虚拟人:下一代平台的机会

为什么这很重要?因为平台级机会往往出现在技术范式切换之时。Joshua在节目后半段谈到,当前行业中有大量团队在做“纯文本到视频”的模型,但这未必是终局。

在他的设想中,未来的视频并不是一次性生成的结果,而是可以被不断“互动”和“学习”的存在。虚拟人不只是播放内容,而是能够根据用户反馈、上下文持续调整表达方式。这意味着,视频本身将成为一种可进化的媒介。

他提到,HeyGen对这些方向“非常兴奋”,并正在探索新的产品形态。虽然他没有给出明确时间表,但可以看出,公司已经不满足于工具层面,而是在思考是否存在一种全新的内容平台形态。

总结

这期对话最大的价值,并不在于具体功能展示,而在于Joshua对AI视频长期走向的判断:从惊艳演示走向日常使用,从时间轴编辑走向意图驱动,从静态视频走向互动虚拟人。同时,他对语音克隆安全边界的反复强调,也提醒我们,真正能走得远的AI公司,往往在技术之外,同样重视规则与信任的建设。


关键词: HeyGen, 语音克隆, 互动虚拟人, AI视频, 生成式AI

事实核查备注: HeyGen CEO:Joshua;融资金额:6000万美元;估值:5亿美元;投资方:Benchmark;节目观点原话包括“feels very magical”“the whole editing experience will be vastly different”“we may not need to operate on the timeline”;话题涉及语音克隆安全、企业级AI视频应用、多模态与互动虚拟人。