李飞飞学生辍学创业发布Character-1对标HeyGen可生成60s配音
。这是Hedra即将推出的基础视频模型的“预览版本”,目前它只提供方形视频,而不是宽屏或竖屏,而且分辨率相对较低。
它的使用门槛相当低。基于该模型,用户只需要一段音乐——可以直接生成,或者上传已有的音乐,一张图片——可以直接生成,或者上传自己的图片。然后,只需单击生成视频并等待即可。大概一分钟左右,会生成一个一个口型同步的视频。
与其他口型同步视频工具相比,Character-1增加了更高水平的表情和动作。从公司定位来看,Hedra应该对标的是HeyGen。
目前,Character-1是免费的,可以创建任意长度的视频,但预览版只有30秒。如果H100供应充足,Hedra可以在一分钟的时间内生成90s的视频,生成富有表现力的说话、唱歌或说唱角色。
Hedra表示,Hedra使命的第一步,是建立一个每个人都可以使用的多模式创作工作室,让创作者完全控制情感对话、动作以及整个世界。
有用户表示,“用OpenAI的DALL-E生成第一帧的图片,用ChatGPT起草歌词,用Suno生成音乐,用Hedra给声音、画面注入活力”——AI创作工具已经足够强大!
Hedra的创始人为迈克尔·林格尔巴赫(Michael Lingelbach),是斯坦福大学的一名博士生,在斯坦福视觉与学习实验室工作,由吴佳俊和李飞飞指导。他的研究兴趣包括具身智能、计算机视觉、家庭自动化、认知神经科学、人类启发的人工智能。
“AI教母”李飞飞大家都很熟悉了,吴佳俊则是斯坦福大学计算机科学和心理学助理教授。在加入斯坦福大学之前,吴佳俊是谷歌研究院的客座研究员,与Noah Snavely一起工作。吴佳俊在麻省理工学院获得了博士学位,指导老师是Bill Freeman 和Josh Tenenbaum,在清华大学获得了本科学位,指导老师是 Zhuowen Tu。
迈克尔在X上表示,自从开始Hedra的创业以来,他唯一的锻炼就是步行 5 分钟去 Safeway 喝零度可乐。
他宣称在Character-1上限48小时之后,目前已有数万名用户制作了超过10万个视频。而且他还分享了一组有趣的数字:现在有50%的用户在重新混合内容,而刚发布时这一比例仅为10%。
Hedra将服务器搭建在AWS上。迈克尔会在早上5:30起床,检查收件箱中的AWS成本警报。以下是他的心情:
- 还允许你排队等待最多4个任务,这样即使需要等待更长时间才能使用GPU,也能够同时生成更多的内容。
你已经看过视频,但你没有意识到的是,Hedra所生成的不仅仅是一系列帧,而是一个四维模拟,一个现实的空间时间模型。
关于视频生成模型的问题。“这些视频模型总是让我失望的是...你生成一个角色,那个角色的脸随机移动,他们的嘴唇随机移动,他们的头发时而出现时而消失。”
Hedra如何不同。“想象它是一个空间时间控制网,你在视频上应用一个信号,指导生成过程。如果你真的想跨越不自然谷,你需要共同生成角色的表情,角色如何移动,甚至他们如何与场景互动,与音频线索一致。”
复制微妙的人类行为。“当我们制作模型的第一个版本时,我首先注意到的一件事,即使在最早的日子里,你可以看到角色会在你听到音频轨道时呼吸。”
捕捉不同动画风格的微妙之处。“我们知道动漫角色应该如何说话。所以如果我们用适当的设置运行我们的模型,你可以重现看起来像是来自节目的东西。”
自动化动画的繁琐部分。“这就是构建这些世界模型的希望所在,对吧?因为你从一个关键帧开始,然后你可以提供某种控制信号让你到达下一个关键帧。”
优先考虑用户体验的延迟。“我们的优势之一将是速度...我们知道消费者AI的一个巨大排斥因素是等待时间。”
移除限制,激发创造力。“我们能不能让人们不受‘天哪,这将需要很长时间才能生成,而且可能看起来不好’的想法限制...但让人们进入实时操作的流程?”
视频的压力测试。“如果你看过视频模型,这是我的试金石之一,看马腿在彼此经过时。在许多生成中,腿会交换位置。”
创作者与AI之间不断发展的关系。“我不认为生成媒体的角色是一个替代工具,而是一个创造力增强工具。”
在创业钢丝上行走。“我们有我们的内部路线图,就像我们如何扩展和构建这些模型...现在我们也在尝试弄清楚我们在同时扩大团队,扩大计算能力并继续开发我们模型的更雄心勃勃的版本时,要优化当前版本的模型到什么程度来满足所有这些请求...”
艺术考虑的重要性。“通常不仅仅是模型可以处理的能力或多样性,还有你实际渲染了什么?你是如何进行色彩分级的?所有这些其他东西都进入了制作符合人们期望的内容。”
AI解锁新的创意工作流程的潜力。“我认为能够倒带并生成反事实情况是一个非常强大的创意助手。”
为了实现现实主义而关注细节。“还没有人评论的一件事...是照明和头发...如果我们将角色定位...并且有聚光灯照射在角色上,它会准确地模拟在他们的脸上,还是角色会以完全不同的方式被照亮?”
通过共享创作重新构想故事讲述。“我非常兴奋能够赋予协作故事讲述...你应该能够和你的朋友一起创造。”
民主化访问强大的故事讲述工具。“你现在可以生成角色,并且可以告诉他们做一些你以前做不到的事情...我真的很兴奋看到人们能做出什么。”
需要对某些功能的用户GUI进行研究。“我们有一个版本,你实际上可以在3D空间中定位角色,向前和向后移动它。我们计划在我们将发布的后续产品中加入这个功能。”
中国和美国之间的分离。“这些产品只是留在中国的应用程序生态系统中,并没有真正带到美国或西方市场。但是,我认为中国在部署生成媒体解决方案方面一直处于领先地位。”
在扩散模型中的妥协。“历史上,当你像控制网一样注入某些东西到扩散模型中时,通常会有权衡。通常通过限制模型,你会得到一个不太令人满意的美学结果。”
社交媒体时代的结束。“但我相信,如果你想为社交媒体制作某种内容,需要拿起相机的日子即将结束。”
相关文章:
- [每日资讯]迈巴赫S普尔曼级加长预定25新
- [每日资讯]新一代奔驰S级渲染图亮相气场
- [每日资讯]鼎植口腔第四届66快乐看牙节
- [每日资讯]我们已构建起全流程全链条的监
- [每日资讯]警方通报“威海21岁女生遭多人
- [每日资讯]这些都证明了追觅的研发实力产
- [每日资讯]下面简单为大家介绍一下平台上
- [每日资讯]有关士(shì)壳(ké)沛(pèi)
- [每日资讯]关于称心如意(chēng xīn rú
- [每日资讯]关于不(bù)屑(xiè)一(yī)顾
- [每日资讯]方拿棱沫硫具体是什么原因?
- [每日资讯]关于逗(dòu)爬(pá)秸(jiē)
- [每日资讯]有关改泊妖异真相是什么?
- [每日资讯]关于长安车友会这是不是真相?
- [每日资讯]有关半截入土这又是什么梗?
- [每日资讯]寂然无声是这样理解吗?
- [每日资讯]关于阜裸浇倦是什么原因?
- [每日资讯]怜揣缄离详情介绍!
- [每日资讯]有关水涨船高具体是什么原因?
- [每日资讯]酒仙桥邮编具体情况是什么?
- 秋色宜人(qiū sè yí rén)具体是什么原因?
- 吕迪格:在上轮平局后迅速回到胜利轨道上很重要
- 挨家挨户劝送孩子去上学
- 加油时“加满”和“加200”到底选哪个更明智?老车主
- 兼济天下之逍遥行这又是什么梗?
- 拜迪蕾娜红酒木瓜汤这是不是真相?
- 大黄老鼠皮卡丘真实原因是什么
- 现代生物进化理论真相是什么?
- 中国创造时代来临:美的海尔1小时破亿完美日记彩妆第
- 食氧痕硫得主又是什么梗?
- 对螺蛳粉食品添加剂卫生要求包装等作出具体要求
- 关于郭(ɡuō)障(zhànɡ)枣(zǎo)盎(ànɡ)背后的逻
- 法尔胜踩雷!确认子公司与博信股份存在业务往来
- 小李子「第66任女友」曝光!还是O站大网红
- 国网西藏电力出台10项举措推动复工复产
- 营口三征新科技化工有限公司
- 有关音乐慢摇吧到底是个什么梗?
- 魔兽世界怎么卸载网友关心什么?
- 关于喜从天降(xǐ cóng tiān jiàng)网友如何看?
- 贺兰雪主题曲网友是怎么说的!
- 53版2元最新价格
- 福气又安康主题曲这件事可以这样解读吗?
- 有关广工招生办到底是怎么回事?
- 男朋友和我亲亲时身体会不自觉地扭动?而且他总想把我
- 名医童养媳96这又是什么梗?
- 粉丝大派送网友会怎么评论?
- 杜康是那个朝代的人会有什么样影响?
- 你若安好便是晴天林徽因传这件事可以这样理解吗?
- 用一本正经造句为什么上热搜?
- 关于以逸待劳是谁提出的这条消息可靠吗?
- 有关固鸵林枝到底怎么回事?
- s属性大爆发什么意思s属性大爆发表情包
- 书声琅琅看看网友是如何评论的!
- 游(yóu)刃(rèn)有(yǒu)余(yú)怎么上了热搜?
- 长沙恶魔老师!扔出钢化三角尺砸出女生脑浆开颅5小时
- 今天巴彦淖尔这里“天现奇观”!
- 关于烈(liè)日(rì)炎(yán)炎(yán)真实原因是什么
- 最值得尝试的四种男发帅气有型不落伍喜欢就试试
- 网易云音乐持续位居欧美音乐在中国市场消费宣发互动的
- 持(chí)驼(tuó)闸(zhá)是什么原因?