谁会成为中国版Sora？12家创业公司+4家大厂全_火博sports(GUANGDONG)体育首页APP官网

火博sports

PRODUCTS

火博sports谁会成为中国版Sora？12家创业公司+4家大厂全

发布时间：2024-03-05 22:07:15 来源：火博体育首页作者：HB火博APP官网

　　一年前，ChatGPT 的爆火很快在大语言模型领域催生了“百模大战”。一年后，Sora 横空出世再次惊艳世人，这一次是否会掀起新一轮的 AI 视频领域的百模大战？

　　近期，DiT（Diffusion Transformer）论文的作者谢赛宁在朋友圈分享了他对 Sora 的看法，其中核心资源的排序是——人才第一、数据第二、算力第三，其他都没有什么是不可替代的。

　　为此，「甲子光年」基于公开资料与现有信息，整理了国内 12 家创业公司与 4 家大厂的 AI 视频团队信息。

　　这些信息不仅给产品爱好者较为全面的 AI 生成视频模型总结，也给更多的关注人工智能技术走向的 AI 从业者们一份技术与人才指南。

　　HeyGen 联合创始人、CEO 徐卓（Joshua Xu），是卡内基梅隆大学计算机硕士。徐卓是早期 Snapchat 员工（2014 年 - 2020 年），关键工程负责人。在 Snapchat 的 6 年里，徐卓领导了多个关键工程领域，例如广告平台、推荐系统、机器学习平台（Barista）和 AI 相机。

　　HeyGen 联合创始人、CPO（首席产品官）梁望（Wayne Liang），是卡内基梅隆大学人机交互硕士。梁望是前字节跳动美国设计主管，领导企业软件和内部产品创新的设计；Smule 前设计总监，领导国际设计团队设计数百万日活产品，领导了视频和直播等关键举措，使 UGC 内容增长了 10 倍以上。

　　HeyGen 在 2022 年 9 月推出 AI 视频创作工具，仅用 7 个月的时间实现了 100 万美元的 ARR（年度经常性收入），然后又于 10 月份达到 1000 万美元。如今，这一数字已经跃升至 1800 万美元。

　　HiDream.ai 成立于 2023 年 3 月，是一家专注于构建视觉多模态（文本、图片、视频、3D等）基础模型及应用的生成式 AI 公司。

　　HiDream.ai 创始人兼 CEO 梅涛，是人工智能、计算机视觉和多媒体领域的全球知名学者，加拿大工程院外籍院士，IEEE/IAPR/CAAI Fellow，曾担任京东集团副总裁和微软研究院资深研究员。他发表的论文被引用超过三万余次，先后荣获 15 项最佳论文奖，拥有 70 多项专利，并主导研发了多款全球数百万日活用户的商业产品。

　　HiDream.ai 团队中，博士、硕士占 90% 以上，核心团队成员曾任职于微软、百度、腾讯、华为、京东、字节跳动等全球 500 强公司的核心技术团队。

　　2023 年 4 月，HiDream.ai 核心技术成员组队，完成由阿尔法公社、中喝大种子一号基金参与的种子轮融资；12月，HiDream.ai 完成由科大讯飞领投的天使轮融资。

　　Möbius 是一款上线日的 AI 视频模型，团队只有三个人：AI 算法工程师 LogicQ，软件工程师 Peki（刘佩），财务 Zhao。

　　1 月 14 日，Peki 在 Reddit 上发布了 2 个帖子，冲上了 Reddit 热搜。当时，Peki 发布了一个特斯拉汽车视频，比较了Möbius 和 Runway 的效果，结果被一个小哥骂的狗血淋头，因为 Möbius 效果太好，以至于让他认为视频是恶意剪辑故意诋毁 Runway 的。

　　Peki 告诉「甲子光年」，Möbius 目前的模型缺陷主要有2个——畸变，当角色大幅度运动时容易产生畸变扭曲；角色一致性，需要所有时长中角色保持一致，也就是语义连贯。这些问题的核心是基础模型，当基础模型要达到一定的智能，真正对物理理解，问题就会解决。Peki 表示正在努力。

　　尽管如此，Peki 自信地表示，如果与全球范围内进行产品对比，Möbius 和 Sora 差距是一定是最小的。

　　Möbius 上线之后，零广告推入情况下，至今已为用户生成了数百万的视频，并获取了可观的收入。

　　Morph Studio 成立于 2022 年，专注于 text-to-video 生成技术与社区平台，通过 SD+自研模型技术帮助用户实现短视频快速生成，其视频生成模型已经于去年8月上线 Discord。

　　2023 年 5 月，Morph Studio 宣布已完成数百万美元种子轮融资，由百度风投单独投资。

　　Morph Studio 创始人徐怀哲为香港科技大学人工智能方向博士创业，师从倪明选教授和沈向洋教授，曾在微软小冰参加AI音乐生成研发。Morph Studio 的两位联合创始人赵世豪、殷子欣都是香港科技大学人工智能博士。

　　除了技术团队外，Morph Studio 也加强了其产品团队的实力，猫眼电影签约制作人、上海国际电影节评委，前硅谷头部 AIGC 公司核心成员海辛也于近期加入 Morph Studio。

　　「甲子光年」独家获悉，Neverends 的联合创始人，为 Llama 中文社区联合发起人曲东奇。曲东奇毕业于东南大学，德国亥姆霍兹研究中心访问学者。曲东奇也是《Llama大模型实践指南》一书的作者之一。

　　爱诗科技创始人、CEO 王长虎深耕计算机视觉、人工智能领域 20 年，曾任字节跳动视觉技术负责人，参与了抖音和TikTok等产品从 0 到 1 的建设和发展，搭建了字节跳动视觉算法平台和业务中台，主导了字节跳动视觉大模型从0到1的建设。王长虎曾任微软亚洲研究院主管研究员，发表国际论文百余篇，拥有专利数百项。

　　爱诗科技团队成员来自清华、北大、中科院等学府，曾任职于字节、微软亚洲研究院、快手、腾讯等头部机构的核心技术团队，拥有世界一流的计算机视觉算法攻坚能力和解决系统工程问题的经验。

　　爱诗科技的视频生成工具 Pixverse，支持 4K 高清视频生成，在运动准确性、一致性和丰富性等方面取得了进展。爱诗科技将在 2024 年 3 月发布新版本的多模态视频生成大模型。

　　李白人工实验室是杭州王道控股有限公司旗下的专注计算机视觉和生成式人工智能算法、产品研发的技术团队，成立于 2018 年，由唐勇博士领导成立。

　　唐勇毕业于美国宾夕法尼亚州立大学，在美国知名 500 强企业担任技术学科专家，高级工程师等。其他成员均毕业于国内外知名高校，清华、北大、浙大、英国皇家理工和美国常青藤范围等。

　　李白人工智能实验室在图像生成方面已经有不少积累，推出的产品有神采PromeAI、图可丽cutout.pro 等国内外在线工具网站及多个App、小程序。其中 cutout.pro 项目海外月活超千万用户，海外站更是跻身图像编辑工具分类排名前十；神采 PromeAI 项目荣获 AI 产品榜出海 20 强。

　　去年 10 月 31 日-11 月 2 日，由李白人工智能实验室团队携手阿里云等团队制作的李白数字展亮相云栖大会。

　　6Pen 同时提供两个模型：一个是基于 Disco Diffusion 的模型「西瓜」，优点是图片效果好，但速度非常慢，成本会非常高；另一个是小模型「南瓜」，可以用更快的速度去生成图片。据介绍，用户普遍做法是先采用「南瓜」绘图，如果画作满意，继续使用参考图的方式传输到「西瓜」模型，也就是 Disco Diffusion上，再进行一次重新生成。

　　生数科技成立于 2023 年 3 月，由瑞莱智慧 RealAI、蚂蚁集团和 BV 百度风投联合孵化，聚焦于多模态生成式大模型与应用产品开发。前瑞莱智慧副总裁唐家渝出任 CEO。

　　生数科技于 2023 年初开源了基于 Transformer 的多模态扩散大模型 UniDiffuser，实现基于一个底层模型完成文生图、图文联合生成、图文改写等多种生成任务。生数科技也正从 0 到 1 打造着产业级的多模态深度生成式大模型，覆盖文本、图像、3D 模型、音视频等多个模态。目前该大模型正在快速迭代中。

　　艺映 AI 是由 MewXAI 团队开发的AI视频生成工具，可以由文本、图像生成AI视频。可以将文本描述转换为视频动画，也可以上传图片将其变为动态视频，适用于多种场景，如抖音短视频、小说推文、AI 短片、AI 电影等制作。

　　右脑科技成立于 2022 年 9 月，是一家专注研发 AI 图像和视频生成的初创公司，致力于将 AIGC 技术应用于图像及视频领域，赋能创作，让想象成为具象。

　　在视频生成领域，阿里巴巴通义实验室开发了开源视频生成模型和代码系列 VGen，具备非常先进和完善的视频生成系列能力，包含了如下内容：

　　2024 年 1 月 19 日，百度推出了一款视频生成模型 UniVG，其特点在于针对高自由度和低自由度两种任务分别采用不同的生成方式，以更好地平衡两者之间的关系。

　　腾讯近期推过两个视频生成模型项目，第一个是在 2023 年 12 月，北京大学、腾讯 AI Lab 与香港科技大学三家联合发布一款视频生成模型 AnimateZero。

　　AnimateZero 是一种基于视频扩散模型的零样本图像动画生成器。研究人员提出了一种分步生成视频的方法，将外观和运动过程解耦，提高生成效率和可控性。通过零样本修改，还能将 T2V 模型转换为 I2V 模型，使其成为零样本图像动画生成器。在应用方面，AnimateZero 介绍了通过文本控制动作、视频编辑、帧插值、循环视频生成和真实图像动画等多种应用场景。

　　单瀛，腾讯杰出科学家、ARC Lab & AI Lab CVC总监。单瀛博士曾担任微软雷德蒙研究院博士后研究员，SRI International 资深研究员和微软科研主管，在国际会议和刊物上发表 120 多篇论文，并拥有多项美国/国际专利。2018 年底单瀛加入腾讯公司内容和平台事业群（PCG），创立了ARC Lab 并担任中心主任，同时兼任腾讯 AI Lab 视觉计算中心主任、QB 搜索技术负责人，致力于多模态内容生成、理解、学习中的算法研究和应用推广。

　　寸晓东，腾讯 AI Lab 视觉计算中心研究员，本科毕业于西安电子科技大学计算机系，硕士与博士毕业于澳门大学计算机与信息科学系，导师是潘治文教授。加入腾讯之前，寸晓东先后在阿里巴巴、海康威视研究院、华为诺亚方舟实验室工作。目前，寸晓东正在使用与 AIGC 相关的技术，研究设计新颖的图像/视频生成、翻译和编辑应用（特别是在动漫游戏领域）。

　　Yong Zhang，腾讯 AI Lab 高级研究员，研究方向是AIGC。在加入腾讯之前，Yong Zhang 于 2018 年在中国科学技术院自动化研究所（CASIA）获得了博士学位，导师是胡包钢教授和董未名教授，他们都是国家模式识别实验室（NLPR）的成员。在加入 CASIA 之前，Yong Zhang 于 2012 年在湖南大学获得了自动化专业的工学学士学位。从 2015 年 9 月到 2017 年 9 月，Yong Zhang 在伦斯勒理工学院（RPI）的智能系统实验室（ISL）担任联合博士生，导师是 Qiang Ji 教授。

　　Menghan Xia，腾讯AI Lab 视觉计算中心的一名研究员，目前专注于基础生成模型（AIGC）、多模态学习和面部运动合成。Menghan Xia 于 2021 年在香港中文大学（CUHK）获得了计算机科学与工程博士学位，导师是黄田津教授；于 2014 年获得了武汉大学摄影测量与遥感专业的工学学士学位，以及 2017 年获得了模式识别与智能系统专业的工学硕士学位，两位导师都是姚剑教授。在攻读博士学位期。

火博sports