Files
ai-guide/AI/AI行业资讯/2025-03/马斯克进军 AI 视频,收购视频生成初创公司,4 人 13 个月打造类 Sora 模型.md
T
2025-05-30 18:23:18 +08:00

123 lines
6.7 KiB
Markdown
Raw Blame History

This file contains invisible Unicode characters
This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 马斯克进军 AI 视频,收购视频生成初创公司,4 人 13 个月打造类 Sora 模型
[量子位](https://36kr.com/user/1852809498)_·_ 2025 年 03 月 18 日 03:06
“预计将在几个月内发布 Grok 视频模型”
马斯克也要打造自己的视频生成模型了??
就在最近,xAI 收购了一家视频生成初创公司,这家仅 4 个人的公司过去两年打造出了 **Hotshot** 这款产品。
![](https://img.36krcdn.com/hsossms/20250318/v2_7f5104061e2f440f9066d9a275da5aa6@5888275_oswg297852oswg1080oswg1012_img_000?x-oss-process=image/format,jpg/interlace,1)
据公告介绍,Hotshot 至今已有 3 款视频生成基础模型。被收购之后,目前已停止推出新的视频创作功能,而且用户过往创作的视频截止下载时间为 3 月 30 日。
一看这架势,网友们纷纷想起了老马在今年 1 月的一场直播活动中掷下的豪言:
> **预计将在几个月内发布 Grok 视频模型**
而且就在 Hotshot 联创&CEO 公布上述消息之后,老马也第一时间跑来卖关子:
> 酷炫视频 AI 即将到来!
![](https://img.36krcdn.com/hsossms/20250318/v2_45717b4932e141709b7b5e840f78129b@5888275_oswg74482oswg1080oswg262_img_000?x-oss-process=image/format,jpg/interlace,1)
期待值被拉满的同时,众人也齐刷刷表达了对 Hotshot 团队的祝贺:
![](https://img.36krcdn.com/hsossms/20250318/v2_2f64139896864421956944279a2f9735@5888275_img_000?x-oss-process=image/format,jpg/interlace,1)
那么,这是一家怎样的团队呢?为什么它能被马斯克“看上”?
答案这就揭晓——
## **4 人团两年打造“Sora”**
概括而言,Hotshot 之所以能入老马的眼,原因显然在于两方面:
一是 **“小团队也有大能量”**,据悉 Hotshot 团队一共只有 4 个人,但他们在 13 个月里连续训练出了 3 个视频生成模型,且获得了一定程度的用户关注;二是虽然成立不久, **但投资者中不乏 Reddit 联合创始人 Alexis Ohanian 等大佬**
从 Hotshot 官网公布的信息来看,这个 4 人小团队在两年时间里成功打造出了“Sora”模型。
![](https://img.36krcdn.com/hsossms/20250318/v2_5baf03210f0749b98d21f374594b07eb@5888275_oswg594954oswg1080oswg933_img_000?x-oss-process=image/format,jpg/interlace,1)
4 人中有两位是联合创始人。
联创&CEO **Aakash Sastry**(右边),和另一位联创&CTO **John Mullan**(左边)早在 2012 年就相识了。
![](https://img.36krcdn.com/hsossms/20250318/v2_1292e07f1531450ca807a43ec3b3fe91@5888275_oswg1052060oswg1024oswg1024_img_000?x-oss-process=image/format,jpg/interlace,1)
认识之前,前者正在构建一个视频聊天应用,后者正在尝试打造视觉通讯应用(visual communication apps)。
不过,在看到 Aakash Sastry 的视频聊天应用失败之后(本以为是很酷的想法,结果可能因为理念超前,大家很害怕视频通话),两人一致意识到:
> 我们需要创造一个让人们在网上表达自己的同时,也感到舒适和自由的环境。
于是,Hotshot 逐渐诞生了。
2017 年,两人共同成立了一家公司——Natural SyntheticsHotshot 背后公司),开始构建各种不同的社交应用。
到了 2023 年 1 月,他们正式在 iOS 应用商店发布了 Hotshot。
不过需要注意,Hotshot 一开始并不是做 AI 视频生成,而是 **图片生成**
基于开源的图片生成模型 Stable DiffusionHotshot 为用户免费提供个人、朋友甚至是名人的图片。
![](https://img.36krcdn.com/hsossms/20250318/v2_dbf6efe467424d26b4e6e0b104f3fa38@5888275_oswg318124oswg512oswg512_img_000?x-oss-process=image/format,jpg/interlace,1)
直到后来逐渐被视频生成吸引,因此他们又开始训练视频生成模型。
和之前类似,一开始他们也打算基于开源模型构建,不过后面意识到:1)基础模型需要大幅改进;2)为了自由构建引人入胜的用户体验,需要对底层模型拥有控制权。
于是,他们正式决定 **自研视频模型**
在过去的 13 个月里,他们训练了 3 个不同的视频模型:
**第一个 Hotshot-XL** 耗时 3 个月开发,每秒生成 8 帧视频,开源后至今每月约有 2 万名新的开发者和艺术家使用;
**第二个 Hotshot Act-One** 耗时 5 个月开发,生成 3 秒 8fps 的视频,基于 2 亿个公开视频训练而成;
**第三个 Hotshot** 耗时 4 个月开发,生成最长 10 秒的 720p 视频,限文生视频。
按照 Hotshot 发布时的说法,在各种提示评估中, **70% 的情况下** 用户更喜欢 Hotshot 的结果,而不是其他开源文生视频模型。
![](https://img.36krcdn.com/hsossms/20250318/v2_93594c5e6d1e42f5b83f7081efae1a96@5888275_oswg482085oswg1080oswg949_img_000?x-oss-process=image/format,jpg/interlace,1)
另外,从 CEO Aakash Sastry 公布的消息来看,Hotshot 的投资者包括 Stripe 前高管 Lachy Groom、Reddit 联合创始人 Alexis Ohanian 以及 SV Angel 在内的风险投资机构。
至于具体融资次数和规模,Hotshot 尚未公开披露,而且 **也不清楚整个 Hotshot 团队是否会集体加入 xAI**
![](https://img.36krcdn.com/hsossms/20250318/v2_8de707ee0a9349b4a4735bde28d6fd5b@5888275_oswg1061216oswg1080oswg1873_img_000?x-oss-process=image/format,jpg/interlace,1)
## **马斯克想开发自己的视频生成模型?**
事实上,早在今年 1 月,马斯克在一场直播活动中就透露了 **自研视频生成模型** 的想法:
(指路原推文视频 15:02
![](https://img.36krcdn.com/hsossms/20250318/v2_33b55972530e4a9aa536ecdb365a0abb@5888275_oswg991373oswg1080oswg1226_img_000?x-oss-process=image/format,jpg/interlace,1)
对于自家的 Grok 模型一直没有视频生成功能这事儿,老马本人和用户都不太满意。
而要解决这个问题,通常来说有两条路可走:
**要么直接接入其他家模型,要么自研。**
从 Grok 之前的一些倾向来看,他们主要选择第一种方案,比如其 Grok-2 的文生图功能,就是通过与此前备受瞩目的 Flux 深度融合实现。
然而现在,老马明显转向了。
为了和 OpenAI、谷歌等展开长期竞争,xAI 最终也是走上了自研之路,开始通过收购进一步布局。
不过不管怎样,对于我们普通用户来说,期待 Grok 的视频生成功能就完事了!
![](https://img.36krcdn.com/hsossms/20250318/v2_51e8451b0c0a46bb974e9faae9555b43@5888275_oswg161844oswg1080oswg503_img_000?x-oss-process=image/format,jpg/interlace,1)
参考链接:
- [1]https://x.com/aakashsastry/status/1901668601364689338
- [2]https://hotshot.co/
> 本文来自微信公众号 [“量子位”](https://mp.weixin.qq.com/s/DgYseRVqfOy8_HvZC5aFbg)