搜索中心

传扎克伯格亲自挖角!TikTok视频推荐算法负责人宋洋离职,加入Meta

分享至

11月20日消息,据多方信源证实,原TikTok主站视频推荐算法负责人宋洋(Adam Zhang)已于近日离职,并转投Meta,将全面负责Instagram Reels的推荐业务。这是继去年陈志杰离职创业后,TikTok核心算法团队再度换帅,也是硅谷巨头首次直接从TikTok挖走推荐条线一号位。据传Meta创始人扎克伯格亲自打电话邀请宋洋加入,且开出了不菲的价码,业内人士推测其年薪可能达到数千万美元级别。

美团发布并开源视频生成模型 将融入自动驾驶、具身智能等场景中

分享至

10月27日,美团LongCat团队发布并开源LongCat-Video视频生成模型,以统一模型在文生、图生视频基础任务上达到开源SOTA(最先进水平),并依托原生视频续写任务预训练,实现分钟级长视频连贯生成,保障跨帧时序一致性与物理运动合理性。美团LongCat团队认为,此次发布的视频生成模型,是为探索“世界模型”迈出的第一步。未来,LongCat模型也会融入公司近年来持续投入的自动驾驶、具身智能等深度交互业务场景中。

视频孪生企业「智汇云舟」完成新一轮融资

分享至

10月20日消息,近日,安徽智汇云舟科技有限公司宣布完成新一轮融资,本轮融资由合肥高新创业投资管理合伙企业(有限合伙)追加投资。这是继2025年年初获融惠太鹤数千万元B+轮融资后,公司在今年内迎来的又一资本加持。根据规划,两轮融资资金将集中投向三大核心方向:在核心技术研发上,第一,公司将重点聚焦“孪舟”3D GIS引擎,以AI化、视算一体化、行业化作为发展方向。深度融合AI能力,提升数字孪生工作流的效率,智能化实现视频实时三维融合建模制作,降低实施成本;统一空间可视化与空间计算,为数字孪生提供LI位置智能服务,提升数字孪生平台业务价值;深入重点垂直行业,为行业用户提供行业专属工具组件和专业API能力。

阿里Wan2.2-S2V正式发布:一张图+一段音频 即可生成人物动态视频

分享至

8月26日,阿里云正式发布全新多模态视频生成模型通义万相Wan2.2-S2V,并宣布开源。Wan2.2-S2V极大地简化了视频制作过程,仅需提供一张静态图片和一段音频,模型便能生成面部表情自然、口型与音频高度一致、肢体动作流畅丝滑的电影级数字人视频。支持分钟级长视频稳定生成,不止嘴动,手势、表情、姿态都能动。而且模型在训练中充分挖掘跨域泛化能力,可自然驱动卡通人物、动物形象、二次元角色、艺术风格化人像,不再局限于真人肖像。无论是萌宠说话,还是动漫角色唱歌,Wan2.2-S2V都能精准还原音画同步效果。其提供480P与720P两档分辨率,兼顾效率与画质,适用于短视频、数字人、轻量影视等场景。

特斯拉发布FSD演示视频:旧金山到洛杉矶全程 580公里零干预

分享至

8月13日,特斯拉在X平台发布了其 FSD 技术迄今为止行程最长的演示视频,展示了从旧金山湾区到洛杉矶的零干预驾驶之旅。视频显示在整个驾驶过程中,车辆无需驾驶员干预。

阿里开源全功能视频大模型,单一模型全面支持视频生成和编辑

分享至

5月14日,阿里巴巴正式开源通义万相Wan2.1-VACE。据了解,这是目前业界功能最全的视频生成与编辑模型,单一模型可同时支持文生视频、图像参考视频生成、视频重绘、视频局部编辑、视频背景延展以及视频时长延展等多种生成和编辑能力。该模型拥有1.3B和14B两个版本,其中1.3B版本可在消费级显卡运行。

特斯拉发布人形机器人擎天柱“跳舞”视频

分享至

5月13日晚间,特斯拉官方微博发布人形机器人擎天柱(Optimus)“跳舞”视频,并表示其人形机器人优化“仿真到现实”(Sim-to-Real)的训练代码,通过强化学习完成训练。

腾讯混元发布并开源视频生成工具HunyuanCustom,支持主体一致性生成

分享至

5月9日,腾讯混元团队发布并开源全新的多模态定制化视频生成工具HunyuanCustom。该模型基于混元视频生成大模型(HunyuanVideo)打造,在主体一致性效果超过现有的开源方案,并可媲美顶尖闭源模型。HunyuanCustom融合了文本、图像、音频、视频等多模态输入生视频的能力,是一款具备高度控制力和生成质量的智能视频创作工具。

阶跃星辰Step-Video-TI2V图生视频模型开源

分享至

3月20日,阶跃星辰开源图生视频模型——Step-Video-TI2V,一款基于30B参数Step-Video-T2V训练的图生视频模型,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。与此同时,Step-Video-TI2V已完成与华为昇腾计算平台的适配,并在魔乐社区(Modelers)上线。

阿里云视频生成大模型万相2.1开源

分享至

2月25日,阿里云宣布视频生成大模型万相2.1(Wan)开源,此次开源采用Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace、魔搭社区下载体验。

阿里巴巴公布图生视频专利 可实现智能化端到端图生视频

分享至

天眼查知识产权信息显示,近日,阿里巴巴有限公司申请的“一种图生视频方法和装置”专利公布。摘要显示,本发明实施例将包含目标对象的源图像输入第一视频生成模型得到素材视频,根据素材视频确定帧间变换矩阵序列,然后从源图像中得到目标对象对应的对象掩码图像,将帧间变换矩阵序列应用于对象掩码图像可得到多张掩码图像从而组成掩码图像序列,将帧间变换矩阵序列应用于源图像可得到多张目标对象图像从而组成目标对象图像序列,根据源图像、掩码图像序列和目标对象图像序列确定目标输入数据,将目标输入数据输入支持局部重绘的第二视频生成模型,得到对应的目标视频。通过两次模型生成视频,实现了智能化端到端的图生视频,无需引入预设运动参数即可在保持目标对象不扩散的同时,实现运动轨迹多样性。

谷歌第二代AI视频生成模型Veo 2亮相:分辨率可达4K

分享至

12月17日消息,谷歌今日宣布,其最新的AI视频生成模型Veo 2正式亮相。据介绍,Veo 2模型能够生成最高4K(4096 x 2160像素)分辨率、时长达到2分钟的视频片段,相较于OpenAI的Sora模型,分辨率提升了4倍,视频时长增加了6倍。Veo 2模型不仅能够在给定文本提示或文本和参考图像的情况下生成视频,还能更真实地模拟运动、流体动力学和光的属性,实现不同的镜头和电影效果,以及“细致入微”的人类表情。

Meta为雷朋智能眼镜增加AI视频、实时翻译功能

分享至

Meta周一表示,它正在更新雷朋Meta智能眼镜,该眼镜具有实时人工智能视频功能和实时语言翻译功能。从周一开始,该公司开始推出v11软件更新。该公司表示,在实时AI会话中,Meta AI可以看到用户所看到的内容,并更自然地与他们交谈。用户可以获得实时、免提的帮助,无需说“Hey Meta”就可以提出问题,并可以自如参考他们之前讨论过的内容。用户也可以随时打断,询问后续问题或改变话题。

图森未来正式发布图生视频大模型“Ruyi”

分享至

12月17日消息,今日,图森未来宣布正式发布图生视频大模型“Ruyi”,并将Ruyi-Mini-7B版本正式开源,用户可以从huggingface上下载使用。据介绍,Ruyi是一个基于DiT架构的图生视频模型,它由两部分构成:一个Casual VAE模块负责视频数据的压缩和解压,一个Diffusion Transformer负责压缩后的视频生成。模型的总参数量约为7.1B,使用了约200M个视频片段进行训练。Ruyi是图森未来正式发布的第一款“图生视频”模型。

字节跳动AI豆包电脑版上线视频生成功能

分享至

12月10日消息,字节跳动视频生成模型PixelDance已在豆包电脑版正式开启内测,部分用户已开通体验入口。内测页面显示,用户每日可免费生成十支视频。

点击加载更多