江苏旋乐吧SPIN8机械有限公司
您当前的位置 : 旋乐吧SPIN8 > 设备操作技巧 >


震动!无需依赖言语模子豆包打破AI视觉次元壁

2025-03-17 11:05

  2月10日,字节跳动豆包大模子团队号发文颁布发表,取交通大学、正在业界初次实现无需依赖言语模子,即可认知世界。该项目代码取模子已开源。据引见,即浏览视频数据,就能让机械控制推理、规划和决策等复杂能力。而且,正在仅300M参数量下,VideoWorld已取得可不雅的模子表示。近年来,字节跳动持续加码多模态手艺研发,凭仗其正在视频、图像和文本等多范畴的深度融合,为AI使用场景的拓展注入新动能。多位机构阐发师认为,跟着手艺门槛的降低和生态合做的深化,AI使用无望加快繁荣,赋能千行百业,智能化新时代。VideoWorld的奇特之处正在于,它仅凭仗“视觉消息”,也就是通过浏览大量的视频数据,就能让机械控制推理、规划和决策等复杂能力。正在人工智能范畴,以往的很多模子往往依赖言语模子或者标签数据来进修学问,例如Sora、DALL-E、Midjourney等,而VideoWorld打破了这一保守模式。正在模子建立方面,研发团队建立了视频围棋对和和视频机械人模仿操控两个尝试。正在锻炼过程中,VideoWorld模子通过“旁不雅”包含大量视频演示数据的离线数据集来进行进修。其架构采用的是朴实自回归模子,次要包含VQ-VAE编码器—解码器和自回归Transformer架构。这种架构设想使得模子可以或许无效地处置视频数据中的时空消息,为后续的推理和决策供给根本。然而,正在研究初期,团队碰到了一个难题,即视频序列学问挖掘效率低于文本形式。为领会决这一问题,团队引入了潜正在动态模子(LDM),该模子由以慕尼黑大学的研究团队为首的多个研究团队配合建立。LDM可以或许将帧间视觉变化压缩为紧凑的潜正在编码,这不只提拔了学问挖掘效率,还能保留丰硕的视觉消息,让VideoWorld能够捕获视觉序列中的持久依赖关系,从而正在持久推理和规划方面表示得愈加超卓。据豆包大模子团队引见,正在不依赖任何强化进修搜刮或励函数机制的前提下,VideoWorld达到了专业5段9x9围棋程度。此外,VideoWorld还可以或许正在多种中施行机械人使命。正在机械人模仿操控尝试中,它能够按照“旁不雅”到的视频数据,进修若何节制机械人完成各类使命,如挪动、抓取物品等。“VideoWorld通过仅依赖‘视觉消息’的体例,让机械可以或许控制推理、规划和决策等复杂能力,这无疑是人工智能手艺正在视觉进修范畴的一次主要改革。”盘古智库高级研究员江瀚对记者暗示。不外,虽然VideoWorld正在围棋和器人操控场景中表示杰出,但豆包大模子团队同时指出,正在实正在世界的使用中,它还面对高质量视频生成和多泛化等挑和。近年来,字节跳动正在多模态手艺研发上持续加大投入,从2023年2月摸索大模子,到8月“豆包”公测,再到2024年5月豆包正式对外办事并掀起大模子价钱和,豆包大模子正在全球范畴内吸引了大量用户,正在2024年11月的全球月活跃排行榜上位列第二。2月7日,字节跳动旗下即梦AI发布新功能上线预告片,展现了全新的多模态视频生成模子OmniHuman,仅需输入一张图片和一段音频,就能生成活泼的AI视频。而VideoWorld的发布,进一步拓展了字节跳动正在多模态范畴的手艺邦畿。开源不只是代码和模子的共享,更意味着建立一个创重生态。以往,开辟大模子需要巨额资金投入、强大的算力支持以及深挚的手艺堆集,这使得很多中小开辟者和研究团队难以涉脚。而开源大模子的呈现,打破了这一面垒,降低了手艺门槛,让更多的创生力军得以参取到大模子的开辟取使用中。此前,正在OpenAI决然选择闭源策略后,浩繁大模子厂商纷纷跟风,闭源仿佛成了新的行业共识。而近期横空出生避世的DeepSeek却反其道而行之,将高性价比的R1模子开源。紧随其后,VideoWorld也选择开源,折射出中国AI财产从单一手艺冲破向使用生态建立的计谋转向。江瀚告诉记者,此次VideoWorld的推出将鞭策相关财产的快速成长。“例如,正在从动驾驶、智能制制、智能安防等范畴,VideoWorld的使用将极大地提拔系统的智能化程度,鞭策相关财产的快速成长。”他暗示。




建湖旋乐吧SPIN8科技有限公司

2025-03-17 11:05


标签

本文网址:

近期浏览:本新闻您曾浏览过!

相关产品

相关新闻



0515-68783888

免费服务热线


扫码进入手机站


网站地图 |  | XML |       © 2022 Copyright 江苏旋乐吧SPIN8机械有限公司 All rights reserved.  d25f324a-5149-4fe5-b916-0dbe332c8bd0.png

  • 网站首页
  • 咨询电话
  • 返回顶部