国产AI双重突破:GLM-5V-Turbo开启“视觉编程”,星海图200亿估值领跑具身智能

国产AI双重突破:GLM-5V-Turbo开启“视觉编程”,星海图200亿估值领跑具身智能

Codex1 min read9 views

2026年的中国人工智能赛道,正以前所未有的速度迈向“全能时代”。从能直接“看图写码”的多模态大模型,到估值狂飙、致力于让机器人拥有智慧大脑的具身智能企业,技术与资本的共振正在改写行业规则。

近日,智谱AI正式上线了多模态Coding基座模型——GLM-5V-Turbo,主推“视觉编程(Vision Coding)”;与此同时,具身智能领军企业星海图宣布完成20亿B+轮融资,估值一举冲破200亿大关。这两大重磅事件,不仅标志着国产模型在逻辑理解上的精进,更展示了AI对物理世界感知与操控能力的质变。

GLM-5V-Turbo

一、Vision Coding时代:草图到前端的零门槛跨越

以往的编程辅助主要依赖纯文本Prompt,但GLM-5V-Turbo的上线,让“所见即所得”成为了现实。通过强大的多模态理解能力,该模型可以直接理解页面结构和背后复杂的交互逻辑。

1.1 实测:一张手画草图,搞定音乐播放器

在实测中,只需提供一张笔触粗糙、随手勾勒的音乐播放器草图,并配以“深色背景、古典风格”的简单要求,GLM-5V-Turbo在十几秒内便生成了完整的HTML和CSS代码。

草图输入

生成的前端页面不仅准确还原了版式,还实现了基本的交互:点击“播放”键有唱片转动动效,点击列表可实时切换歌曲。这种“看着草图编程”的能力,将极大降低产品经理做Demo的门槛,甚至可能终结传统的反复修改流程。

生成结果

1.2 复杂图表与论文的深度解读

除了写代码,GLM-5V-Turbo还被形象地称为“给龙虾安上了眼睛”。在AutoClaw平台上,配合“股票分析师”Skill,它可以直接读懂K线图、估值区间及券商研报,并生成图文并茂的分析报告。面对公式密集的学术论文,它也能迅速拆解结构,提炼核心结论。在多项基准测试中,其多模态Coding能力甚至超越了业界标杆Claude Opus 4.6。

二、硬核技术支撑:四层架构升级

智谱AI官方透露,GLM-5V-Turbo之所以能实现如此跨越,源于以下四个层面的迭代:

  • 原生多模态融合:从预训练阶段即实现文本与图像协同训练,引入新型视觉编码器(CogViT),提升空间关系理解力。
  • 30+任务强化学习:涵盖STEM推理、图像定位、GUI操作等,确保模型能力均衡、不“偏科”。
  • Agent专属数据体系:通过合成环境生成大规模可验证数据,减少模型在执行任务时的“幻觉”。
  • 闭环工具链:支持画框、截图、读网页等闭环操作,真正实现“看懂环境→规划步骤→动手执行”。

技术架构

三、星海图的200亿征程:具身智能的“季后赛”

在模型理解虚拟世界的同时,具身智能正在让AI走向物理实体。星海图近期斩获的20亿融资,由华登科技、蓝思科技、中金资本等一众大牌机构加码。仅一个月时间,其估值翻倍并突破200亿,成为国产具身智能赛道的新标杆。

3.1 核心竞争力:Fast-WAM世界模型

星海图近期的一大突破是Fast-WAM世界模型。该研究告别了“先想象、后执行”的低效范式,证明了世界模型的威力根植于视频建模而非生成。这一改进将单步延迟缩短至惊人的190毫秒,并获得了AI大牛Yann LeCun的点赞转发。

3.2 从数据金字塔到真机部署

星海图坚持端到端VLA(视觉-语言-动作)技术路线,其开源的真机数据集(GOD)涵盖超10TB规模的真实场景数据。其硬件平台R1 Pro/Lite已被李飞飞团队、英伟达等全球顶尖团队采用。星海图CFO罗天奇认为,2026年的关键不是盲目追求万台量产,而是实现“0到1”的突破——即让机器人能连续作业24小时,让客户算清楚ROI。

机器人操作

四、总结:AI竞争的新门槛

从智谱GLM-5V-Turbo的视觉编程,到星海图引领的具身智能热潮,行业传递出一个明确信号:纯文本时代已经远去,视觉感知与物理动作的深度融合成为下一代AI的主战场。

200亿的估值不仅是一张“季后赛”入场券,更是资本对“大脑”与“肢体”结合潜力的坚定看好。随着原生多模态能力的普及,未来的AI将不仅是屏幕后的助手,更是能够理解人类草图、并在物理世界中精准执行任务的智能体。