国产AI双重突破：GLM-5V-Turbo开启“视觉编程”，星海图200亿估值领跑具身智能

Codex2026年4月2日1 min read129 views

2026年的中国人工智能赛道，正以前所未有的速度迈向“全能时代”。从能直接“看图写码”的多模态大模型，到估值狂飙、致力于让机器人拥有智慧大脑的具身智能企业，技术与资本的共振正在改写行业规则。

近日，智谱AI正式上线了多模态Coding基座模型——GLM-5V-Turbo，主推“视觉编程（Vision Coding）”；与此同时，具身智能领军企业星海图宣布完成20亿B+轮融资，估值一举冲破200亿大关。这两大重磅事件，不仅标志着国产模型在逻辑理解上的精进，更展示了AI对物理世界感知与操控能力的质变。

GLM-5V-Turbo

一、Vision Coding时代：草图到前端的零门槛跨越

以往的编程辅助主要依赖纯文本Prompt，但GLM-5V-Turbo的上线，让“所见即所得”成为了现实。通过强大的多模态理解能力，该模型可以直接理解页面结构和背后复杂的交互逻辑。

1.1 实测：一张手画草图，搞定音乐播放器

在实测中，只需提供一张笔触粗糙、随手勾勒的音乐播放器草图，并配以“深色背景、古典风格”的简单要求，GLM-5V-Turbo在十几秒内便生成了完整的HTML和CSS代码。

草图输入

生成的前端页面不仅准确还原了版式，还实现了基本的交互：点击“播放”键有唱片转动动效，点击列表可实时切换歌曲。这种“看着草图编程”的能力，将极大降低产品经理做Demo的门槛，甚至可能终结传统的反复修改流程。

生成结果

1.2 复杂图表与论文的深度解读

除了写代码，GLM-5V-Turbo还被形象地称为“给龙虾安上了眼睛”。在AutoClaw平台上，配合“股票分析师”Skill，它可以直接读懂K线图、估值区间及券商研报，并生成图文并茂的分析报告。面对公式密集的学术论文，它也能迅速拆解结构，提炼核心结论。在多项基准测试中，其多模态Coding能力甚至超越了业界标杆Claude Opus 4.6。

二、硬核技术支撑：四层架构升级

智谱AI官方透露，GLM-5V-Turbo之所以能实现如此跨越，源于以下四个层面的迭代：

原生多模态融合：从预训练阶段即实现文本与图像协同训练，引入新型视觉编码器（CogViT），提升空间关系理解力。
30+任务强化学习：涵盖STEM推理、图像定位、GUI操作等，确保模型能力均衡、不“偏科”。
Agent专属数据体系：通过合成环境生成大规模可验证数据，减少模型在执行任务时的“幻觉”。
闭环工具链：支持画框、截图、读网页等闭环操作，真正实现“看懂环境→规划步骤→动手执行”。

技术架构

三、星海图的200亿征程：具身智能的“季后赛”

在模型理解虚拟世界的同时，具身智能正在让AI走向物理实体。星海图近期斩获的20亿融资，由华登科技、蓝思科技、中金资本等一众大牌机构加码。仅一个月时间，其估值翻倍并突破200亿，成为国产具身智能赛道的新标杆。

3.1 核心竞争力：Fast-WAM世界模型

星海图近期的一大突破是Fast-WAM世界模型。该研究告别了“先想象、后执行”的低效范式，证明了世界模型的威力根植于视频建模而非生成。这一改进将单步延迟缩短至惊人的190毫秒，并获得了AI大牛Yann LeCun的点赞转发。

3.2 从数据金字塔到真机部署

星海图坚持端到端VLA（视觉-语言-动作）技术路线，其开源的真机数据集（GOD）涵盖超10TB规模的真实场景数据。其硬件平台R1 Pro/Lite已被李飞飞团队、英伟达等全球顶尖团队采用。星海图CFO罗天奇认为，2026年的关键不是盲目追求万台量产，而是实现“0到1”的突破——即让机器人能连续作业24小时，让客户算清楚ROI。

机器人操作

四、总结：AI竞争的新门槛

从智谱GLM-5V-Turbo的视觉编程，到星海图引领的具身智能热潮，行业传递出一个明确信号：纯文本时代已经远去，视觉感知与物理动作的深度融合成为下一代AI的主战场。

200亿的估值不仅是一张“季后赛”入场券，更是资本对“大脑”与“肢体”结合潜力的坚定看好。随着原生多模态能力的普及，未来的AI将不仅是屏幕后的助手，更是能够理解人类草图、并在物理世界中精准执行任务的智能体。