據(jù)媒體報道,智元機器人今日宣布,通用具身基座大模型GO-1(Genie Operator-1)已在GitHub正式開源,成為全球首個采用Vision-Language-Latent-Action(ViLLA)架構(gòu)的通用具身智能模型。
這一突破性架構(gòu)通過引入隱式動作標記,有效彌合了圖像-文本輸入與機器人動作執(zhí)行之間的語義鴻溝,顯著提升了機器人對復雜任務的理解與執(zhí)行能力。 向全球開發(fā)者免費開放,降低具身智能技術(shù)門檻。
該模型基于多模態(tài)理解、隱式規(guī)劃和動作生成三層協(xié)同設計,支持多視角視覺、力覺信號與語言指令的融合處理。
同時,智元推出Genie Studio一站式開發(fā)平臺,覆蓋數(shù)據(jù)采集、模型訓練到真機部署全流程,助力開發(fā)者快速實現(xiàn)具身智能應用落地。GO-1已在多類機器人本體上完成驗證,展現(xiàn)出優(yōu)秀的可移植性與仿真性能。
值得一提的是,智元機器人在不久前正式發(fā)起Genie Trailblazer全球招募計劃,向全球的具身智能研究團隊發(fā)出邀請,聚焦通用具身智能模型、具身世界模型、高級遙操作三大核心探索方向。