Copyright 2017-2025 北方報 版權所有 京ICP備16071829-1號
首次將GUI Agent模型與完整配套基建同步開放,支持手搓黨一鍵部署!
這就是階躍星辰剛剛開源的GELab-Zero。
其中4B版本的GUI Agent模型在手機端、電腦端等多個GUI榜單上全面刷新同尺寸模型性能紀錄,取得SOTA成績。
隨著AI在手機等消費終端的普及,Mobile Agent正從“能不能用”邁向“能否規模化落地”。
GUI Agent是執行能力最強的形態之一。它基于視覺理解即可適配幾乎所有App,無需廠商額外改造,接入成本極低。
此外,階躍還同步開源了基于真實業務場景的自建評測標準AndroidDaily,以期推動GUI領域模型評測向消費級、規模化應用發展。
同尺寸性能 SOTA,端到端、輕量化、速度快
要知道,讓GUI Agent在不同品牌與系統版本的設備上順暢運行并不輕松。
移動生態的高度碎片化讓開發者需處理多設備ADB連接、依賴安裝、權限配置、推理服務部署、任務編排與回放等繁瑣流程,工程成本高昂,精力難以聚焦在策略創新與體驗設計上。
要推動移動端Agent真正規模化,必須首先降低開發與使用門檻,讓開發者專注于創造價值,而非重復搭建底層設施。
基于此,階躍開源了GELab-Zero。
它主要包含三部分:
一個能在本地運行的GUI Agent模型GELab-Zero-4B-preview
即插即用的完整推理工程基建,解決所有臟活累活
基于真實業務場景的自建評測標準AndroidDaily
研究團隊在ScreenSpot、OSWorld、MMBench、Android World多個開源基準測試上對GELab-Zero-4B-preview模型進行了全面評估。
這些基準測試涵蓋了GUI理解、定位、交互等多個維度。
從測試結果可以看出,GELab-Zero-4B-preview在多項開源基準測試中超越其他主流模型,拿下同尺寸SOTA。
值得一提的是,GELab-Zero-4B-preview的表現還超越了參數量更大的GUI-Owl-32B等模型,性能更優,也更易部署。
來看一下研究團隊給出的示例場景。
復雜任務
場景1:在外賣平臺同時采購跨品類、不同規格和數量的商品。
Prompt:去餓了么離我最近的盒馬鮮生購買:紅顏草莓300g、秘魯比安卡藍莓125g(果徑18mm)、當季新鮮黃心土豆500g、粉糯貝貝南瓜750g、盒馬大顆粒蝦滑、2瓶盒馬純黑豆豆漿300ml、小王子夏威夷果可可脆120g、盒馬菠菜面、盒馬五香牛肉、5袋好歡螺柳州螺獅粉(加辣加臭)400g、m&m’s牛奶巧克力豆100g
可以看到,模型精準識別了物品信息,并順暢地完成了多步驟、重復性的購買操作。
場景2:在企業福利APP中領取餐券。
Prompt:打開給到App,在我的,下滑尋找,員工權益-奮斗食代,幫我領劵。
上述示例展示了GELab-Zero-4B-preview執行的能力和范圍具有很強的泛化性,無論在國民級APP還是小眾產品平臺,都可以順利完成任務。
模糊指令
場景1:在某個視頻平臺上播放指定演員的經典作品。
Prompt:在騰訊視頻上找一部成龍的經典動作片播放。
接到指令后,GELab-Zero-4B-preview自主拆解“經典”這一需求,確定執行標準。
過程中,模型先打開騰訊視頻,識別并關閉了彈窗,搜索“成龍”后在電影類目中選擇了頁面上成龍評分最高的代表作播放。
場景2:找一個周末能帶孩子玩的地方。
Prompt:幫我找個周末能帶孩子去玩的地方。
接到指令后,模型首先在內容平臺搜索“北京周末帶娃”,然后自主判斷衡量標準后為用戶推薦北京園博園“頑酷奇遇”,并為用戶提煉出該地點的亮點——“有巨型裝置卡通,親子活動豐富”。
可以看到,GELab-Zero-4B-preview模型能夠很好地執行復雜任務和模糊指令,不僅可以準確、流暢地執行涉及到多步驟、多主體、重復操作的任務,也能對“好看”“適合玩的”“經典”等偏籠統和主觀性的指令進行自主拆解,確定執行路徑和標準。
GUI+基建=GUI Agent MCP,一鍵拉起部署
針對GUI智能體,研究人員構建了一整套完整的技術架構體系,可以一鍵拉起獲得類似開源GUI Agent MCP的體驗。