久久国际精品,99香蕉国产精品偷在线观看,蜜桃视频一区二区三区在线观看

首次將GUI Agent模型與完整配套基建同步開放，支持手搓黨一鍵部署！

這就是階躍星辰剛剛開源的GELab-Zero。

其中4B版本的GUI Agent模型在手機端、電腦端等多個GUI榜單上全面刷新同尺寸模型性能紀錄，取得SOTA成績。

隨著AI在手機等消費終端的普及，Mobile Agent正從“能不能用”邁向“能否規模化落地”。

GUI Agent是執行能力最強的形態之一。它基于視覺理解即可適配幾乎所有App，無需廠商額外改造，接入成本極低。

此外，階躍還同步開源了基于真實業務場景的自建評測標準AndroidDaily，以期推動GUI領域模型評測向消費級、規模化應用發展。

同尺寸性能 SOTA，端到端、輕量化、速度快

要知道，讓GUI Agent在不同品牌與系統版本的設備上順暢運行并不輕松。

移動生態的高度碎片化讓開發者需處理多設備ADB連接、依賴安裝、權限配置、推理服務部署、任務編排與回放等繁瑣流程，工程成本高昂，精力難以聚焦在策略創新與體驗設計上。

要推動移動端Agent真正規模化，必須首先降低開發與使用門檻，讓開發者專注于創造價值，而非重復搭建底層設施。

基于此，階躍開源了GELab-Zero。

它主要包含三部分：

一個能在本地運行的GUI Agent模型GELab-Zero-4B-preview

即插即用的完整推理工程基建，解決所有臟活累活

基于真實業務場景的自建評測標準AndroidDaily

研究團隊在ScreenSpot、OSWorld、MMBench、Android World多個開源基準測試上對GELab-Zero-4B-preview模型進行了全面評估。

這些基準測試涵蓋了GUI理解、定位、交互等多個維度。

從測試結果可以看出，GELab-Zero-4B-preview在多項開源基準測試中超越其他主流模型，拿下同尺寸SOTA。

值得一提的是，GELab-Zero-4B-preview的表現還超越了參數量更大的GUI-Owl-32B等模型，性能更優，也更易部署。

來看一下研究團隊給出的示例場景。

復雜任務

場景1：在外賣平臺同時采購跨品類、不同規格和數量的商品。

Prompt：去餓了么離我最近的盒馬鮮生購買：紅顏草莓300g、秘魯比安卡藍莓125g（果徑18mm）、當季新鮮黃心土豆500g、粉糯貝貝南瓜750g、盒馬大顆粒蝦滑、2瓶盒馬純黑豆豆漿300ml、小王子夏威夷果可可脆120g、盒馬菠菜面、盒馬五香牛肉、5袋好歡螺柳州螺獅粉（加辣加臭）400g、m&m’s牛奶巧克力豆100g

可以看到，模型精準識別了物品信息，并順暢地完成了多步驟、重復性的購買操作。

場景2：在企業福利APP中領取餐券。

Prompt：打開給到App，在我的，下滑尋找，員工權益-奮斗食代，幫我領劵。

上述示例展示了GELab-Zero-4B-preview執行的能力和范圍具有很強的泛化性，無論在國民級APP還是小眾產品平臺，都可以順利完成任務。

模糊指令

場景1：在某個視頻平臺上播放指定演員的經典作品。

Prompt：在騰訊視頻上找一部成龍的經典動作片播放。

接到指令后，GELab-Zero-4B-preview自主拆解“經典”這一需求，確定執行標準。

過程中，模型先打開騰訊視頻，識別并關閉了彈窗，搜索“成龍”后在電影類目中選擇了頁面上成龍評分最高的代表作播放。

場景2：找一個周末能帶孩子玩的地方。

Prompt：幫我找個周末能帶孩子去玩的地方。

接到指令后，模型首先在內容平臺搜索“北京周末帶娃”，然后自主判斷衡量標準后為用戶推薦北京園博園“頑酷奇遇”，并為用戶提煉出該地點的亮點——“有巨型裝置卡通，親子活動豐富”。

可以看到，GELab-Zero-4B-preview模型能夠很好地執行復雜任務和模糊指令，不僅可以準確、流暢地執行涉及到多步驟、多主體、重復操作的任務，也能對“好看”“適合玩的”“經典”等偏籠統和主觀性的指令進行自主拆解，確定執行路徑和標準。

GUI+基建=GUI Agent MCP，一鍵拉起部署

針對GUI智能體，研究人員構建了一整套完整的技術架構體系，可以一鍵拉起獲得類似開源GUI Agent MCP的體驗。

久久av国产紧身裤,亚洲一区二区三区在线免费,亚洲啊v在线免费视频,国产精品视频一区二区三区

階躍開源4B Agent模型，跑通所有安卓設備，手搓黨一鍵部署

原創寫作更多>>

歷史文化更多>>

科學技術更多>>

旅游攻略更多>>

明星娛樂更多>>

新能源汽車更多>>