色婷婷精品视频,欧美一区影院,美女被久久久

對(duì)于機(jī)器人來(lái)說(shuō)，世界模型真的有必要想象出精確的未來(lái)畫面嗎？在一篇新論文中，來(lái)自華盛頓大學(xué)、索尼 AI 的研究者提出了這個(gè)疑問。

世界模型==VQA？機(jī)器人不用想象畫面，預(yù)測(cè)語(yǔ)義就夠了

眾所周知，世界模型是一種讓 AI「想象未來(lái)」的學(xué)習(xí)方法。它可以從大量數(shù)據(jù)中學(xué)習(xí)世界的運(yùn)行規(guī)律，然后根據(jù)當(dāng)前狀態(tài)預(yù)測(cè)未來(lái)可能發(fā)生的事情。這種能力非常關(guān)鍵，因?yàn)槿绻?AI 能對(duì)未來(lái)做出合理預(yù)測(cè)，就能提前規(guī)劃出更聰明、更穩(wěn)健的行動(dòng)策略。

在實(shí)踐中，世界模型的實(shí)現(xiàn)形式多種多樣，從小規(guī)模的基于狀態(tài)的動(dòng)力學(xué)模型，到大型的基于動(dòng)作條件的視頻預(yù)測(cè)模型都有。但無(wú)論形式如何，大多數(shù)模型都會(huì)嘗試「還原未來(lái)的畫面」。這種方法雖然常常能生成逼真的圖像，但卻不一定適合用來(lái)做決策。原因在于：圖像看起來(lái)再真實(shí)，也可能漏掉一些真正關(guān)鍵的語(yǔ)義細(xì)節(jié) —— 比如兩個(gè)物體是否真的發(fā)生了接觸。

過(guò)去有一些方法嘗試只建模「與任務(wù)相關(guān)」的信息，但這類方法往往需要額外的假設(shè)，比如必須知道獎(jiǎng)勵(lì)函數(shù)或任務(wù)中某些已知因素。這讓它們?cè)趯?shí)際使用中變得不太靈活。

如果像素信息并非規(guī)劃所必需，那么做出行動(dòng)決策所真正需要的是什么？

這篇論文提出：能夠預(yù)測(cè)關(guān)于未來(lái)結(jié)果的語(yǔ)義信息就足夠了。世界模型不應(yīng)再專注于預(yù)測(cè)原始的視覺幀，而應(yīng)捕捉與任務(wù)相關(guān)的對(duì)象及其交互信息，例如：「機(jī)械臂是否更靠近目標(biāo)物體？」「紅色方塊是否傾倒？」「藍(lán)色球是否被拾起？」

論文將這種信息建模為一個(gè)關(guān)于未來(lái)的視覺問答（VQA）問題，利用這樣一個(gè)事實(shí)：任何目標(biāo)結(jié)果都可以用一系列「是 / 否」問題來(lái)表達(dá)。換言之，世界建模問題可以被重新定義為一個(gè)關(guān)于未來(lái)結(jié)果的 VQA 問題。

目前已有一類模型具備完善的視覺問答工具體系，即視覺語(yǔ)言模型（VLM）。在世界建模任務(wù)中，VLM 具有兩大優(yōu)勢(shì)：

一是，它們通過(guò)大規(guī)模預(yù)訓(xùn)練獲得了強(qiáng)大的視覺問答能力與廣泛的泛化能力；
二是，它們編碼了關(guān)于任務(wù)與場(chǎng)景語(yǔ)義特征的先驗(yàn)知識(shí)。

這些優(yōu)勢(shì)使得前沿的 VLM 能夠提出與任務(wù)相關(guān)的問題，并在給定靜態(tài)觀測(cè)時(shí)給出可靠的答案。然而，它們?nèi)狈?duì)未來(lái)結(jié)果的預(yù)測(cè)能力，這限制了它們?cè)跊Q策任務(wù)中的直接應(yīng)用。

為此，新論文提出了「語(yǔ)義世界模型（Semantic World Model, SWM）」的概念。SVM 是一種具備泛化能力的世界模型，它以動(dòng)作條件的視覺語(yǔ)言模型形式存在，能夠回答關(guān)于未來(lái)動(dòng)作語(yǔ)義效果的問題。

世界模型==VQA？機(jī)器人不用想象畫面，預(yù)測(cè)語(yǔ)義就夠了

久久av国产紧身裤,亚洲一区二区三区在线免费,亚洲啊v在线免费视频,国产精品视频一区二区三区

世界模型==VQA？機(jī)器人不用想象畫面，預(yù)測(cè)語(yǔ)義就夠了

原創(chuàng)寫作更多>>

歷史文化更多>>

科學(xué)技術(shù)更多>>

旅游攻略更多>>

明星娛樂更多>>

新能源汽車更多>>