慕尼黑大學團隊:AI終於學會像人類一樣"推演未來"

慕尼黑大學團隊:AI終於學會像人類一樣

這項由慕尼黑路德維希馬克西米利安大學(LMU Munich)計算機視覺團隊(CompVis)與慕尼黑機器學習中心(MCML)聯合開展的研究,發表於2026年4月,預印本編號為arXiv:2604.09527大學。有興趣深入瞭解的讀者可以透過該編號在arXiv平臺查詢完整論文。該研究還獲得了Netflix的研究資助,以及歐盟地平線專案、德國聯邦研究部等多方支援。

**當你預測一個球會飛向哪裡大學,你真的在腦子裡"放電影"嗎?**

人類有一種神奇的能力:只需瞟一眼檯球桌,就能大致判斷球擊出後會彈向何處;只需看一眼街角,就能預測行人下一步的走向大學。更有趣的是,人類在做這種預測時,並不需要在腦海中把整個場景的每一個畫素都渲染出來——你不會把木地板的紋理、牆壁的顏色、燈光的陰影都重新"畫"一遍,你只是追蹤那些"重要的運動"。

然而,目前幾乎所有的AI影片預測系統做的恰恰相反大學。它們就像一個強迫症畫家——要預測球會往哪飛,必須先把整張畫面的每一個畫素都重新畫出來,包括背景的每一根木紋,天花板上的每一盞燈,然後才能從這幅"全景畫"裡提取出球的位置。這種方式不僅極其耗時,更像是用大炮打蚊子——浪費了絕大多數算力在與運動毫無關係的細節上。

慕尼黑團隊的這項研究,正是要解決這個根本性的浪費問題大學。他們開發了一套名為**Myriad**的系統,讓AI只追蹤場景中"重要點"的軌跡,而完全跳過對整張畫面的重繪。這個思路聽起來簡單,但背後涉及的技術革新相當深刻——而且實驗結果證明,這樣做不僅更快(快了成百上千倍),預測準確度還不遜於那些"先畫畫再推理"的龐大影片模型。

一、為什麼現有的AI預測未來如此低效大學

要理解這項研究解決了什麼問題,先來看看當前AI系統是怎麼工作的大學

現有的影片生成模型,比如各大公司推出的文生影片或圖生影片工具,本質上都是"畫素生成機器"大學。當你給它一張圖,讓它預測接下來會發生什麼,它會逐幀生成一段影片——每一幀都包含完整的畫面內容,包括背景、光影、紋理,以及那些根本沒有移動的靜止物體。這個過程在計算上極為沉重,就像你每次想知道時間,都要先把整個手錶重新制造一遍,而不是直接看錶盤。

展開全文

研究人員把這個問題叫做"視覺稅"(visual tax)——為了獲取運動資訊,不得不額外支付"渲染整個畫面"的計算成本大學。對於只想預測"這個球會滾向哪裡"的任務來說,這筆稅實在太貴了。

更深層的問題是,真實世界的運動往往需要多步推演大學。檯球打出去之後,會碰到邊框,再彈到另一個球,那個球再滾向袋口——這一系列事件是鏈式發生的,每一步都建立在上一步的基礎上。如果一個模型試圖"一步到位"地預測最終結果,它就必須在腦子裡同時考慮所有這些碰撞和互動,這對模型的要求近乎無限。就像你不可能一眼看完一本懸疑小說然後立刻知道兇手是誰——你必須一頁一頁地讀,一步一步地推理。

慕尼黑團隊發現,解決這兩個問題的方法其實可以統一在一個框架裡:放棄渲染整張畫面,只追蹤場景中若干關鍵點的座標;同時不要妄圖一步預測到很遠的未來,而是一小步一小步地向前推進大學

二、Myriad的核心思路:只追蹤重要的點大學,一步一步往前走

Myriad系統的工作方式,可以用"只盯著棋子,不管棋盤花紋"來理解大學

給系統一張圖片,然後在圖上點選幾個你感興趣的點——比如檯球桌上的幾個球,或者街上行人的關節位置,或者一隻貓的爪子尖大學。系統不需要知道背景是什麼顏色,不需要渲染木紋或天空,它只需要回答一個問題:這幾個點,在接下來的時間裡,會分別移動到哪裡?

這些被追蹤的點叫做"稀疏軌跡"(sparse trajectories)大學。"稀疏"的意思是,你只關心幾個關鍵位置,而不是畫面裡的每一個畫素。這種表示方式極其高效——幾十個座標數字,遠比幾百萬畫素的影片幀要輕量得多。

系統採取的是逐步推進的策略大學。它不會直接預測"10秒後這些點在哪裡",而是先預測"0.01秒後這些點在哪裡",然後再預測"再過0.01秒後在哪裡",如此迴圈往復,一小步一小步地把軌跡延伸出去。這種方式有一個重要好處:每一步都是短時間內的區域性運動,相對容易預測;而多步疊加之後,就能覆蓋很長的時間跨度,同時自然地累積不確定性——越往後預測,結果就越發散,就像天氣預報越往後越模糊,這是符合直覺的。

由於只處理座標數字而非畫素影像,系統的計算量驟降大學。根據論文中的資料,Myriad的取樣速度達到每分鐘約2200個樣本,而同類影片生成模型的速度大約是每分鐘0.05到0.7個樣本——快了三到四個數量級,也就是數百到數千倍。

三、技術核心大學:擴散模型、自迴歸生成與流匹配

Myriad系統在技術上是如何實現這一切的?這裡涉及幾個核心概念,可以用"天氣預報員的工作流程"來理解大學

天氣預報員不會直接告訴你"明天一定下雨",而是給出機率分佈:"明天有70%的可能下雨,20%的可能多雲,10%的可能晴天"大學。Myriad做的事情類似——對於每個被追蹤的點,它不給出一個確定的未來位置,而是給出一個位置的機率分佈,表示"這個點最可能去這裡,但也有一定機率去那裡"。

實現這種機率分佈的技術叫做**流匹配**(flow matching)大學。可以把它理解成這樣:給每個被追蹤的點一個"噪聲版本的未來位置",然後訓練一個神經網路,讓它學會把噪聲慢慢"淨化"成合理的真實位置。這個過程類似於雕塑家從一塊粗糙的石頭裡慢慢鑿出精細的形狀——一步步去除不合理的部分,最終呈現出符合物理規律的軌跡。

整個系統是一個**自迴歸變換器**(autoregressive transformer)大學。"自迴歸"的意思就是:系統基於已經發生的歷史,預測下一步;下一步發生後,又用這個更新後的歷史,預測再下一步。這和人類閱讀一本書的方式一樣——你看完每一句話之後,才能預測下一句大概會說什麼,而不是一次性看完整本書然後再倒推每句話的意思。

更具體地說,系統的時間軸上的每一步,以及每個被追蹤的點,都是按照嚴格的順序生成的大學。數學上,這被表述為一個"因果分解"的聯合機率——每個點在每個時刻的位置,都以"之前所有時刻的所有點的位置"為條件。這保證了軌跡之間的相互依賴關係被正確建模:如果一個球碰到了另一個球,後者的運動軌跡會因此改變,這種"碰了之後才改變"的因果邏輯被完整地保留在模型結構裡。

系統還引入了一個叫做**運動令牌**(motion token)的概念大學。每個被追蹤的點在每個時刻,會被打包成一個"令牌",這個令牌包含三類資訊:第一類是"這個點是什麼"——系統從原始圖片上提取該點的視覺特徵,比如這是一根骨頭還是一個輪子;第二類是"這個點現在在哪裡"——當前的空間位置;第三類是"這個點的運動方向"——用傅立葉嵌入(一種把數字轉換成豐富特徵的技術)編碼當前的速度向量。

為了區分不同被追蹤的點,系統給每個點分配了一個隨機的"身份向量"(trajectory ID)大學。這個向量是從高維球面上隨機取樣的,因此不同點的ID幾乎互相垂直,可以被模型清晰區分。這種設計的妙處在於,它可以處理任意數量的被追蹤點,不受固定數量的限制,也不會因為ID固定而導致模型產生位置偏見。

四、讓系統跑得更快的工程細節大學:並行注意力塊與快取

系統的高速度不僅來自"不渲染畫面"的設計思路,還來自一系列精心的工程最佳化大學

傳統的變換器(transformer)模型處理資訊時,會依次執行三個操作:先做自注意力(讓每個點和其他點互相"打招呼"),再做交叉注意力(讓運動點去"看"圖片特徵),最後做前饋網路(進行非線性變換)大學。每一步都要單獨計算,然後結果累加到隱藏狀態裡。這就像廚師做菜,先炒一道,裝盤,再炒第二道,裝盤,再炒第三道——每道菜都要單獨開火、單獨裝盤。

Myriad採用了**並行變換器塊**,把這三步合併成一步:自注意力、交叉注意力和前饋網路的輸出被同時計算,然後一次性加回到隱藏狀態大學。更進一步,系統把自注意力和交叉注意力合併成一個統一的注意力操作——把圖片令牌和運動令牌拼在一起,透過一個精心設計的掩碼矩陣來控制誰可以"看"誰:圖片令牌只能被運動令牌看到,而圖片令牌本身不需要"看"任何東西(因為圖片是固定不變的輸入)。這樣,原本需要多次獨立計算的操作被壓縮成一次,大幅減少了GPU上的核心呼叫次數。

同時,系統充分利用了自迴歸生成中的**KV快取**機制大學。在逐步生成軌跡時,已經處理過的歷史資訊(鍵值對)會被快取起來,不需要在每一步都重新計算。這類似於你在看一本書時,不需要每次都從第一頁重讀到當前頁,只需要記住已經讀過的內容的"摘要",然後接著往下讀。

針對後驗機率的流匹配頭(flow matching head),系統也做了類似的快取最佳化大學。流匹配頭在取樣時需要多次前向傳播(預設50次),而其中的條件資訊(來自主幹網路的z向量,以及流匹配時間τ的編碼)可以分別預計算和快取,避免重複計算。

還有一個有趣的細節:真實世界的運動量分佈極度不均勻——大多數點移動幅度很小,但偶爾會有大幅度的跳躍(比如一隻球突然被猛擊)大學。統計上說,運動量的分佈有極重的"尾巴"(超額峰度高達647,而正常影像訊號的該值約為-0.7)。為了讓神經網路穩定處理這種極端情況,研究人員引入了**尺度級聯**(scale cascade)技術:把運動量用一系列不同倍數的係數縮放,再分別透過tanh函式壓縮,然後並排送入網路。小系數保留了細微運動的精細特徵,大系數則把極端值"壓扁",防止異常值主導訓練。這就像拍夜景照片時同時用多種曝光度拍攝,然後合成一張HDR影像——每種曝光度都捕捉了不同亮度範圍的細節。

五、位置編碼大學:讓系統同時知道"現在在哪"和"從哪裡來"

空間位置資訊的編碼方式是系統設計中另一個值得介紹的細節大學

每個運動令牌需要告訴系統兩個空間資訊:這個點"現在在哪裡",以及"最開始在哪裡"(也就是軌跡的起點)大學。知道起點有助於系統理解"這個點是一個檯球"或"這個點是行人的肩膀",因為視覺特徵是在起點位置從圖片上提取的。

系統使用了一種叫做**軸向旋轉位置編碼**(axial RoPE)的技術來編碼這些空間資訊大學。可以把它理解成一種特殊的"座標標籤"——每個令牌都帶著一張標明瞭"x座標、y座標、時間步"的名牌,模型在處理時可以直接利用這些名牌來理解空間關係和時間順序。

此外,系統還預留了一部分通道不附加位置編碼,專門用於全域性語義注意力——這允許系統做一些"不管在哪裡,只看整體意思"的推理,類似於你在看一場足球比賽時,不僅關注某個球員的具體位置,也在感知整體的攻守陣型大學

圖片令牌(來自DINOv3-L/16影像編碼器)和運動令牌共享同一套位置編碼框架,確保兩類資訊在同一個座標參考系下進行互動大學

六、OWM基準:如何公正地評估"預測未來"的能力大學

要證明Myriad確實比競爭對手好,需要一套公正的評測體系大學。然而,評測"未來預測"其實是個棘手的問題。

困難在於:未來往往不是唯一的大學。同一個初始狀態,可能有多種合理的發展方向——檯球可以偏左也可以偏右,行人可以加速也可以減速。如果一個模型預測了A,而真實發生的是B,這並不意味著模型錯了,因為A也是完全合理的可能性。因此,不能簡單地用"預測值減去真實值"來衡量好壞。

研究團隊引入了**OWM(Open-World Motion)基準**,這是他們專門為開放世界運動預測設計的評測資料集大學。資料集包含95段來自真實世界的多樣影片,覆蓋室內外場景、剛性與非剛性運動、有自由意志(人/動物)和無自由意志(物體)的運動主體,以及單一和多智慧體場景。所有影片都經過靜態攝像頭驗證,避免攝像頭運動干擾對場景運動的評測。

評測指標叫做**minADE_N**(最小平均位移誤差)大學。具體操作是:讓每個模型針對同一個場景生成N個不同的預測(因為模型有隨機性,每次生成的結果略有不同),然後看這N個預測裡哪一個最接近真實發生的情況,取那個最接近的來計算誤差。這個"取最好的一個"的邏輯背後有一個重要假設:一個好的預測模型,應該能夠生成覆蓋真實未來的多樣化猜測;只要它的猜測"夠廣",總有一個會命中。

評測分兩種模式大學。第一種叫**Best-of-5**:每個模型固定生成5個預測,取最好的那個。第二種叫**Best-within-5min**(主要評測模式):給每個模型固定5分鐘的時間在一臺參考GPU上跑,允許它生成任意多的預測,然後同樣取最好的那個。第二種模式的設計思路是:在相同的時間預算下,誰能探索更多的可能性,誰就更有實用價值。

除了OWM,研究團隊還引入了兩個物理場景的專項基準:來自PhysicsIQ資料集的"固體力學"子集(97個樣本),以及來自Physion資料集的剛體碰撞子集(134個樣本,排除了軟體碰撞場景)大學。這兩個資料集的運動遵循更嚴格的物理規律,測試的是系統對物理直覺的掌握。

七、實驗結果:速度快了千倍大學,精度持平或更優

研究的實驗結果可以從兩個維度來理解:在同等樣本數量下的精度對比,以及在同等時間預算下的效率對比大學

在**Best-of-5**設定下(每個模型各生成5個預測),Myriad在OWM基準上的得分是0.029,而競爭對手包括:MAGI-1(4.5B引數)得0.037、WAN2.2(14B引數)得0.039、CogVideoX 1.5(5B引數)得0.051、SkyReels V2(1.3B引數)得0.058、SVD 1.1(1.5B引數)得0.054大學。Myriad以6.65億引數實現了最低誤差,而引數量最大的WAN2.2是它的21倍。

在**Best-within-5min**設定下,差距急劇擴大大學。Myriad在5分鐘內可以生成大量樣本(每分鐘2200個),得分降至0.013。而影片生成模型由於速度太慢,MAGI-1最好也只能達到0.066,WAN2.2直接無法在5分鐘內完成足夠多的取樣(標註為DNF)。核心原因正是取樣速度的巨大差異:Myriad每分鐘約2200個樣本,SVD每分鐘約0.7個樣本,WAN2.2約0.14個樣本——差距在百倍到萬倍之間。

在物理場景的基準測試中,情況類似大學。PhysicsIQ上,Myriad的Best-of-5成績為0.045,Best-within-5min為0.020,均優於所有影片模型基線。Physion上,Myriad的Best-of-5成績為0.048,Best-within-5min為0.020,同樣表現突出。

研究還額外訓練了一個變體模型,使用了V-DPM三維追蹤器獲取的軌跡資料(將3D軌跡重投影到第一幀攝像機視角,以消除攝像機運動干擾)大學。這個變體在PhysicsIQ和Physion上的表現與主模型相當,在OWM上略遜,說明3D資料有助於提升物理場景的預測,但資料量較小(約150萬影片,相比主模型的1000萬影片)限制了其泛化能力。

八、規劃檯球擊球大學:從預測到決策

Myriad不僅可以做"被動預測",還可以用於"主動規劃"——在給定目標的情況下,探索哪種初始動作能達到目的大學

研究團隊用檯球規劃任務來測試這一能力大學。場景是:給定一張檯球桌的圖片,要求把某個目標球打進指定的袋口。系統的工作方式是:不斷嘗試不同的擊球方向和力度,對每個候選動作預測未來軌跡,然後用一個獎勵函式評估每條軌跡"目標球離袋口有多近",最終選出預期獎勵最高的那個動作執行。

這個任務的關鍵挑戰不在於預測單一未來,而在於大量探索反事實的可能性——"如果我向左偏5度會怎樣?""如果力度輕一點呢?"——並且要在有限時間內探索足夠多的可能性大學。Myriad的高速度使它能夠在同樣的時間內探索遠比影片模型更多的動作候選。

實驗在臺球物理模擬器(python-billiards)上進行,所有模型都從零開始在模擬資料上訓練,以確保公平對比大學。評估指標是"成功率"——目標球是否在規定時間內至少觸碰到了目標位置。

結果相當顯著大學。Myriad的成功率達到78%,接近模擬器直接執行的理論上限84%。相比之下,各類影片生成基線的成功率在8%到16%之間,而"全軌跡擴散"方法(一次性生成整段軌跡而非逐步推進)的成功率僅8%,Flow Poke Transformer(一步直接預測最終位置)的成功率僅4%。

後兩個數字很能說明問題大學。Flow Poke Transformer的吞吐量其實很高(每分鐘13422個動作),但精度太低——直接"一跳到終點"的方式無法處理檯球這種涉及多次碰撞的複雜物理過程。全軌跡擴散方法則是另一個極端:它逐幀生成整段軌跡,但不是從第一步開始逐步推進,而是同時對所有時間步上的運動進行"去噪"——這意味著預測第50步的運動時,並沒有以第49步的實際運動結果為基礎,導致誤差積累嚴重。研究還對比了在Myriad上直接用迴歸(而非機率分佈)來預測下一步的變體,該變體成功率為36%,說明對於不確定性較低的檯球物理,確定性預測也有一定效果,但仍遜於完整的機率建模。

九、模型會"知道自己有多不確定"嗎大學

一個好的預測系統,不僅要知道"最可能的答案是什麼",還要知道"自己有多大把握"大學。Myriad的設計允許評估後驗不確定性——流匹配頭在生成軌跡時,可以多次取樣並計算預測的方差,作為不確定性的度量。

研究團隊分析了這個不確定性度量與實際預測誤差的關係大學。結果顯示,在畫素級精度以上的誤差範圍內(誤差大於1/512的歸一化影像寬度),模型的後驗不確定性與最終預測誤差高度相關,兩者在對數-對數座標系下呈線性關係。換句話說,當模型說"我不確定"時,它的預測誤差確實更大;當模型說"我很確定"時,它的預測誤差確實更小。這種"自知之明"在實際應用中非常有價值——系統可以根據不確定性高低決定是否需要更多探索,或者向使用者標註哪些預測是可靠的。

十、消融實驗大學:每個設計選擇為何不可或缺

研究團隊透過細緻的消融實驗驗證了各個技術選擇的必要性大學

關於後驗引數化方式,研究對比了三種方案:高斯混合模型(GMM)、無尺度級聯的流匹配頭、帶尺度級聯的流匹配頭(Myriad的完整方案)大學。在OWM上,GMM方案的誤差為0.110,無尺度級聯的流匹配頭為0.033,完整方案為0.029。GMM方案的另一個劣勢是訓練收斂極慢,而流匹配頭在訓練步驟數相同的情況下誤差低超過10倍。這證明了流匹配在捕捉複雜運動分佈方面的優越性,以及尺度級聯對於處理重尾運動分佈的重要性。

關於並行注意力塊的速度提升,研究在批次大小為4、追蹤16條軌跡、預測32個時間步的設定下對比了融合層與標準層的推理速度大學。融合後的速度約為標準層的2倍;在批次大小為1時,速度提升更大,約為3.7倍。這在實際使用中意味著:同樣的時間預算可以多探索約2至4倍的可能性。

關於軌跡ID嵌入,對比了無嵌入、可學習嵌入和隨機球面嵌入三種方案大學。在臺球模擬的Best-of-5終點誤差上,無嵌入方案在16條軌跡下誤差為0.00150,可學習嵌入為0.00149,隨機球面嵌入為0.00141。更重要的是,可學習嵌入在推理時無法泛化到訓練時沒見過的軌跡數量(比如訓練用16條,推理用24條時直接失敗),而隨機球面嵌入可以零樣本泛化到不同數量,僅有輕微效能下降。

關於多步推理的必要性,研究在臺球模擬中對比了不同步長的方案:每步0.01秒(50步預測0.5秒)、每步0.05秒(10步)、每步0.5秒(1步,即一步到位)大學。誤差分別為0.00141、0.00999、0.02823。步長越小、步數越多,誤差越低。一步到位方案的誤差是多步方案的約20倍,與檯球規劃任務中Flow Poke Transformer的低成功率相呼應。

十一、在經典行人軌跡預測任務上的零樣本表現

研究還在一個完全不同的領域測試了Myriad的泛化能力:ETH-UCY行人軌跡預測基準,這是軌跡預測領域最經典的測試集,包含ETH、Hotel、Zara01、Zara02四個場景的真實行人軌跡大學

所有競爭基線(SocialLSTM、SocialGAN、Trajectron、Trajectron++)都是在這個資料集的訓練集上專門訓練的,而Myriad完全沒有見過任何行人軌跡資料,直接用在開放世界影片上訓練的版本進行零樣本評測大學

由於原始資料提供的是俯檢視的抽象座標,而Myriad需要從真實影像出發,研究團隊手動標註了對應關係,將俯視座標轉換到相機視角下,才能送入Myriad進行推理,最終再轉回俯視座標計算誤差大學

結果顯示,Myriad的零樣本表現與專門在域內訓練的Trajectron++相當,在某些場景(如Hotel場景的Best-of-20設定)甚至更優大學。這說明Myriad在開放世界影片上學習到的運動模式具有良好的跨場景遷移性。

十二、模型的侷限與未來方向

研究誠實地列出了當前系統的主要侷限大學

最主要的限制是對靜態攝像頭的假設大學。Myriad學習並預測的是相對於固定攝像機視角的畫素座標運動。當攝像機本身在移動時(比如手持拍攝的影片,或行車記錄儀),場景中的靜止物體也會在畫面裡"移動",與真實的場景運動混在一起,難以區分。研究團隊探索了一種補償方案——用3D追蹤器估計攝像機運動並在預處理時消除,但聯合預測攝像機自運動與場景運動仍是未解決的重要方向。

另一個限制是對偽標註軌跡的依賴大學。訓練資料中的軌跡來自TAPNext等現成追蹤器的自動標註,而非真實的精確標註,因此繼承了追蹤器的噪聲和偏差。在快速運動、遮擋嚴重或紋理匱乏的場景下,追蹤器的精度下降,會直接影響訓練資料質量。

歸根結底,Myriad這項研究講的是一個很樸素的道理:做一件事,應該只付出做這件事所需的代價,而不是順帶把所有周邊工作都重做一遍大學。預測運動,就直接預測運動,不必先把整個畫面重新畫出來;預測遠期未來,就一步一步慢慢走,不必妄想一跳到終點。這兩個原則疊加在一起,帶來了速度上的巨大提升,而精度並不因此打折。

這項研究的意義不僅僅在於檯球規劃或影片預測本身大學。更廣泛地看,任何需要"快速評估大量可能未來"的應用場景——機器人避障、自動駕駛決策、遊戲AI規劃、災難預警系統——都可能從這種高效的軌跡預測框架中受益。當一個系統能在幾分鐘內探索數千種可能性而不是隻能評估五種,它所做出的決策質量會發生質的變化。

當然,靜態攝像頭的限制意味著它目前還不能直接用於行走機器人或駕駛場景,而對大規模偽標註資料的依賴也會在追蹤困難的場景下帶來誤差大學。這些都是後續研究需要繼續攻關的方向。對於感興趣的讀者,可以透過arXiv編號2604.09527查閱完整論文,專案頁面也提供了更多視覺化結果,地址是compvis.github.io/myriad。

Q&A

Q1:Myriad預測的是什麼大學,和普通的影片生成有什麼區別?

A:Myriad預測的是影像中若干使用者指定關鍵點的未來軌跡座標,而不是生成完整的影片幀大學。普通影片生成模型需要把每一幀畫面的每個畫素都重新渲染出來,計算量極大;Myriad只追蹤幾十個座標點的位移,完全跳過畫面渲染,因此速度快了數百到數千倍,同時精度不遜於影片模型。

Q2:Myriad的高速度在臺球規劃任務中帶來了多大優勢大學

A:在臺球擊球規劃任務中,Myriad的成功率達到78%,而最好的影片生成基線成功率僅16%大學。這種差距主要來自速度:Myriad每分鐘能評估約496個候選動作,在固定時間預算內能探索大量擊球方案,而影片模型每分鐘只能評估約20個候選,探索空間極為有限。更快的探索直接轉化為更高的命中率。

Q3:Myriad必須要有靜態攝像頭才能使用嗎大學

A:目前主要版本確實假設攝像頭靜止不動,這是它的主要侷限大學。研究團隊嘗試了用3D追蹤器估計並消除攝像機運動的方案,並在約150萬影片上訓練了對應變體,效果有所改善,但聯合預測攝像機運動與場景運動仍是未解決的問題。因此當前版本最適合固定攝像頭拍攝的場景,比如監控影片、實驗室錄影或體育場比賽錄影。

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://m.sdhbcy.com/post/32503.html

🌐 /