• 
    <ul id="auswy"><sup id="auswy"></sup></ul>
  • <ul id="auswy"></ul>
    ABB
    關(guān)注中國自動化產(chǎn)業(yè)發(fā)展的先行者!
    CAIAC 2025
    2025工業(yè)安全大會
    OICT公益講堂
    當前位置:首頁 >> 資訊 >> 行業(yè)資訊

    資訊頻道

    沈陽自動化所提出場景識別新方法
    • 點擊數(shù):584     發(fā)布時間:2025-06-10 19:35:50
    • 分享到:
    在機器人領域,場景識別可以幫助機器人理解周圍環(huán)境,完成精準的作業(yè)任務。隨著人工智能技術(shù)在各行業(yè)的深入應用,對場景識別的準確性和魯棒性要求不斷提高。
    關(guān)鍵詞:

    在機器人領域,場景識別可以幫助機器人理解周圍環(huán)境,完成精準的作業(yè)任務。隨著人工智能技術(shù)在各行業(yè)的深入應用,對場景識別的準確性和魯棒性要求不斷提高。

    在實際場景中,光照變化、物體遮擋、視角差異及同類場景的多樣性,容易導致識別方法難以提取穩(wěn)定且具代表性的特征。此外,復雜場景中多語義信息的高效融合、避免信息冗余或丟失,以及提升模型泛化能力,是亟待解決的技術(shù)難點。

    近日,中國科學院沈陽自動化研究所光電信息技術(shù)研究室機器視覺研究部科研團隊提出了一種結(jié)合CLIP多模態(tài)模型的場景識別新方法——OSFA(Object-Level and Scene-Level Feature Aggregation)。該方法通過動態(tài)聚合對象級與場景級特征,可以顯著提升復雜場景的分類精度與魯棒性。

    OSFA方法框架


    首先,科研人員將CLIP的視覺特征作為先驗信息,采用對象級交叉注意力機制,提取與場景高度相關(guān)的局部細節(jié)特征。隨后,利用CLIP的文本編碼器生成類別文本語義信息,引導從圖像中提取全局語義特征,再通過場景級交叉注意力機制形成最終的場景表示。為了增強模型魯棒性,還引入了多損失策略,包括線性分類損失、場景對比損失和類別對比損失。

    研究結(jié)果顯示,該場景識別方法可有效聚合特征,顯著提升復雜場景分類精度與魯棒性,能為視覺導航、機器人應用等領域的場景理解與智能決策提供技術(shù)支撐,助力提升感知與任務執(zhí)行效率。

    該研究以Object-Level and Scene-Level Feature Aggregation with CLIP for Scene Recognition為題發(fā)表于國際期刊Information Fusion。沈陽自動化所博士生王群為第一作者,沈陽自動化所朱楓研究員為通訊作者。

    光電信息技術(shù)研究室機器視覺研究部長期從事智能感知與場景理解關(guān)鍵技術(shù)的研究,致力于推動人工智能在智能制造、服務機器人、智慧城市等領域的深入應用。(光電信息技術(shù)研究室)

    論文鏈接:https://doi.org/10.1016/j.inffus.2025.103118


    來源:中國科學院沈陽自動化研究所


    熱點新聞

    推薦產(chǎn)品

    x
    • 在線反饋
    1.我有以下需求:



    2.詳細的需求:
    姓名:
    單位:
    電話:
    郵件: