數(shù)智生活
數(shù)智治理
數(shù)智產(chǎn)業(yè)
數(shù)智軍工
敬請期待
匯集全面、前沿、深度的小視科技官網(wǎng)資訊與媒體聚焦報道
近日,小視科技在第一屆CVPR 2023 WorkShop 大模型挑戰(zhàn)賽中,與全球七十多個隊伍激烈角逐,取得了A榜第一名、B榜第三名的優(yōu)異成績。



CVPR 2023 1st foundation model challenge - TRACK 2 排行榜中,小視科技MiniModel脫穎而出
本次挑戰(zhàn)賽是今年百度在CVPR 2023上舉辦的首屆大模型workshop。競賽以智能交通為方向,小視科技所在的賽道聚焦對場景文本圖像的理解與感知,旨在提升交通場景中文本圖像檢索的精度。
01 大模型,如何服務智能交通?
ChatGPT大熱,讓我們第一次感受到了大模型的魅力,語言機器人可以像老朋友一樣與你聊天。那么,大模型又會在智能交通領域做哪些事?
交通場景中存在大量檢索車輛、行人的需求,高性能的圖像檢索能力對于交通執(zhí)法、治安治理具有十分重要的作用。

傳統(tǒng)圖像檢索方式標注成本較高,并且不方便進行類別拓展。隨著多模態(tài)大模型技術的發(fā)展,文本與圖像的表征統(tǒng)一和模態(tài)轉換已有廣泛的研究和應用,已經(jīng)能夠有效利用互聯(lián)網(wǎng)上的海量圖像-文本描述數(shù)據(jù)訓練foundational model。這不僅可以降低下游微調任務成本,模型本身也具有較強的Zero-shot(零樣本學習)能力,能夠更好地識別新事物。該模型進一步提升圖像檢索準確度和靈活性,服務智能交通。
02 小視算法方案
本次競賽數(shù)據(jù)集包含行人、車輛等交通參與者和大量噪聲數(shù)據(jù),任務難度提升。車輛數(shù)據(jù)差異較大,監(jiān)控視角與非監(jiān)控視角均有,對基礎模型的遷移能力要求也很高。


車輛數(shù)據(jù)差異極大
我們使用多模態(tài)統(tǒng)一特征表達優(yōu)化技術完成了本次交通場景檢索任務。
我們的方法聚焦在數(shù)據(jù)處理、模型結構、訓練策略、模型融合,額外加入了模型生成數(shù)據(jù)和開源數(shù)據(jù),進一步提升foundation model在領域內的表征能力。我們使用多個異構模型進行l(wèi)ater fusion,并對檢索結果重新排序。
此外,我們在訓練時使用prompt增強技術來優(yōu)化分詞歧義并增強屬性特征表征能力,使用loss截斷抑制噪聲數(shù)據(jù),使用凍結參數(shù)來抑制過擬合。

我們采用數(shù)據(jù)仿真和生成等方法去發(fā)揮foundational model的潛力,采用新穎的模型集成方法,以loss截斷抑制噪聲數(shù)據(jù)、prompt增強等技巧提升下游檢索任務的精度。
采用多模態(tài)對比學習的技術路線,充分發(fā)揮大模型的能力,在應對場景變化和同時處理多種場景時有非常好的表現(xiàn)。這一方案充分發(fā)揮多模態(tài)統(tǒng)一特征表達優(yōu)化技術的潛力,能夠更好地應用于真實的交通場景中,具有較高的實際使用價值。

此外,這些方法在其它場景中也有一定的參考價值。小視團隊將繼續(xù)深入研究多模態(tài)大模型技術,探索更多的垂類場景應用,讓更多人感受到前沿AI技術帶來的新體驗、新生活。