隨著人工智能(AI)市場持續(xù)蓬勃發(fā)展,作為人工智能領(lǐng)域炙手可熱的技術(shù)方向,多模態(tài)大模型正迎來“上新潮”——企業(yè)紛紛以多模態(tài)融合、推理效率提升以及成本優(yōu)化為突破口,加速人工智能技術(shù)的商業(yè)化落地。
“通過多模態(tài)長思維鏈訓(xùn)練、全局記憶、強化學(xué)習(xí)的技術(shù)突破,形成領(lǐng)先的多模態(tài)推理能力,并突破成本邊界?!痹谏虦萍既涨芭e行的2025技術(shù)交流日活動上,商湯科技董事長兼首席執(zhí)行官徐立在介紹公司推出全新升級的“日日新V6”大模型體系時表示,該大模型體系將跨越多模態(tài)邊界,釋放推理與智能的無限可能。
此外,在近日舉行的“2025快手磁力大會”上,快手也明確表示,在人工智能生成內(nèi)容(AIGC)的內(nèi)容生產(chǎn)方面,基于多模態(tài)大模型,快手的AIGC內(nèi)容生成能力飛速提升。而在稍早前,智元機器人于3月初發(fā)布通用具身基座大模型GO-1,該大模型借助人類和多種機器人數(shù)據(jù),讓機器人獲得了革命性的學(xué)習(xí)能力,可泛化應(yīng)用到各類環(huán)境和物品中,快速適應(yīng)新任務(wù)、學(xué)習(xí)新技能。同時,還支持部署到不同的機器人本體,高效完成落地,并在實際的使用中持續(xù)快速進化。
縱觀近期業(yè)內(nèi)的一系列動作,不僅反映出人工智能領(lǐng)域的技術(shù)躍遷,更是行業(yè)競賽加速的縮影。專家認(rèn)為,當(dāng)前,行業(yè)競爭焦點已從參數(shù)規(guī)模轉(zhuǎn)向應(yīng)用效能,大模型的價值也正從實驗室的各類技術(shù)指標(biāo)向能否最終轉(zhuǎn)化為實際生產(chǎn)力轉(zhuǎn)變。與此同時,多家上市公司也在積極探索將多模態(tài)大模型引入到日常工作中。
大模型頻“上新”
“多模態(tài)正在成為大模型行業(yè)發(fā)展的重要趨勢?!鄙虦萍悸?lián)合創(chuàng)始人、大裝置事業(yè)群總裁楊帆表示,2025年,行業(yè)頭部企業(yè)愈發(fā)強調(diào)多模態(tài)能力,這是一個自然的市場趨勢。因為人工智能最終會走向線下,走向物理現(xiàn)實。在這一過程中,多模態(tài)的處理和思考能力就成為一種必然的趨勢性需求。
在商湯科技日前舉辦的2025技術(shù)交流日活動上,公司推出全新升級的“日日新V6”大模型。其模型能力顯著提升,在長思維鏈、推理、數(shù)理、全局記憶方面具備優(yōu)勢,做到高效能與低成本兼具。
值得一提的是,憑借全局記憶能力,“日日新V6”大模型打破了傳統(tǒng)模型僅支持短視頻的限制,可支持10分鐘級視頻全幀率解析。此外,“日日新V6”大模型還可以對視頻的精彩內(nèi)容進行智能剪輯輸出,幫助用戶保留珍貴瞬間。
徐立表示,全局記憶使得交互更加自然,例如能處理更長的視頻段,并且能對視頻有整體的理解和深度推理,從而實現(xiàn)更好的交互。
不僅是商湯科技,3月10日,智元機器人發(fā)布首個通用具身基座大模型——智元啟元大模型(GO-1),其主要是基于2024年底智元機器人推出的AgiBot World數(shù)據(jù)集。該數(shù)據(jù)集是包含超過100萬條軌跡、涵蓋217個任務(wù)、涉及五大類場景的大規(guī)模高質(zhì)量真機數(shù)據(jù)集。
為了有效利用高質(zhì)量的AgiBot World數(shù)據(jù)集以及互聯(lián)網(wǎng)大規(guī)模異構(gòu)視頻數(shù)據(jù),增強策略的泛化能力,智元機器人提出了Vision-Language-Latent-Action(ViLLA)這一創(chuàng)新性架構(gòu)。
“該架構(gòu)由VLM(多模態(tài)大模型)+MoE(混合專家)組成,其中VLM借助海量互聯(lián)網(wǎng)圖文數(shù)據(jù)獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規(guī)劃器)借助大量跨本體和人類操作視頻數(shù)據(jù)獲得通用的動作理解能力,且MoE中的Action Expert(動作專家)借助百萬真機數(shù)據(jù)獲得精細(xì)的動作執(zhí)行能力?!敝窃獧C器人表示,三者環(huán)環(huán)相扣,實現(xiàn)了利用人類視頻學(xué)習(xí),完成小樣本快速泛化,降低了具身智能門檻。此外,作為通用機器人策略模型,其能夠在不同機器人形態(tài)之間遷移,快速適配到不同本體,群體升智。目前,已成功部署到智元多款機器人本體,將具身智能推上了一個新臺階。
據(jù)智元機器人介紹,通過ViLLA創(chuàng)新性架構(gòu),公司在五種不同復(fù)雜度任務(wù)上測試GO-1大模型的表現(xiàn)顯示,其平均成功率提高了32%。其中,倒水、清理桌面和補充飲料任務(wù)表現(xiàn)尤為突出。
值得一提的是,在智元機器人4月初公開發(fā)布的一則招聘公告中,關(guān)鍵崗位就包括多模態(tài)大模型算法研究員/工程師。據(jù)公司透露,今年1月,智元機器人已累計量產(chǎn)下線1000臺通用具身機器人。
應(yīng)用價值日益顯現(xiàn)
頭豹研究院研報顯示,2023年中國多模態(tài)大模型市場規(guī)模達(dá)到90.9億元,預(yù)計到2028年將增長至662.3億元,年復(fù)合增長率達(dá)48.76%。該研報認(rèn)為,這一快速增長主要歸因于技術(shù)創(chuàng)新的持續(xù)驅(qū)動,以及行業(yè)需求的強勁推動。此外,隨著多模態(tài)大模型在圖文生成、跨模態(tài)檢索和視頻內(nèi)容分析等領(lǐng)域的技術(shù)突破,其在各領(lǐng)域的應(yīng)用價值日益顯現(xiàn)。
“過往人工智能應(yīng)用有非常多的宏大場景構(gòu)想,但真實環(huán)境存在的復(fù)雜問題更考驗大模型對于混合圖文的理解推理能力。”在徐立看來,AI之道,在于百姓之日用。每天的高頻日常使用才能從真正意義上輔助人工智能通用模型的大規(guī)模發(fā)展。
“在日常生產(chǎn)生活高頻出現(xiàn)的需求場景中,以保險理賠為例,傳統(tǒng)方案通常高度依賴事先設(shè)定的規(guī)則,根據(jù)規(guī)則定向去找文檔里面的關(guān)鍵信息,比如總金額、治療開藥日期等?!毙炝⒈硎荆缃裢ㄟ^多模態(tài)數(shù)據(jù)的深度整合與強推理能力,能夠更全面地捕捉全部文檔的全量信息,判斷商業(yè)醫(yī)療保險理賠材料是否符合理賠要求,并以開放式的方式進行推理,檢查諸如是否存在亂開藥、亂檢查、材料缺失或者材料對不上等問題。
徐立表示,現(xiàn)實生活中小額理賠的材料審核往往需要3至7天的時間,而交給人工智能,從測試情況看,平均時間可大幅縮減至1分鐘。
除此之外,徐立還介紹了例如在線上購物比價、商鋪運營、剪輯視頻、題目講解與分析等多個日常高頻場景中使用大模型進行效率提升的案例,進一步傳遞出大模型在日常生活中的實用性。
徐立認(rèn)為,當(dāng)人工智能聚集了人類現(xiàn)有的大量平均水平的知識后,能夠通過觸類旁通的能力,形成一種對于開放性問題的確定性應(yīng)對能力,進一步完成從模型到客戶使用的“最后一公里”。
“我們是從視覺智能開始起步的,當(dāng)時我們的很多場景設(shè)置都非常宏大,包括城市管理、智能工業(yè)、電網(wǎng)、物業(yè)、運營等,其中一個比較重要的原因是當(dāng)時的模型只能針對單一任務(wù)提供閉環(huán)價值,通用性不夠強?!毙炝⒈硎?,在如今的通用人工智能時代,那些“看不見摸不著”的技術(shù)能夠真正走進“尋常百姓家”,并且能夠在多個日常細(xì)分場景中帶來價值閉環(huán)。
上市公司深度布局
業(yè)界普遍認(rèn)為,大模型的核心競爭力已從單一模態(tài)處理逐步轉(zhuǎn)向跨模態(tài)融合與深度推理,并在此過程中使得大模型的價值不再僅是單點工具,而是有望進一步重塑系統(tǒng)性生產(chǎn)力。在此趨勢下,不少上市公司通過自研、合作等方式加速布局多模態(tài)大模型,并在垂直領(lǐng)域持續(xù)深度優(yōu)化。
企業(yè)安全隱患排查,往往需要工作人員“一天三班倒”持續(xù)現(xiàn)場巡檢。面對繁雜的排查工作,如何幫助工作人員減負(fù)增效?對此,海康威視正探索基于??涤^瀾大模型技術(shù)體系,將多模態(tài)大模型能力應(yīng)用到安全生產(chǎn)管理領(lǐng)域。
“將多模態(tài)大模型引入到日常安全生產(chǎn)管理工作中,對現(xiàn)場可能存在的隱患問題進行智能識別和快速判斷,結(jié)合安全生產(chǎn)知識庫,給出詳細(xì)的排查依據(jù)和整改措施,不僅可以讓現(xiàn)場排查工作效率得到提升,還可以通過遠(yuǎn)程巡查快速發(fā)現(xiàn)問題?!焙?低暠硎尽?/p>
據(jù)??低暯榻B,依托企業(yè)安全生產(chǎn)管理平臺,結(jié)合多模態(tài)大模型,可有效實現(xiàn)遠(yuǎn)程隱患智查。例如針對生產(chǎn)區(qū)、儲罐區(qū)、倉庫區(qū)的跑冒滴漏、油封破損、表計破損、外觀裂紋、螺栓脫落等隱患,安全員可以將日常點巡檢規(guī)范導(dǎo)入系統(tǒng),并篩選匹配對應(yīng)的視頻點位,配置完成后一鍵啟動排查,自動生成隱患分析報告。
海康威視表示,??涤^瀾大模型加持安全生產(chǎn),助力企業(yè)構(gòu)建更堅實的安全防線。未來將深入更多業(yè)務(wù)領(lǐng)域,探索新的應(yīng)用場景,助力形成更準(zhǔn)確、更高效的管理模式。
“公司在電力巡檢領(lǐng)域所應(yīng)用的產(chǎn)品包括輪式機器人、四足機器人以及無人機等?!睗捎钪悄苋涨霸诨悠脚_上透露,公司已于上月完成了“基于多模態(tài)融合的智能巡檢模型算法”的評審。目前,公司正在積極參與輪式機器人的集中檢測工作。
漢儀股份此前在接受機構(gòu)調(diào)研時表示,公司長期布局人工智能應(yīng)用技術(shù),一直通過自研、投資并購等方式,持續(xù)擴大研發(fā)團隊尤其是AI技術(shù)團隊,加大資源投入進行AI技術(shù)的應(yīng)用研究,尤其是多模態(tài)大模型的應(yīng)用研究,探索各種大模型在文字、圖像、視頻等設(shè)計領(lǐng)域的應(yīng)用創(chuàng)新落地。
據(jù)介紹,針對服飾類電商客戶,漢儀股份研發(fā)的AI模特商拍和商品圖合成技術(shù),替代了傳統(tǒng)拍攝方式,為品牌營銷圖智能換臉、智能合成商品背景圖等功能,降低了客戶商品拍攝與處理成本,提升了商品上架速度和展示效果;針對視頻電商客戶,其研發(fā)的AI視頻剪輯解決方案,替代傳統(tǒng)人力剪輯方式,可大大降低剪輯處理的成本,提升營銷內(nèi)容生產(chǎn)和投放效率。
“結(jié)合文本、圖像和視頻的多模態(tài)內(nèi)容生成技術(shù),公司布局開展了營銷海報生成、虛擬換裝、圖生視頻、視頻混剪等方面的產(chǎn)品規(guī)劃和研發(fā)工作。”漢儀股份表示,上述應(yīng)用已在公司“kreatr”工具平臺上線,并已和外部企業(yè)展開商業(yè)合作。
(來源:中國證券報)