易慧智能發(fā)布汽車行業(yè)大模型評測集,并重磅推出模型路由技術方案

10月25日,汽車行業(yè)AI產(chǎn)品和業(yè)務解決方案提供商易慧智能發(fā)布了汽車行業(yè)首個大模型評測集。此次評測旨在全面評估市面上主流大模型在汽車行業(yè)中的實際應用效果,特別關注于汽車營銷場景的應用評估。在此基礎上,易慧智能重磅推出創(chuàng)新的模型路由技術方案——基于多模型的YiAgent群體智能技術框架。

此技術框架不僅融合了大模型路由技術,還巧妙地將大模型庫、汽車行業(yè)大模型評測集以及YiAgent群體智能平臺這三個子系統(tǒng)整合為一個有機整體。在這個創(chuàng)新的技術框架中,大模型路由依據(jù)汽車大模型評測的效果,為YiAgent群體智能平臺中的每個Agent所負責的技能挑選出效果最佳的模型,從而實現(xiàn)技能的最優(yōu)化配置和效用最大化。技術框架為企業(yè)客戶提供以多個大模型驅動的群體智能協(xié)同工作平臺,全力支持企業(yè)客戶實現(xiàn)智能化轉型。

應對復雜場景需求多模型成為主流

鑒于當下大模型使用場景的多樣性、任務復雜度的提升,以及垂直行業(yè)專業(yè)需求的特殊性,當前無論是通用大模型還是垂直大模型,均展現(xiàn)出各自的局限性和不足。以內(nèi)容創(chuàng)作為例,此領域涵蓋了寫作、翻譯、知識問答、代碼輔助、邏輯推理等多個維度,對于不同任務,各大模型表現(xiàn)差異較大,沒有一家大模型可在所有任務上均達到最優(yōu)。這一現(xiàn)狀也為混合大模型的興起提供了契機。

混合大模型旨在將市場中的主流大模型進行有機融合,針對特定任務需求,精準調(diào)用表現(xiàn)最優(yōu)的模型,以實現(xiàn)精準解決特定問題的目標。通過“專業(yè)分工,協(xié)同合作”的理念,混合大模型致力于最大化各項任務的處理效能。近期,360公司推出的AI助手便是一個典型例證,該助手集成了國內(nèi)15家頂尖大模型,構建了CoE專家網(wǎng)絡模型,通過規(guī);馁Y源整合,集中各模型之優(yōu)勢,最終實現(xiàn)了更為卓越的性能與效率提升。

在汽車行業(yè)的營銷領域,其核心能力與任務包含行業(yè)知識的深度掌握、內(nèi)容創(chuàng)作的精準定位、高效對話能力的展現(xiàn)、數(shù)據(jù)分析的精細處理以及智能體支持的全面覆蓋等多個維度。這些綜合且復雜的需求,對大模型的能力提出了極高的挑戰(zhàn),也使得當前市場上的單一模型在應對此類復雜場景與任務時顯得力不從心。而混合大模型方案的提出,則為解決這一系列難題提供了最為優(yōu)化和可行的思路。

汽車營銷領域首個垂直行業(yè)大模型評測集

據(jù)悉,易慧智能作為聚焦汽車行業(yè)的AI產(chǎn)品和業(yè)務解決方案提供商,擁有海量的用戶行為數(shù)據(jù)和車型數(shù)據(jù),在汽車行業(yè)數(shù)字營銷、數(shù)字化轉型方面擁有企業(yè)級的深刻理解和豐富的應用場景。易慧智能此次重磅發(fā)布汽車行業(yè)大模型評測集,并同步推出模型路由技術方案——基于多模型的YiAgent群體智能技術框架,這一舉措深刻體現(xiàn)了其在技術創(chuàng)新領域的領導地位,同時也是其堅定踐行以客戶為中心發(fā)展理念的重要里程碑。

作為汽車營銷領域首個大模型評測集,易慧智能選擇了國內(nèi)外具有代表性的8個閉源/開源的模型以及自研大模型共9個模型。針對汽車營銷領域行業(yè)知識、內(nèi)容創(chuàng)作、對話能力、數(shù)據(jù)分析、智能體支持等5大核心能力和超過20個子任務能力進行嚴格評測,并對每個評測類別制定獨特的評測標準和方法,原創(chuàng)評測題目超過1000道。

在評測過程中,易慧智能重點關注大模型在汽車營銷關鍵領域的表現(xiàn)。首先,就行業(yè)知識而言,評估大模型對汽車行業(yè)基礎知識的掌握深度,以及其在看車、選車、購車、使用等全流程中展現(xiàn)出的專業(yè)知識理解和應用能力。

其次,在內(nèi)容創(chuàng)作方面,考察大模型汽車領域內(nèi)容生成能力,特別是其在撰寫汽車種草圖文、汽車短視頻文案等方面的表現(xiàn)。特別關注大模型在營銷內(nèi)容創(chuàng)作上的多樣性、準確性,以及其對字數(shù)、人設、場景等維度要求的指令遵循能力。

此外,在對話能力方面,測試大模型與用戶進行自然語言交流的能力,包括但不限于語義理解、情緒識別、實體識別、對話推理等對話場景中的核心能力。

同時,數(shù)據(jù)分析也是評測的重要環(huán)節(jié)。易慧智能將考察大模型在處理和分析汽車行業(yè)相關數(shù)據(jù)方面的能力,如銷售數(shù)據(jù)、用戶行為數(shù)據(jù)等,并評估其在營銷決策支持中的應用效果。具體的能力維度包括text2sql、指標計算、圖表推薦以及報告撰寫等。

最后,在智能體支持方面,易慧智能將評估大模型在支持智能體進行任務規(guī)劃、流程推理、工具檢索、參數(shù)理解以及工具使用等方面的能力,特別是在營銷自動化和個性化推薦中的實際應用效果。

經(jīng)過此次嚴格評測,結果顯示無一模型能在所有能力上均獨占鰲頭。其中,在汽車知識與對話能力方面,自主研發(fā)的大模型以82.17與80.62的高分脫穎而出。值得注意的是,盡管GPT-4o仍保持其領先地位,但國內(nèi)大模型正迅速追趕,差距正在逐步縮小。

此次評測結果還反映出通用大模型在應對具有行業(yè)特性的任務時顯現(xiàn)出明顯的局限性。無論其源自國內(nèi)還是國外,相較于專為汽車領域定制的自研大模型,在汽車領域知識掌握及對話交互能力的核心指標上,得分普遍較低。這一發(fā)現(xiàn)也揭示出當前通用大模型在處理行業(yè)專屬任務時遭遇的瓶頸,尤其是在需要深度專業(yè)知識與精準上下文解析的場景中更為凸顯。相比之下,行業(yè)大模型由于擁有針對性的訓練與優(yōu)化,能夠更為精準地捕捉并處理特定領域的專業(yè)知識與對話內(nèi)容。因此,針對專業(yè)性要求極高的行業(yè)應用場景而言,選擇垂直大模型無疑是更為合理且高效的決策。

易慧智能CTO葉明登表示,易慧智能此次評測的目標是提供一個全面、客觀的評估框架,幫助汽車行業(yè)的決策者和技術開發(fā)者更好地理解和利用大模型技術,以實現(xiàn)汽車行業(yè)的智能化升級。特別是在營銷場景下,我們的評測集能夠更準確地衡量大模型在實際商業(yè)環(huán)境中的表現(xiàn)和價值。

易慧智能CTO葉明登

在此次評測中表現(xiàn)優(yōu)異的自研大模型負責人同時也是易車副總裁張磊表示,自研大模型基于易車在汽車行業(yè)多年的深耕與積累,結合最新的人工智能技術,5T+的PT數(shù)據(jù),百萬級SFT(Supervised Fine-Tuning,監(jiān)督微調(diào))數(shù)據(jù),DPO(Direct Preference Optimization,是一種用于對齊大模型與人類偏好的方法)安全對齊,實現(xiàn)了大模型在汽車領域的全場景支持、汽車知識及時更新、效果領跑,全面賦能汽車行業(yè)。此次評測結果的發(fā)布不僅揭示了大模型在汽車行業(yè)的應用現(xiàn)狀,還突顯了行業(yè)大模型相較于通用大模型在指導技術決策、推動技術創(chuàng)新、促進行業(yè)定制化、提升應用效能、推動私有化部署等垂直領域的獨特優(yōu)勢。

易車副總裁張磊

模型路由技術方案切實提升群體智能協(xié)同平臺工作效能

此次易慧智能重磅推出的模型路由技術方案——基于多模型的YiAgent群體智能技術框架,作為一個有機系統(tǒng),包含了大模型庫、汽車行業(yè)大模型評測集、YiAgent群體智能平臺三個子系統(tǒng)。

子系統(tǒng)一——大模型庫優(yōu)選當前主流大模型,通過定期的換入換出機制,緊跟當前業(yè)內(nèi)最新技術動態(tài)進展。大模型庫中的所有大模型都會在大模型路由中進行注冊,并統(tǒng)一訪問接口。為了滿足不同企業(yè)客戶對不同場景的業(yè)務需要,該大模型庫中覆蓋了各個維度的大模型,包括國內(nèi)模型和國外模型、商業(yè)模型和開源模型、Saas模型和可私有化部署模型、通用模型和行業(yè)模型,未來將持續(xù)增加更多的優(yōu)秀模型補充進來。

考慮到各個外部模型的持續(xù)更新迭代,易慧智能會定期對大模型進行升級迭代,尤其是微調(diào)參數(shù)量較小的模型,不斷提升模型效果,降低成本。

子系統(tǒng)二——汽車行業(yè)大模型評測集覆蓋行業(yè)最全面的基礎知識和營銷核心場景能力,可根據(jù)真實應用場景實時更新評測數(shù)據(jù),定期刷新大模型庫中所有模型的評測結果,并將評測結果同步至大模型路由。

子系統(tǒng)三——YiAgent群體智能平臺可以根據(jù)任務動態(tài)選擇某個單體agent(數(shù)字員工)或者群體agent(數(shù)字員工團隊)。Agent路由作為用戶需求的總入口,執(zhí)行“CEO”的角色。

單體agent(數(shù)字員工)完成任務所需不同技能可通過大模型路由動態(tài)選擇最優(yōu)大模型。

在YiAgent群體智能平臺子系統(tǒng)中,大模型路由模塊承擔著為各項技能精準匹配最優(yōu)大模型的重任。鑒于各大模型在專長領域上的差異,系統(tǒng)依據(jù)評測結果,為每項技能分配表現(xiàn)最為出色的模型。在模型表現(xiàn)相近的情況下,系統(tǒng)秉持成本效益原則,優(yōu)先選用參數(shù)量較少的模型,以實現(xiàn)資源的最優(yōu)化配置。此外,大模型路由模塊還兼具負載均衡功能,當某一模型負載達到閾值時,能夠智能地將部分請求引導至次優(yōu)模型,確保服務的連續(xù)性與穩(wěn)定性,有效規(guī)避服務中斷的風險。

據(jù)業(yè)內(nèi)資深人士分析指出,模型路由技術方案的發(fā)布,為大模型在汽車營銷領域的實際部署與效能提升,開辟了一條極具價值的參考途徑。此舉不僅強化了易慧智能在汽車AI產(chǎn)品與服務解決方案領域的優(yōu)勢地位,更將實質(zhì)性地推動AI技術在汽車行業(yè)內(nèi)的創(chuàng)新步伐,實現(xiàn)行業(yè)整體效率與客戶競爭力的顯著提升。

大模型評測集+ 混合大模型+

網(wǎng)友評論