作者|黃楠
編輯|彭孝秋
硬氪獲悉,AIGC 獨角獸南京硅基智能科技集團股份有限公司(以下簡稱 " 硅基智能 ")近日完成數(shù)億元 D 輪融資,投資方為嘉興高新區(qū)產(chǎn)業(yè)基金(嘉興秀洲區(qū))。本輪資金將重點用于研發(fā)創(chuàng)新投入、推動技術落地并加快產(chǎn)品的市場化應用。
自 2017 年成立以來,「硅基智能」已完成超十億元、10 輪融資,其背后投資方包括騰訊、紅杉中國、招銀國際、中財奇虎、海松資本等。公司聚焦 AIGC 數(shù)字人技術研發(fā)與商業(yè)化應用,提出以硅基勞動力為核心,構建了 DUIX 智能交互平臺、虛擬直播平臺、視頻生產(chǎn)平臺和智能客服四大產(chǎn)品線。
隨著 AI 大模型、計算機視覺、語音合成等技術的迅猛發(fā)展,數(shù)字人產(chǎn)業(yè)在中國迅速崛起,其通過 AI 技術生成的虛擬形象,能模擬人類的外貌、聲音、表情并具有交互能力,被廣泛應用于直播、客服、教育、娛樂等領域。
根據(jù)艾瑞咨詢報告顯示,2023 年中國數(shù)字人市場規(guī)模已突破 100 億元,預計 2025 年達到 300 億元,年復合增長率超過 50%。
當前市場上涌現(xiàn)了大量的 AI Agent,隨著大模型推理成本持續(xù)下降,單純提供邏輯和流程自動化的能力,其技術門檻和商業(yè)壁壘將迅速消解。" 純工具性的 Agent,最后一定會陷入慘烈的價格戰(zhàn)。"「硅基智能」創(chuàng)始人司馬華鵬告訴硬氪。
司馬華鵬指出,許多行業(yè)的智能化水平仍停留在初級階段,事實上人們對高質量 Agent 存在廣泛需求。AI 天然具備基于邏輯推理的思維鏈能力,能夠以絕對理性的方式解決問題,在此基礎上所衍生的數(shù)字人智能體也開始進入更多需要深度推理的場景。
" 比如醫(yī)生對疾病的推斷,本質上就是依據(jù)證據(jù)鏈、患者特征等信息,運用專業(yè)知識進行思維鏈推導的過程。" 司馬華鵬說," 各行各業(yè)中存在大量的思維鏈應用節(jié)點,未來這些節(jié)點可能逐步由 AI 接管,形成‘人機協(xié)同’的工作模式,即 AI 憑借思維鏈邏輯處理標準化環(huán)節(jié),人類則聚焦創(chuàng)意決策、情感交互等更核心的領域。"
算法技術平臺是「硅基智能」數(shù)字人產(chǎn)品體系的底層支撐。2024 年 11 月,「硅基智能」以 API 形式,推出新一代多模態(tài)大模型 DUIX ONE,該模型集成了語音識別、語音合成、NLP 和計算機視覺等核心算法能力,可以提供看、聽、說、高情商、并具有人類實時形象等多模態(tài)能力。
其優(yōu)勢在于極大提升了交互的真實感,有效解決過去傳統(tǒng)數(shù)字人 " 形似神不似 " 的問題。同時,進入落地市場化階段也具有更強的普適性和應用潛力。
在語音技術方面,DUIX ONE 能夠精準識別不同口音、語速的語音內容,在嘈雜環(huán)境下保證穩(wěn)定運行,準確率高、抗噪能力強;隨后可生成自然流暢、富有情感的人聲,實現(xiàn)逼近真人發(fā)聲效果。
在數(shù)字人形象構建方面,「硅基智能」通過完整人臉建模技術,能夠快速、精準地創(chuàng)建高度逼真的人臉模型;虛擬形象驅動算法基于語音、文本等輸入,可實時驅動數(shù)字人的面部表情、肢體動作,保證其行動的生動性與自然度。
進入交互環(huán)境,DUIX ONE 能夠深入理解人類語言背后的語義與情感,并提供智能對話、文本分類、知識問答等功能。期間,數(shù)字人會根據(jù)對話場景與用戶需求,生成邏輯嚴謹、內容豐富的回復。
商業(yè)化方面,「硅基智能」采用差異化產(chǎn)品策略,針對企業(yè)客戶和個人用戶提供定制化服務方案。面向企業(yè)市場(2B 領域),公司重點服務運營商、電商平臺、傳媒機構等客戶群體,通過標準化的 API 接口服務,實現(xiàn) AI 能力的模塊化輸出,大幅降低企業(yè)的技術應用門檻。
以電商直播場景為例,企業(yè)客戶提供 5 分鐘左右的視頻素材,即可在 AI 訓練平臺快速完成數(shù)字人主播的個性化定制。平臺支持形象外觀、聲音、語言風格等全維度特征建模,高度還原真人主播特質。生成后的數(shù)字人主播還具有實時智能交互能力,能準確理解觀眾提問,并根據(jù)評論內容作出回應,增強直播間互動性、提高觀眾留存率。
目前,「硅基智能」數(shù)字人業(yè)務營收已達數(shù)億規(guī)模,為 5000 余家合作品牌提供數(shù)字人主播解決方案,幫助商家降低約 80% 成本;在金融行業(yè),已同超 30 家銀行、保險公司合作并部署智能客服數(shù)字人;還與主流電視臺合作開發(fā)虛擬主持人等。
面向 C 端用戶,「硅基智能」推出了數(shù)字人 " 克隆 " 服務,幫助用戶創(chuàng)建專屬數(shù)字分身,并實現(xiàn)虛擬形象定制、智能陪伴等個性化功能。同時在 DUIX 智能交互平臺和視頻生產(chǎn)平臺上,普通用戶也能輕松完成 " 數(shù)字人視頻生成 "" 數(shù)字人實時交互 " 等專業(yè)級創(chuàng)作,進一步降低數(shù)字內容創(chuàng)作的門檻。
硬氪了解到,「硅基智能」已將數(shù)字人克隆服務價格降至數(shù)千元,生產(chǎn)過程采用全自動化流程,僅需 1 秒視頻,即可完成形象和聲音克隆,在保證 1 個工作日快速交付的同時,也大幅降低了技術應用成本。
官方最新數(shù)據(jù)顯示,「硅基智能」平臺服務用戶超過 50 萬,日均用戶生成內容突破 50 萬條,累計 AIGC 直播時長在千萬小時以上。通過數(shù)字人技術在短視頻、直播等場景的深度應用,越來越多的普通用戶正從被動的內容消費者,轉變成為積極參與的內容創(chuàng)作者。
為了進一步推動 AIGC 技術普惠化,「硅基智能」將 DUIX 平臺核心技術全面開源,目前已發(fā)布的 DUIX-Mobile 版本支持 Android 和 iOS 平臺,為開發(fā)者提供極簡集成方案,僅需調用三行核心代碼,即可將數(shù)字人功能快速嵌入自有產(chǎn)品體系,縮短開發(fā)周期,以加快數(shù)字人在文娛、法律、金融、教育、醫(yī)療等更多行業(yè)的規(guī)?;涞?。
當融合了 AI 多模態(tài)大模型能力、能夠實時對話的數(shù)字人逐漸滲透到更多領域,進入人們生活,這不僅是技術的進步,更重新定義了情感傳遞的方式。" 數(shù)字永生 " 有望從概念走向現(xiàn)實,當人類的情感與記憶通過數(shù)字人技術在跨越時空得以保存,這也為生命形態(tài)的拓展了全新的維度。