黑色丝袜美腿性爱一区二区,玖玖亚洲精品国产,国产精品日韩欧美一区2区3区,国产免费A∨片在线观看不卡

      關(guān)于ZAKER 合作
      極客公園 昨天

      豆包為什么要給 AI 助手「開眼」?

      豆包,可以視頻通話了。

      自年初更新「實(shí)時(shí)語音通話」功能之后,這一功能就持續(xù)受到用戶歡迎?,F(xiàn)在在社交媒體上搜索豆包,排名前十的熱門關(guān)鍵詞中,有 6 個(gè)與「打電話」功能有關(guān)。大量和豆包通話相關(guān)的創(chuàng)意內(nèi)容也受到了觀眾追捧。

      隨著視頻能力上線,豆包的通話功能迎來了一次「升維」,變得更實(shí)用、好用。結(jié)合視頻圖像,很多即便模糊的語音輸入,也能夠更好地被 AI 理解,用戶不需要再組織語言去描述眼前的信息。

      視頻通話是一個(gè)單點(diǎn)功能,但在這背后是語言能力、多模態(tài)能力、推理能力、知識(shí)庫等等多個(gè)垂直領(lǐng)域的技術(shù)積累、整合,以及對(duì)成本和效率的平衡。

      更重要的是,視頻通話能力預(yù)示了 AI 助手更遠(yuǎn)的前景。當(dāng) AI 同時(shí)擁有了眼睛和耳朵,在未來更多硬件創(chuàng)新的支持下,還將解放更大的創(chuàng)新潛力。

      01

      幫你理解眼前一切的豆包

      視頻通話能力給豆包帶來的,首先是多模態(tài)理解的能力提升和交互優(yōu)化。

      從最基礎(chǔ)的「理解」場景開始,用戶可以把手機(jī)攝像頭對(duì)準(zhǔn)任何信息,如信息版、菜單,讓豆包給出翻譯、解釋。而且過程中,用戶可以不斷通過語言輸入,來修正豆包的關(guān)注重點(diǎn)。

      比如在一個(gè)博物館里,當(dāng)我們開啟視頻通話,問豆包這是什么,豆包首先會(huì)根據(jù)畫面里的地標(biāo)特征,識(shí)別出這是「新加坡國家美術(shù)館」。然后我們?nèi)绻^續(xù)追問,樓上掛著的橫幅是什么意思,豆包又會(huì)給出具體展覽信息的翻譯和解釋。

      而在看展覽的過程中,我們也可以舉著手機(jī),隨時(shí)針對(duì)任何一幅作品向豆包發(fā)問。從基本的翻譯作品信息,到問它作品風(fēng)格具體屬于哪一個(gè)派別,是否有模仿哪個(gè)藝術(shù)家的痕跡,豆包都能給出精準(zhǔn)判斷。

      基于豆包給出的信息,我們也能進(jìn)一步挖掘一些更深的隱藏關(guān)聯(lián)。比如在新加坡國家美術(shù)館里有一個(gè)法院拘留室的展示區(qū)域,問過豆包之后我發(fā)現(xiàn),這里的關(guān)系在于,新加坡國家美術(shù)館由原政府大廈和原最高法院大樓改建而成。前法院的拘留室曾用于關(guān)押候?qū)彽谋桓?,在美術(shù)館改建后,部分拘留室被保留了下來,成為了美術(shù)館的一部分,供公眾參觀,讓人們可以了解新加坡的司法歷史。

      除此之外,我們還可以和豆包講講自己對(duì)美術(shù)作品的一些理解和看法,進(jìn)行觀點(diǎn)碰撞。實(shí)際上,豆包已經(jīng)具備一定的「糾錯(cuò)」能力,不是只會(huì)一味地順從用戶的理解。比如這里,當(dāng)我引用了錯(cuò)誤的類比,說這個(gè)作品像「蒙德里安」風(fēng)格時(shí),豆包能夠糾正我的錯(cuò)誤,告訴我實(shí)際像的是安迪 · 沃霍爾。之后我們還可以進(jìn)一步探討,為什么會(huì)出現(xiàn)這個(gè)錯(cuò)誤。我們也可以引導(dǎo)豆包對(duì)作品進(jìn)行批判性的解讀和評(píng)價(jià)。

      這里還有一個(gè)很關(guān)鍵的點(diǎn),因?yàn)橛辛藞D像視覺信息作為輔助,很多時(shí)候即便我發(fā)出指令的聲音很小,豆包并未完整識(shí)別我所說的句子的每一個(gè)字,但它依然能通過捕捉關(guān)鍵詞,準(zhǔn)確理解我的意圖。

      在旅行、觀光、展覽……等視覺信息占比更高的場景,最能體現(xiàn)出豆包視頻通話能力的優(yōu)勢。我們可以隨手舉起手機(jī),讓豆包看到我們眼前的東西,從最基本的「這是什么?」出發(fā),一點(diǎn)點(diǎn)挖掘出更多的信息和知識(shí)。比如讓豆包根據(jù)周邊的景色推理出我們在哪,推薦周邊值得一去的景點(diǎn)、活動(dòng)、特色飲食,這既具有實(shí)用價(jià)值也充滿樂趣,適合出游不喜歡做嚴(yán)密的計(jì)劃,喜歡遇到更多偶然驚喜的 P 人。

      包括在餐廳吃飯,碰到那些「不知道該怎么吃」的情形,也很適合通過視頻通話功能求助豆包。比如吃蕎麥面的時(shí)候店員端上來一壺像熱水一樣的東西,這個(gè)時(shí)候豆包也輕松給出了正確答案,壺里裝的是蕎麥面湯,可以和醬汁混合在一起喝掉。

      豆包的視頻通話功能,相比普通的圖像識(shí)別,最關(guān)鍵的優(yōu)勢依然在于它的「互動(dòng)性」更強(qiáng)?;趩螐垐D像的理解和推理,很可能出現(xiàn)各種理解偏差、錯(cuò)誤。有了視頻模式之后,即便豆包給出了一個(gè)比較可疑的回應(yīng),我們也可以通過換個(gè)角度,提供更多信息,來給豆包進(jìn)行更多思考和修正的機(jī)會(huì)。

      比如在這個(gè)場景下,我們想知道酒店的某個(gè)裝置的作用,問豆包之后它首先以為我們問的是前面的熨衣板。經(jīng)過進(jìn)一步交互,它知道了我們想問的是后面的行李架,但因?yàn)榻嵌葐栴},它將行李架錯(cuò)誤理解成了健身器材,之后換個(gè)角度進(jìn)一步追問并識(shí)別之后,豆包成功給出了行李架這一答案。

      這是視頻通話的功能的關(guān)鍵優(yōu)勢之一。當(dāng)下任何 AI 大模型都不可避免地會(huì)有「幻覺」和錯(cuò)誤。當(dāng)用戶精心編寫了一大段 prompt 卻沒有得到自己想要的輸出結(jié)果時(shí),就會(huì)極大打擊他們使用 AI 的積極性。但通過給到更多信息,提供更多角度的輸入補(bǔ)充,就能讓 AI 更接近我們需要的正確答案??梢哉f,在視頻通話場景下,AI 和用戶形成了互動(dòng)的正向循環(huán)。

      除了日常生活場景,豆包的視頻通話功能還可以在學(xué)習(xí)、工作等各種場景發(fā)揮作用,特別是基于一些紙質(zhì)的材料進(jìn)行理解和修改。比如對(duì)多頁的紙質(zhì)資料進(jìn)行總結(jié),或?qū)W(xué)科題目進(jìn)行解答、糾錯(cuò)。

      02

      模型技術(shù)的「木桶理論」

      「視頻通話」的功能本身非常簡潔,任何用戶理解起來都沒有門檻,但在這背后,其實(shí)需要復(fù)雜的技術(shù)作為支持。

      豆包視頻通話功能的核心來自「豆包視覺理解模型」的支持。2024 年 12 月,豆包首次發(fā)布視覺理解模型,為視頻通話功能提供了模型能力基礎(chǔ)。

      除了視覺感知之外,豆包視覺理解模型還具備深度思考能力。這讓豆包實(shí)際上還可以通過攝像頭直接進(jìn)行解學(xué)科題目、分析論文以及診斷代碼等任務(wù)。這也是為什么在視頻通話過程中豆包能同時(shí)結(jié)合「圖像畫面」和「用戶語音指令」,精準(zhǔn)理解用戶意圖。

      豆包并不是第一個(gè)實(shí)現(xiàn)這一功能的 AI 助手,但想要同時(shí)擁有優(yōu)秀的視覺理解能力,再基于視覺理解和用戶指令,將不同模態(tài)的信息綜合理解后,生成用戶想要的信息,同時(shí)還要做到低延遲,這一切就有很高的技術(shù)門檻。

      整個(gè)過程有點(diǎn)像「木桶理論」,一個(gè)模型必須同時(shí)做好多個(gè)方面,才能做到像一個(gè)真實(shí)的「AI 助手」一樣,滿足用戶的需要。

      03

      為什么「視頻通話」能解鎖 AI 交互的更多創(chuàng)新?

      今天,「視頻通話」只是豆包的一個(gè)小功能。但實(shí)際上,視覺理解能力所蘊(yùn)含的潛力和可能性還不止于此。

      自誕生至今,大模型 AI 助手的交互都是「一問一答」式,用戶輸入 prompt,AI 生成反饋。這里最大的矛盾在于,整理編寫 prompt 是有門檻的,且這個(gè)門檻比想象中更高,而一問一答式的交互又是斷裂的,大家都很容易「把天聊死」,面對(duì) AI 也一樣。

      而視覺圖像的引入,則為人機(jī)交互建立了一個(gè)「語境」,且這個(gè)語境的建立不需要任何門檻,天然富含信息,用戶只需要舉起攝像頭就行了。實(shí)際上,人類自身理解世界的過程中,我們最重要的信息接收器官也一直是眼睛。

      通過豆包的視頻通話功能,這一模式的有效性已經(jīng)得到體現(xiàn)。通過連貫的互動(dòng)加上視覺理解,用戶和 AI 交互的過程變得更自然了,可以通過不斷補(bǔ)充、解釋,來接近自己想要的那個(gè)目標(biāo)。這種用戶和 AI 互相引導(dǎo),對(duì) propmt 進(jìn)行不斷修正,能極大增加 prompt 輸入的帶寬和精確度。

      實(shí)際上,這早就是行業(yè)共識(shí)。自 AI 大模型技術(shù)誕生之后,幾乎所有硬件創(chuàng)新都是在探索一種「攝像頭 + 麥克風(fēng)」的組合,從 AI Pin,到各種 AI 智能眼鏡,都是在建立一種讓 AI「看 + 聽」的感知模式。只不過目前大部分這類硬件,都還無法在性能和效率上,做到像手機(jī)那么高的可行度。

      當(dāng)下我們在使用豆包的視頻通話功能時(shí),依然能感受到它被手機(jī)這個(gè)硬件載體限制著。比如我們很難長時(shí)間舉著手機(jī)對(duì)準(zhǔn)前方我們看到的東西,以及在一些公共場合也不便于大聲說話,無法和 AI 充分進(jìn)行語音溝通,這都是智能手機(jī)作為傳統(tǒng)硬件的限制所在。

      從豆包的「視頻通話功能」已經(jīng)可以看出,讓 AI「看 + 聽」的輸入模式,可能代表 AI 交互的更多可能性。它在軟件上完全是可行的,隨著模型能力的進(jìn)一步發(fā)展,結(jié)合硬件創(chuàng)新,或許將進(jìn)一步改變我們與 AI 的交互方式。

      相關(guān)標(biāo)簽

      相關(guān)閱讀

      最新評(píng)論

      沒有更多評(píng)論了
      極客公園

      極客公園

      這里匯聚著優(yōu)秀的產(chǎn)品觀察報(bào)道、高質(zhì)量的線下活動(dòng)

      訂閱

      覺得文章不錯(cuò),微信掃描分享好友

      掃碼分享