今天,ChatGPT 推出了視頻通話和屏幕共享功能以及一款圣誕老人限定語音「Santa Mode」。
也就是說,現(xiàn)在 ChatGPT 不僅伶牙俐齒,還能「睜眼看世界」。遇事不決,直接給 ChatGPT 打「視頻通話」,或許它能夠更好地幫助你解決問題。
這些功能將在未來一周內(nèi)推送給所有 Team 用戶和大部分 Plus 和 Pro 訂閱用戶。歐盟地區(qū)的付費(fèi)用戶還需要再等等。
支持 50 多種語言的 ChatGPT 將能夠?qū)崟r(shí)理解視覺場景,幫助你解決問題,甚至化身 AI 導(dǎo)師教你掌握新事物。
在這場同樣不到 20 分鐘的發(fā)布會(huì)上,由 OpenAI 首席產(chǎn)品官 Kevin Weil、Jackie Shannon、Michelle Qin 和 Rowan Zellers 等人向我們展示長了「眼睛」的 ChatGPT 究竟能干些什么?
比如說,當(dāng)你入手了一套手沖咖啡設(shè)備卻不知從何入門時(shí),不妨給 ChatGPT 打一通「視頻通話」。
它就能根據(jù)你面前的器具,手把手教你完成每一個(gè)步驟,從放置濾紙、倒熱水、將磨好的咖啡粉放入濾紙中等等,包教包會(huì)。
卡殼了?隨時(shí)提問 GPT 老師。這位 AI 老師不僅有問必答,偶爾還會(huì)人性化地給予鼓勵(lì),情緒價(jià)值拉滿。
除了實(shí)時(shí)視頻指導(dǎo),ChatGPT 還支持屏幕共享功能。用戶只需點(diǎn)擊右下角的高級(jí)語音模式圖標(biāo),在下拉菜單中選擇分享屏幕,就能獲得針對(duì)性的幫助。
當(dāng)「看」到朋友穿著圣誕老人的裝扮,調(diào)侃是否有資格應(yīng)聘購物中心的圣誕老人崗位時(shí),GPT 老師會(huì)給出得體的措辭建議以及高情商的鼓勵(lì)。
實(shí)際上,OpenAI 總裁 Greg Brockman 前不久也與安德森·庫珀(Anderson Cooper)利用帶視覺功能的 ChatGPT 進(jìn)行了關(guān)于人體解剖學(xué)的知識(shí)小測(cè)驗(yàn)。
當(dāng)庫珀在黑板上畫出身體部位時(shí),ChatGPT 能夠瞬間「理解」他所畫的內(nèi)容。
「位置非常到位,大腦就在頭部那里。至于形狀,這是一個(gè)不錯(cuò)的開始,但大腦更像是一個(gè)橢圓形?!股踔?,ChatGPT 還能用英式口音演唱三角形面積公式。
但后續(xù) ChatGPT 處理幾何問題時(shí)卻出現(xiàn)明顯的紕漏,沒能發(fā)現(xiàn)一個(gè)簡單的標(biāo)注錯(cuò)誤,在理解平面幾何的能力上仍有許多提升空間。
為了迎接圣誕的到來,OpenAI 還特別推出了「圣誕老人」預(yù)設(shè)語音,用戶只需點(diǎn)擊主屏幕上的雪花圖標(biāo),就能和 ChatGPT 圣誕老人聊天。
比如讓圣誕老人講個(gè)故事。
不得不說,每次「圣誕老人」開口的「Ho Ho Ho~」相當(dāng)魔性,聽著就很有節(jié)日氣氛。
在直播活動(dòng)過程中,主持人也向這位「圣誕老人」詢問幾個(gè)問題,包括但不限于最喜歡的圣誕傳統(tǒng)、最喜歡的馴鹿等等。
有趣的是,當(dāng) Kevin Weil 戴上圣誕老人的假胡子詢問如何保養(yǎng)時(shí),給出建議的 ChatGPT 還會(huì)用圣誕老人的口吻回應(yīng)道:
「朋友,這是我見過的最威武的胡子?!?
這款語音將在今天推出,而為了讓每個(gè)用戶都能充分體驗(yàn)這個(gè)節(jié)日彩蛋,首次體驗(yàn)時(shí) OpenAI 會(huì)重置用戶的高級(jí)語音使用次數(shù),即使用完額度,用戶也能繼續(xù)通過標(biāo)準(zhǔn)語音模式與「圣誕老人」互動(dòng)。
或許是因?yàn)榘l(fā)布會(huì)戰(zhàn)線拉得太長,網(wǎng)友的吐槽聲也聚焦到了這款圣誕老人語音上。最典型的例子當(dāng)屬 X 網(wǎng)友@khoomeik。
Google Deepmind 研究科學(xué)家 Jonas Adler 更是直接嗆聲 OpenAI:
值得一提的是,昨天,Google 搶先一步推出了具備視覺理解能力的 AI 產(chǎn)品,能夠理解并解析用戶所處的實(shí)際場景,且收獲網(wǎng)友的一眾好評(píng)。
到了今天,OpenAI 也緊隨其后,為 ChatGPT 裝上了「眼睛」,這也意味著 ChatGPT 從相對(duì)單一的模態(tài),進(jìn)一步拓展至「視覺—語言多模態(tài)理解」。
換言之,ChatGPT 將不再局限于用戶輸入的文字指令與信息,而是能夠通過視覺來理解用戶所處的上下文環(huán)境,包括電腦屏幕上的頁面、手機(jī)攝像頭所捕捉的影像、甚至其他外設(shè)的實(shí)時(shí)畫面。
如果說半個(gè)世紀(jì)前,施樂 PARC 實(shí)驗(yàn)室的科學(xué)家們幻想過一臺(tái)能看懂人類行為的計(jì)算機(jī)。今天 AI 的發(fā)展,正在把這個(gè)夢(mèng)想變成了顯示器之外的現(xiàn)實(shí)。
從紙到鍵盤,從二進(jìn)制到自然語言,人類一直在簡化與機(jī)器的溝通方式。而 ChatGPT 的視覺能力也讓我們看到了終極答案,那就是讓機(jī)器像人一樣「看」這個(gè)世界。
考慮到 Altman 和前蘋果首席設(shè)計(jì)官 Jony Ive 一直在開發(fā)智能 AI 硬件設(shè)備,我更期待看到這項(xiàng)功能出現(xiàn)在這款新硬件上。
AI 睜開眼睛的那一刻,也終于走進(jìn)了人類眼中的世界。
本文標(biāo)簽: