OpenAI發表了新的GPT-4o模型,含有語音助理新功能,不僅能使用帶有情緒的用詞即時回應的,甚至能夠唱歌。圖:OpenAI/YouTube
美國人工智能公司OpenAI周一(13日)進行發表會,推出自家旗艦AI模型升級的新版本“GPT-4o”,反應速度更上一層樓,還有更新的語音助理功能,甚至在發表會中當場即興唱歌。
OpenAI春季新品發表會公佈最新模型GPT-4o的核心變化,OpenAI技術長穆拉蒂(MiraMurati)表示,最新的模型能看文本、圖片,還可以拍環境給它看。甚至能讀懂情緒,透過??語音與人類即時互動。
值得注意的是,新的語音功能,還能在交談時打斷它,這點與先前所有的語音助理截然不同,大大超越了Siri等功能。
OpenAI也在YouTube頻道展示GPT-4o模型語音助理與人類的各種聊天互動,語音助理被提到今天的場合是要來介紹她時,女聲語音助理還使用帶有情緒反應的用詞羞笑回應說“我?是要介紹我?”
這次發表會震撼了所有觀眾,OpenAI表示,GPT-4o模型對語音輸入的反應最快可達0.232秒,幾乎和人們彼此對談的語速差不多。
除了戲劇化的聲音轉換,發表會甚至還有語音助理唱歌的橋段,新版本還懂50種語言、能言善道,反應機敏,且開放全部使用者免費使用,若付費可享有更多功能。
新聞鏈接>>
GPT-4o發布:可讀懂用戶情緒的智能助理如何從科幻走入現實
新京報
5月13日,OpenAI在一場26分鐘的直播中發布了新一代旗艦生成模型GPT-4o,展示了可以毫秒級反應、識別人類情緒進行音視頻交互,可多模態輸入/輸出等一系列新能力。伴隨這些能力的還有一個新的桌面版的ChatGPT以及新的用戶界面,首席技術官米拉(MiraMurati)表示,這是為了讓更多人更方便地使用,她宣布了OpenAI的產品理念:免費優先。
發布會結束后,OpenAI首席執行官山姆·奧特曼在個人社交平臺發布了一個單詞:她(her)。在科幻電影《她》里,AI助理愛上了人類,而今天,具備新功能、接入GPT-4o的ChatGPT語音助手產品,似乎真的有望讓科幻電影的橋段走入現實。
識別表情語氣、可隨時打斷 GPT-4o展示“真”語音助手
“我第一次來直播的發布會,有點緊張。”當OpenAI前沿研究部門主管馬克(MarkChen)通過手機對ChatGPT說話時,ChatGPT回答,“要不你深呼吸一下?”
“好的,我深呼吸。”
“慢一點,馬克,你不是吸塵器。”
——這是發生在直播中的一幕,通過直播,OpenAI全方位展示了接入GPT-4o后,ChatGPT是如何識別用戶語音中的情緒的。此后,馬克還示范了ChatGPT如何用不同的聲音朗讀AI生成的故事,包括超級戲劇化的朗誦、機器人音調,甚至唱歌。
OpenAI前沿研究部門主管馬克展示GPT-4o的實時語音交互能力。
這似乎已經不同于“傳統”的語音助手技術了,有專家表示,目前市面上一些“語音助手”實際的技術邏輯是把聽到的語音轉換成文字,使用文字回答后再轉換成語音回復給用戶,因此這類語音助手無法聽出語音中包含的情緒,并且存在延遲的問題,但根據今日的演示,OpenAI似乎解決了這一問題。
根據OpenAI發布在官網的最新博客文章,在GPT-4o之前,語音模式與ChatGPT對話,平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。而現在,GPT-4o最快可以在232毫秒的時間內響應音頻輸入,平均響應時長320毫秒,與人類相似。據了解,GPT-4o是單獨訓練的新模型,可以端到端地處理文本、視覺和音頻,這意味著所有輸入和輸出都由同一個神經網絡處理。
除了語音方面的情緒識別,GPT-4o還擁有實時視覺功能,根據OpenAI研究員巴雷特(BarretZoph)的演示,ChatGPT通過手機攝像頭幫助他實時解了一個方程,就像一名真實的數學老師在旁邊指導每一個解題步驟。“每當你為數學焦頭爛額的時候,我就在你身邊。”ChatGPT說。
ChatGPT甚至還能通過前置攝像頭觀察用戶的面部表情,分析其情緒。在回答網友提問“ChatGPT能識別你的表情嗎?”這一問題時,巴雷特把手機攝像頭對準自己,然后ChatGPT回答,“一個大大的微笑,你看起來非常開心。”
ChatGPT識別OpenAI研究員巴雷特的情緒。
此外,本次演示還展示了GPT-4o的代碼能力、實時翻譯能力等。奧特曼介紹,GPT-4o中的“o”代表“omni(全面、全能)”,因為該模型同時具備文本、圖片、視頻和語音方面的能力。
數據顯示,GPT-4o 在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配,但在非英語文本上的性能顯著提高,同時API(接口)的速度也更快。
同時,GPT-4o成本也有所降低,官網顯示,GPT-4o輸入、輸出每1Mtoken(語句單位)收費0.005美元、0.015美元,而GPT-4 Turbo輸入、輸出每1Mtoken收費0.01美元、0.03美元,相比之下GPT-4o的成本降低了50%。
新交互、新界面下的OpenAI愿景:讓更多人使用 產品免費優先
接入新版大模型后,ChatGPT可以接收文本、音頻和圖像的任意組合作為輸入,并實時生成文本、音頻和圖像的任意組合輸出。
在今天的第一輪演示中,ChatGPT是在手機端直接使用的。值得注意的是,近日還有消息傳出蘋果與OpenAI商談,以便在下一代iPhone操作系統中使用ChatGPT功能。
此外,ChatGPT還在蘋果電腦中擁有了一個“桌面版本”,以及新的用戶界面。通過鍵盤快捷鍵(Option +Space),用戶可以立即向 ChatGPT提問,此外,用戶還可以直接在應用程序中截取屏幕并進行討論。今年晚些時候,OpenAI也會推出Windows版本。
奧特曼對此發文稱,“新的語音(和視頻)模式是我用過的最好的電腦界面。這感覺就像是電影里的AI,這是真的讓我有點驚訝。達到人類級別的響應時間和表達能力是一個很大的變化。”
“老ChatGPT界面顯示了語言的可能性,而新界面給人的感覺是本質上不同的。它是快速,聰明,有趣,自然和有益的。對我來說,和電腦說話從來沒有真正自然的感覺,而現在是了。隨著我們添加(可選)個性化、訪問您的信息、代表您采取行動的能力,以及更多,我真的可以看到一個令人興奮的未來,我們能夠使用計算機做比以往任何時候都要多得多的事情。”奧特曼說。
此外,米拉和奧特曼都強調了OpenAI的“免費”理念。
米拉表示,GPT-4o的特別之處在于它以極為自然的交互方式為每個人帶來了 GPT-4 級別的智能,包括免費用戶,“以后OpenAI做產品就是要免費優先,為的就是讓更多的人能使用。”
奧特曼也發文強調了“免費”的重要性,“我們的一個關鍵使命就是將極其有效的AI產品免費提供給人們,我很驕傲我們做了世界上最棒的大模型并且能在ChatGPT上不用看廣告就免費使用它。”
奧特曼表示,他和團隊成員創建OpenAI時最初的想法是創建人工智能,并用它為世界創造各種各樣的好處,“而現在看來,我們將創造AI,然后其他人將使用這個AI來創造各種各樣的令人驚嘆的東西,讓我們大家都從中受益。”
“我們是一個企業,我們期望能找到收費的方式并幫我們為數十億人提供免費的、優秀的AI服務。”奧特曼說。
不過,貝殼財經記者5月14日登錄網頁版ChatGPT發現,內置大模型選項仍然只有GPT-3.5和GPT-4兩種,并未看到免費使用GPT-4o的選項。OpenAI方面稱,在即將到來的幾周里,用戶將無需采取任何行動,即可自動接收到GPT-4o的更新。
5月14日記者登錄網頁版ChatGPT的截圖。
值得注意的是,此次OpenAI的發布時間剛好“踩”在其競爭對手谷歌的發布會之前,有聲音認為OpenAI寧可先推出GPT-4o而非人們此前預期的GPT-5,主要就是出于競爭目的考慮。
“比較讓人失望的是,這次OpenAI沒有發布GPT-5,連GPT-4.5都沒看到。OpenAI發布了一系列應用,最重要的是發布了語音助手,由于使用了端到端大模型技術,體驗遠超Siri。OpenAI發布應用,恰恰說明應用在人工智能領域大有可為。目前看來,GPT-5可能還要‘難產’一段時間。”獵豹移動董事長兼CEO傅盛說。