驚人!OpenAI最新GPT-4o戲精上身：看臉色會撒嬌唱歌…

OpenAI發表了新的GPT-4o模型，含有語音助理新功能，不僅能使用帶有情緒的用詞即時回應的，甚至能夠唱歌。圖:OpenAI/YouTube

美國人工智能公司OpenAI周一（13日）進行發表會，推出自家旗艦AI模型升級的新版本“GPT-4o”，反應速度更上一層樓，還有更新的語音助理功能，甚至在發表會中當場即興唱歌。

OpenAI春季新品發表會公佈最新模型GPT-4o的核心變化，OpenAI技術長穆拉蒂（MiraMurati）表示，最新的模型能看文本、圖片，還可以拍環境給它看。甚至能讀懂情緒，透過??語音與人類即時互動。

值得注意的是，新的語音功能，還能在交談時打斷它，這點與先前所有的語音助理截然不同，大大超越了Siri等功能。

OpenAI也在YouTube頻道展示GPT-4o模型語音助理與人類的各種聊天互動，語音助理被提到今天的場合是要來介紹她時，女聲語音助理還使用帶有情緒反應的用詞羞笑回應說“我？是要介紹我？”

這次發表會震撼了所有觀眾，OpenAI表示，GPT-4o模型對語音輸入的反應最快可達0.232秒，幾乎和人們彼此對談的語速差不多。

除了戲劇化的聲音轉換，發表會甚至還有語音助理唱歌的橋段，新版本還懂50種語言、能言善道，反應機敏，且開放全部使用者免費使用，若付費可享有更多功能。

新聞鏈接>>

GPT-4o發布：可讀懂用戶情緒的智能助理如何從科幻走入現實

新京報

5月13日，OpenAI在一場26分鐘的直播中發布了新一代旗艦生成模型GPT-4o，展示了可以毫秒級反應、識別人類情緒進行音視頻交互，可多模態輸入/輸出等一系列新能力。伴隨這些能力的還有一個新的桌面版的ChatGPT以及新的用戶界面，首席技術官米拉（MiraMurati）表示，這是為了讓更多人更方便地使用，她宣布了OpenAI的產品理念：免費優先。

發布會結束后，OpenAI首席執行官山姆·奧特曼在個人社交平臺發布了一個單詞：她（her）。在科幻電影《她》里，AI助理愛上了人類，而今天，具備新功能、接入GPT-4o的ChatGPT語音助手產品，似乎真的有望讓科幻電影的橋段走入現實。

識別表情語氣、可隨時打斷 GPT-4o展示“真”語音助手

“我第一次來直播的發布會，有點緊張。”當OpenAI前沿研究部門主管馬克（MarkChen）通過手機對ChatGPT說話時，ChatGPT回答，“要不你深呼吸一下？”

“好的，我深呼吸。”

“慢一點，馬克，你不是吸塵器。”

——這是發生在直播中的一幕，通過直播，OpenAI全方位展示了接入GPT-4o后，ChatGPT是如何識別用戶語音中的情緒的。此后，馬克還示范了ChatGPT如何用不同的聲音朗讀AI生成的故事，包括超級戲劇化的朗誦、機器人音調，甚至唱歌。

OpenAI前沿研究部門主管馬克展示GPT-4o的實時語音交互能力。

這似乎已經不同于“傳統”的語音助手技術了，有專家表示，目前市面上一些“語音助手”實際的技術邏輯是把聽到的語音轉換成文字，使用文字回答后再轉換成語音回復給用戶，因此這類語音助手無法聽出語音中包含的情緒，并且存在延遲的問題，但根據今日的演示，OpenAI似乎解決了這一問題。

根據OpenAI發布在官網的最新博客文章，在GPT-4o之前，語音模式與ChatGPT對話，平均延遲為2.8秒（GPT-3.5）和5.4秒（GPT-4）。而現在，GPT-4o最快可以在232毫秒的時間內響應音頻輸入，平均響應時長320毫秒，與人類相似。據了解，GPT-4o是單獨訓練的新模型，可以端到端地處理文本、視覺和音頻，這意味著所有輸入和輸出都由同一個神經網絡處理。

除了語音方面的情緒識別，GPT-4o還擁有實時視覺功能，根據OpenAI研究員巴雷特（BarretZoph）的演示，ChatGPT通過手機攝像頭幫助他實時解了一個方程，就像一名真實的數學老師在旁邊指導每一個解題步驟。“每當你為數學焦頭爛額的時候，我就在你身邊。”ChatGPT說。

ChatGPT甚至還能通過前置攝像頭觀察用戶的面部表情，分析其情緒。在回答網友提問“ChatGPT能識別你的表情嗎？”這一問題時，巴雷特把手機攝像頭對準自己，然后ChatGPT回答，“一個大大的微笑，你看起來非常開心。”

ChatGPT識別OpenAI研究員巴雷特的情緒。

此外，本次演示還展示了GPT-4o的代碼能力、實時翻譯能力等。奧特曼介紹，GPT-4o中的“o”代表“omni（全面、全能）”，因為該模型同時具備文本、圖片、視頻和語音方面的能力。

數據顯示，GPT-4o 在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配，但在非英語文本上的性能顯著提高，同時API（接口）的速度也更快。

同時，GPT-4o成本也有所降低，官網顯示，GPT-4o輸入、輸出每1Mtoken（語句單位）收費0.005美元、0.015美元，而GPT-4 Turbo輸入、輸出每1Mtoken收費0.01美元、0.03美元，相比之下GPT-4o的成本降低了50%。

新交互、新界面下的OpenAI愿景：讓更多人使用產品免費優先

接入新版大模型后，ChatGPT可以接收文本、音頻和圖像的任意組合作為輸入，并實時生成文本、音頻和圖像的任意組合輸出。

在今天的第一輪演示中，ChatGPT是在手機端直接使用的。值得注意的是，近日還有消息傳出蘋果與OpenAI商談，以便在下一代iPhone操作系統中使用ChatGPT功能。

此外，ChatGPT還在蘋果電腦中擁有了一個“桌面版本”，以及新的用戶界面。通過鍵盤快捷鍵（Option +Space），用戶可以立即向 ChatGPT提問，此外，用戶還可以直接在應用程序中截取屏幕并進行討論。今年晚些時候，OpenAI也會推出Windows版本。

奧特曼對此發文稱，“新的語音（和視頻）模式是我用過的最好的電腦界面。這感覺就像是電影里的AI，這是真的讓我有點驚訝。達到人類級別的響應時間和表達能力是一個很大的變化。”

“老ChatGPT界面顯示了語言的可能性，而新界面給人的感覺是本質上不同的。它是快速，聰明，有趣，自然和有益的。對我來說，和電腦說話從來沒有真正自然的感覺，而現在是了。隨著我們添加（可選）個性化、訪問您的信息、代表您采取行動的能力，以及更多，我真的可以看到一個令人興奮的未來，我們能夠使用計算機做比以往任何時候都要多得多的事情。”奧特曼說。

此外，米拉和奧特曼都強調了OpenAI的“免費”理念。

米拉表示，GPT-4o的特別之處在于它以極為自然的交互方式為每個人帶來了 GPT-4 級別的智能，包括免費用戶，“以后OpenAI做產品就是要免費優先，為的就是讓更多的人能使用。”

奧特曼也發文強調了“免費”的重要性，“我們的一個關鍵使命就是將極其有效的AI產品免費提供給人們，我很驕傲我們做了世界上最棒的大模型并且能在ChatGPT上不用看廣告就免費使用它。”

奧特曼表示，他和團隊成員創建OpenAI時最初的想法是創建人工智能，并用它為世界創造各種各樣的好處，“而現在看來，我們將創造AI，然后其他人將使用這個AI來創造各種各樣的令人驚嘆的東西，讓我們大家都從中受益。”

“我們是一個企業，我們期望能找到收費的方式并幫我們為數十億人提供免費的、優秀的AI服務。”奧特曼說。

不過，貝殼財經記者5月14日登錄網頁版ChatGPT發現，內置大模型選項仍然只有GPT-3.5和GPT-4兩種，并未看到免費使用GPT-4o的選項。OpenAI方面稱，在即將到來的幾周里，用戶將無需采取任何行動，即可自動接收到GPT-4o的更新。

5月14日記者登錄網頁版ChatGPT的截圖。

值得注意的是，此次OpenAI的發布時間剛好“踩”在其競爭對手谷歌的發布會之前，有聲音認為OpenAI寧可先推出GPT-4o而非人們此前預期的GPT-5，主要就是出于競爭目的考慮。

“比較讓人失望的是，這次OpenAI沒有發布GPT-5，連GPT-4.5都沒看到。OpenAI發布了一系列應用，最重要的是發布了語音助手，由于使用了端到端大模型技術，體驗遠超Siri。OpenAI發布應用，恰恰說明應用在人工智能領域大有可為。目前看來，GPT-5可能還要‘難產’一段時間。”獵豹移動董事長兼CEO傅盛說。