OpenAI 的新模型 GPT-4o 允許用戶在一個全能系統中使用語音、視頻或文本進行互動

GPT-4o（“o”代表“全能”）是朝著更加自然的人機交互的一個步驟。

2024年5月18日由

Felix

OpenAI正式推出了最新的AI平台GPT-4o，旨在徹底改善人們與人工智能系統的交流方式。在一次演示活動中，領導層展示了GPT-4o獨特的集成設計，實現了實時的多模態對話。

CTO Mira Murati在揭幕式上表示：“我們正在進入人與機器之間合作的新時代。” GPT-4o將語音、視頻和文本等功能融合在一個單一的“全能模型”中，而以前需要分開的模型。這種集成的方法通過不同媒介之間的無縫切換展示，模型無論使用何種輸入方式都能保持流暢的討論。

兩位研究人員通過視頻通話測試了GPT-4o的能力。它輕鬆地通過觀察實時視頻流來幫助解決代數問題，並逐步指導用戶，而不直接提供答案，就像一位導師一樣。令人印象深刻的是，當要求切換到戲劇性或機器聲音的短篇時，它立即適應了語氣的變化，展示出令人印象深刻的語言範圍。

對於網站和應用程序上的文本交互，該模型以快速的速度傳達答案，同時仍然思考細緻的回答。它還能夠流暢地切換到通話討論，而不會在對話中有任何中斷。根據OpenAI的說法，將以前分開的功能合併為統一的結構，可以實現更快的響應時間和更流暢的任務轉換。

在過去，ChatGPT僅限於基於文本的討論，現在它已經提升了對圖像的理解能力。例如，用戶可以拍攝一張外語菜單的照片，ChatGPT將即時提供翻譯。它還將提供有關菜餚的文化重要性的背景信息，以及有關點菜的建議。

展望未來，OpenAI計劃很快推出新的“語音模式”。這將允許用戶通過語音與ChatGPT進行更自然的來回討論。例如，用戶可以分享現場體育轉播，並從AI助手獲得清晰的規則解釋。該公司旨在通過Web和移動應用程序提供這種新的對話體驗。

可訪問性是另一個關注點。ChatGPT的語言能力在速度和質量方面得到了提升。該助手現在可以在使用過程中以50多種語言幫助用戶，從帳戶創建到設置。

儘管現場演示存在固有的問題，但GPT-4o從輕微的不一致中優雅地恢復過來。這次活動突顯了人工智能在多個媒體上實現人類般互動的進展。

值得注意的是，OpenAI現在將通過官方渠道免費提供GPT-4o的語音、視頻和文本功能給所有用戶。這一舉措使該公司成為推翻對話式人工智能訪問障礙的領先者。只有高級訂閱層級才能獲得擴展的模型功能和容量。

使用GPT-4o時，ChatGPT免費用戶現在可以使用以下功能：

網誌： ATI 網誌

# 人工智能

閱讀下一篇