Login

13928244600bandao-sports@wangaocn.com

  1. 半岛 > 新闻动态 > 媒体报道

OpenAI点燃AI魂 GPT-4o掀起端侧

作者:小编 日期:2024-05-15 06:03:19 点击数:

  OpenAI点燃AI魂 GPT-4o掀起端侧酷暑到来之前,OpenAI提前引爆了AI之夏。北京时间5月14日凌晨1点,OpenAI举行春季发布会。会上,重点推出新旗舰模型GPT-4o,以及在ChatGPT中免费提供更多功能。GPT-4o在多模态交互领域开始了现象级横扫。

  人类津津乐道的智能AI助手,面目逐渐清晰:除了尚未具身,无缝语音对话、精确到细节的视觉信息处理、情绪检测技术及共情能力,几乎都与真人无异。而比人类更强的是,这个AI情绪稳定,天文地理无所不知,解决问题的能力也是一流。

  业内因GPT-4o沸腾起来,盛赞一如往常,“大模型从‘呆瓜’变‘真人’,交互能力革新带来的可能是场景、用户数的几何级放大”;“OpenAI将蚕食情感类人工智能助手的市场,向更具情感、个性更强的迈进”;“要重新理解机器视觉、听觉了”……

  不过,喧嚣之下,也有一些客观声音,在审视OpenAI技术层面的进展。GPT-4o的广泛真实体验,能否全部达到视频演示中的极高水准,仍有待验证。

  IDC中国研究总监卢言霞告诉21世纪经济报道记者,OpenAI本次发布会的现场演示中,视频采用的还是抽帧处理技术,即Image to text,语音交互还是之前的全双工技术,只是多模态对话的过程更顺畅更自然。但确实进一步提高了类GPT产品的智能化交互能力,弱化了背后的代码,简化了交互的流程。GPT-4o不会砸掉所有语音助手的饭碗,反而是大模型在端侧的落地迎来双赢可能。

  科幻电影《Her》中所展现的图景似乎成为可能,人类距离真正的AI Agent还有多远?是否会引发新一轮的AI Agent变革?可以肯定的是,GPT-4o已经揭开AI行业变化与竞争的新篇章。

  “AI背后藏了个线o的“o”代表“omni”,象征着全能。该模型多模态交互能力突出,能够接受文本、音频和图像的“混搭”输入,快速响应完成推理,生成文本、音频和图像的组合输出。

  机器人,比普通人工智能助手更能准确识别人类情绪。然而,上述功能多停留在文本中,GPT-4o的情绪检测功能则扩展至视频领域。发布会现场,研究人员将手机摄像头对准自己的脸,向GPT-4o发起了颇具挑战性的问题:“我看起来怎么样?”,GPT-4o初次回答将提问者的脸界定为“木质表面”。随后,GPT-4o在引导性提问下修正结果,准确分析出提问者的情绪状态是愉悦的、笑容满面的。

  、催眠放松的感性功用。OpenAI并不是首家运用情感智能技术的公司。Inflection AI发布的Pi已能成熟运用大语言模型的对话共情回复技术,实现人类“嘴替”的效果,提供沉浸式的虚拟情感陪伴。

  高级研究科学家兼人工智能代理负责人Jim Fan发文称赞GPT-4o的情感能力半岛·体育官方网站,令人联想到 2013 年的科幻电影《Her》。这部电影讲述了人机亲密关系——遭遇离婚风波的男主角西奥多与人工智能系统萨曼莎成为灵魂伴侣。Jim Fan认为,OpenAI将蚕食Character.AI等情感类人工智能助手的市场,向更具情感、个性更强的人工智能迈进。

  OpenAI的大模型库再添GPT-4o一员猛将,预示着AI Agent已至新赛点,再次拨快了人类循序渐进迈向GAI的时针。

  的Copilot,谷歌的Gemini都是这一队列中曾被寄予厚望的数字助手。如今,GPT-4o的加速推出革新了智能交互的表现。前DCCI互联网数据中心

  创始人胡延平认为,GPT-4o重新定义了机器视觉、听觉和摄像头的交互模式,应用爆发力不可估量。

  同样意图升级被诟病“古老过时”的Siri。有知情人士称,苹果或将在iOS 18中引入由ChatGPT 提供支持的聊天机器人AI手机


随便看看