每周AI新闻:OpenAI发布GPT-4o原生图像生成功能
OpenAI
Anthropic
GPT-4
Claude
Gemini
Google
ChatGPT
GPT-4o
多模态
AI NEWS: 2025.03.24-03.30
OpenAI发布GPT-4o原生图像生成功能
- OpenAI发布GPT-4o原生图像生成功能,通过融合文本与图像理解能力,首次实现“用聊天迭代编辑图像”的自然交互方式。
- 实测显示,该模型可生成风格统一的情绪板、多角度产品视图,还可将手绘草图转化为专业线稿,以及一次性输出完整漫画分镜。
- 该技术的核心优势在于其原生多模态能力——不仅能理解复杂提示、精准渲染文本,还能基于聊天上下文保持图像一致性,甚至能学习用户上传的图片特征进行再创作。
Google发布Gemini 2.5 Pro
- Google正式发布Gemini 2.5 Pro模型。该模型以40分优势超越Grok-3和GPT-4.5登顶LMArena排行榜,在LMArena测试中包揽数学、创意写作等五大领域冠军,同时在视觉竞技场和网页开发领域分别斩获榜首与亚军。
- 该模型现已向Gemini Advanced用户开放,支持100万token上下文窗口,并能处理多模态数据与完整代码仓库,其定价方案将于近期公布。
DeepSeek-V3-0324新版本发布
- DeepSeek V3升级至0324版本。新版本模型的推理能力提升近20%,在MMLU-Pro、GPQA等基准测试中表现亮眼,尤其在数学类评测集AIME上准确率提升19.8%。
- DeepSeek-V3-0324的代码生成能力得到显著优化。在前端开发中,其生成的HTML代码,可用性和设计感增强。
OpenAI支持MCP协议
- OpenAI宣布Agents SDK正式支持Anthropic推出的MCP协议。该协议能实现模型与工具、数据库等双向连接。目前MCP协议已形成庞大生态。
- OpenAI还预告,将把对MCP的支持扩展至ChatGPT桌面版和Responses API,未来用户可通过ChatGPT直接调度外部资源,重构AI工作流。
Anthropic揭示Claude思维路径
- Anthropic连续发布两篇论文,介绍关于理解AI“黑盒子”机制方面取得的进展。该公司开发了一种新型AI“显微镜”技术,通过追踪语言模型内部的神经活动模式和信息流动,首次揭示Claude模型的思维路径。
- 研究发现,尽管大语言模型通常逐词输出,但Claude 3.5 Haiku展现出提前规划语句的能力。在多语言处理方面,研究证实,不同语言共享核心概念表征。模型规模越大,跨语言特征共享比例越高。