AI NEWS: 8.25-8.31
Google发布Gemini 2.5 Flash Image Preview
- Google正式发布此前代号为“nano banana”的图像生成与编辑模型,并将其命名为Gemini 2.5 Flash Image Preview。
- Gemini 2.5 Flash Image Preview具备32k上下文支持,可精准控制生成图像的创意度。其核心亮点在于人物形象的一致性保持能力,用户上传照片后,模型能确保在不同场景、服饰甚至年代风格修改中保留原始特征。
- Gemini 2.5 Flash Image Preview单图生成成本仅0.039美元(约0.28元),显著低于行业水平。模型上线后迅速引发测试热潮。
OpenAI发布语音模型GPT-Realtime
- OpenAI推出两项语音技术更新:生产级Realtime API和全新语音模型GPT-Realtime。前者支持远程MCP服务器连接、图像输入及SIP协议通话,后者则以近乎真人的音质与多语言切换能力引发广泛关注。
- GPT-Realtime在音质、理解力与函数调用上全面升级,其自然对话效果可精准复现情感语调,甚至支持“带法国口音的共情表达”。
- Realtime API通过单模型直通处理技术,将传统语音交互的繁琐链路简化为实时音频生成,延迟更低且细节更丰富。
xAI开源Grok-2.5
- xAI宣布,开源其去年最佳大模型Grok 2.5,并将在6个月内开源Grok 3。
- Grok 2.5使用了混合专家模型架构,拥有约3140亿个参数,其中每次任务激活约860亿个活跃参数。该模型上下文窗口达到128,000个token,支持处理长文本输入,适用于需要深度理解和复杂推理的场景。
微软开源VibeVoice-1.5B
- 微软研究院开源音频模型VibeVoice-1.5B。该模型一次性可连续合成90分钟超长逼真语音,之前多数模型只能合成60分钟以内语音,并且30分钟后会出现音色漂移、语义断裂等难题;最多支持4名发言人;可对24kHz原始音频实现3200倍累计压缩,并且压缩效率是主流Encodec模型的80倍,同时仍能保持高保真语音效果。
Meta与Midjourney达成合作
- The Verge消息,Meta首席人工智能官Alexandr Wang在Threads上宣布,将Midjourney的AI图像和视频生成技术整合到Meta未来的AI模型和产品中。