AI NEWS: 8.25-8.31

Google发布Gemini 2.5 Flash Image Preview

Google正式发布此前代号为“nano banana”的图像生成与编辑模型，并将其命名为Gemini 2.5 Flash Image Preview。
Gemini 2.5 Flash Image Preview具备32k上下文支持，可精准控制生成图像的创意度。其核心亮点在于人物形象的一致性保持能力，用户上传照片后，模型能确保在不同场景、服饰甚至年代风格修改中保留原始特征。
Gemini 2.5 Flash Image Preview单图生成成本仅0.039美元（约0.28元），显著低于行业水平。模型上线后迅速引发测试热潮。

OpenAI发布语音模型GPT-Realtime

OpenAI推出两项语音技术更新：生产级Realtime API和全新语音模型GPT-Realtime。前者支持远程MCP服务器连接、图像输入及SIP协议通话，后者则以近乎真人的音质与多语言切换能力引发广泛关注。
GPT-Realtime在音质、理解力与函数调用上全面升级，其自然对话效果可精准复现情感语调，甚至支持“带法国口音的共情表达”。
Realtime API通过单模型直通处理技术，将传统语音交互的繁琐链路简化为实时音频生成，延迟更低且细节更丰富。

xAI开源Grok-2.5

xAI宣布，开源其去年最佳大模型Grok 2.5，并将在6个月内开源Grok 3。
Grok 2.5使用了混合专家模型架构，拥有约3140亿个参数，其中每次任务激活约860亿个活跃参数。该模型上下文窗口达到128,000个token，支持处理长文本输入，适用于需要深度理解和复杂推理的场景。

微软开源VibeVoice-1.5B

微软研究院开源音频模型VibeVoice-1.5B。该模型一次性可连续合成90分钟超长逼真语音，之前多数模型只能合成60分钟以内语音，并且30分钟后会出现音色漂移、语义断裂等难题；最多支持4名发言人；可对24kHz原始音频实现3200倍累计压缩，并且压缩效率是主流Encodec模型的80倍，同时仍能保持高保真语音效果。

Meta与Midjourney达成合作

The Verge消息，Meta首席人工智能官Alexandr Wang在Threads上宣布，将Midjourney的AI图像和视频生成技术整合到Meta未来的AI模型和产品中。

Google发布Gemini 2.5 Flash Image Preview

Google正式发布此前代号为“nano banana”的图像生成与编辑模型，并将其命名为Gemini 2.5 Flash Image Preview。

Gemini 2.5 Flash Image Preview具备32k上下文支持，可精准控制生成图像的创意度。其核心亮点在于人物形象的一致性保持能力，用户上传照片后，模型能确保在不同场景、服饰甚至年代风格修改中保留原始特征。

Gemini 2.5 Flash Image Preview单图生成成本仅0.039美元（约0.28元），显著低于行业水平。模型上线后迅速引发测试热潮。

OpenAI发布语音模型GPT-Realtime

OpenAI推出两项语音技术更新：生产级Realtime API和全新语音模型GPT-Realtime。前者支持远程MCP服务器连接、图像输入及SIP协议通话，后者则以近乎真人的音质与多语言切换能力引发广泛关注。

GPT-Realtime在音质、理解力与函数调用上全面升级，其自然对话效果可精准复现情感语调，甚至支持“带法国口音的共情表达”。

Realtime API通过单模型直通处理技术，将传统语音交互的繁琐链路简化为实时音频生成，延迟更低且细节更丰富。

xAI开源Grok-2.5

xAI宣布，开源其去年最佳大模型Grok 2.5，并将在6个月内开源Grok 3。

Grok 2.5使用了混合专家模型架构，拥有约3140亿个参数，其中每次任务激活约860亿个活跃参数。该模型上下文窗口达到128,000个token，支持处理长文本输入，适用于需要深度理解和复杂推理的场景。

微软开源VibeVoice-1.5B

微软研究院开源音频模型VibeVoice-1.5B。该模型一次性可连续合成90分钟超长逼真语音，之前多数模型只能合成60分钟以内语音，并且30分钟后会出现音色漂移、语义断裂等难题；最多支持4名发言人；可对24kHz原始音频实现3200倍累计压缩，并且压缩效率是主流Encodec模型的80倍，同时仍能保持高保真语音效果。

每周AI新闻：Google发布Gemini 2.5 Flash Image Preview

AI NEWS: 8.25-8.31

Google发布Gemini 2.5 Flash Image Preview

OpenAI发布语音模型GPT-Realtime

xAI开源Grok-2.5

微软开源VibeVoice-1.5B

Meta与Midjourney达成合作

每周AI新闻：Google发布Gemini 2.5 Flash Image Preview

AI NEWS: 8.25-8.31

Google发布Gemini 2.5 Flash Image Preview

OpenAI发布语音模型GPT-Realtime

xAI开源Grok-2.5

微软开源VibeVoice-1.5B

Meta与Midjourney达成合作