请先登录以管理你的Prompts

每周AI新闻:Google发布Gemini 2.5 Flash Image Preview

Google
OpenAI
Gemini
Grok
Meta
Midjourney

AI NEWS: 8.25-8.31

Google发布Gemini 2.5 Flash Image Preview

  • Google正式发布此前代号为“nano banana”的图像生成与编辑模型,并将其命名为Gemini 2.5 Flash Image Preview。
  • Gemini 2.5 Flash Image Preview具备32k上下文支持,可精准控制生成图像的创意度。其核心亮点在于人物形象的一致性保持能力,用户上传照片后,模型能确保在不同场景、服饰甚至年代风格修改中保留原始特征。
  • Gemini 2.5 Flash Image Preview单图生成成本仅0.039美元(约0.28元),显著低于行业水平。模型上线后迅速引发测试热潮。

OpenAI发布语音模型GPT-Realtime

  • OpenAI推出两项语音技术更新:生产级Realtime API和全新语音模型GPT-Realtime。前者支持远程MCP服务器连接、图像输入及SIP协议通话,后者则以近乎真人的音质与多语言切换能力引发广泛关注。
  • GPT-Realtime在音质、理解力与函数调用上全面升级,其自然对话效果可精准复现情感语调,甚至支持“带法国口音的共情表达”。
  • Realtime API通过单模型直通处理技术,将传统语音交互的繁琐链路简化为实时音频生成,延迟更低且细节更丰富。

xAI开源Grok-2.5

  • xAI宣布,开源其去年最佳大模型Grok 2.5,并将在6个月内开源Grok 3。
  • Grok 2.5使用了混合专家模型架构,拥有约3140亿个参数,其中每次任务激活约860亿个活跃参数。该模型上下文窗口达到128,000个token,支持处理长文本输入,适用于需要深度理解和复杂推理的场景。

微软开源VibeVoice-1.5B

  • 微软研究院开源音频模型VibeVoice-1.5B。该模型一次性可连续合成90分钟超长逼真语音,之前多数模型只能合成60分钟以内语音,并且30分钟后会出现音色漂移、语义断裂等难题;最多支持4名发言人;可对24kHz原始音频实现3200倍累计压缩,并且压缩效率是主流Encodec模型的80倍,同时仍能保持高保真语音效果。

Meta与Midjourney达成合作

  • The Verge消息,Meta首席人工智能官Alexandr Wang在Threads上宣布,将Midjourney的AI图像和视频生成技术整合到Meta未来的AI模型和产品中。