AI NEWS: 10.20-10.26
DeepSeek发布DeepSeek-OCR
- DeepSeek发布并开源全新视觉语言模型DeepSeek-OCR,在视觉文本信息压缩领域取得重要进展。
- DeepSeek-OCR模型提出“上下文光学压缩”概念,通过极少量视觉token即可还原数倍甚至十倍以上的文本内容,为多模态大模型显著降低计算和存储开销。
- 测试结果显示,在OmniDocBench基准上,该模型仅用100个视觉token便超越GOT-OCR 2.0表现,在10倍压缩比下的识别精度高达97%。实际部署中,DeepSeek-OCR运行在单张A100 GPU可日均生成20万页数据。
OpenAI发布AI浏览器ChatGPT Atlas
- OpenAI发布AI浏览器ChatGPT Atlas。用户可以在浏览网页时与ChatGPT实时互动、总结内容或直接完成任务。
- ChatGPT Atlas具有智能体模式和记忆功能。智能体模式可以让浏览器可以直接自主化地完成任务。记忆功能除了提升用户体验,还可帮助OpenAI积累大量独家数据。
Gemini新增Grounding with Google Maps功能
- Gemini新增Grounding with Google Maps锚定功能。此举意味着Gemini将能直接接入并利用Google Maps所拥有的超过2.5亿个地点的实时地理空间数据。
- 当Gemini识别到用户的提问涉及地理位置、路线或商户信息时,会自动调用地图数据,从而生成更精准、更贴合现实的回应。
LangChain完成1.25亿美元B轮融资
- Agent开发平台LangChain近日完成1.25亿美元B轮融资,估值达12.5亿美元。本轮融资由IVP、CapitalG领投,ServiceNow Ventures、Workday Ventures、Cisco Investments、Datadog、Databricks 等参投。
- 自2022年底成立以来,LangChain累计融资已超过1.6亿美元,商业产品 LangSmith 的年经常性收入已达1200万至1600万美元。