-
Emu3:智源推出的原生多模态世界模型,可实现图像、文本、视频的统一理解和生成
Emu3是智源研究院发布的原生多模态世界模型,该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成- 885
- 0
-
Grok-1.5V:xAI发布的多模态AI大模型
Grok-1.5V不仅具备强大的文本处理能力,还可以处理各种视觉信息,如文档、图表、截图和照片。这使得Grok-1.5V能够在多学科推理、理解科学图表、阅读文本和实现真实世界的空间理解等领域与现有的前沿多模态模型竞争。- 2.7k
- 0