全部标签

多模态模型

Emu3：智源推出的原生多模态世界模型，可实现图像、文本、视频的统一理解和生成

Emu3是智源研究院发布的原生多模态世界模型，该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成
AI训练模型
- 2k
- 0
AIHub24年10月22日
Grok-1.5V：xAI发布的多模态AI大模型

Grok-1.5V不仅具备强大的文本处理能力，还可以处理各种视觉信息，如文档、图表、截图和照片。这使得Grok-1.5V能够在多学科推理、理解科学图表、阅读文本和实现真实世界的空间理解等领域与现有的前沿多模态模型竞争。
AI训练模型
- 3.9k
- 0
AIHub24年4月15日

error: