-
Emu3:智源推出的原生多模态世界模型,可实现图像、文本、视频的统一理解和生成
Emu3是智源研究院发布的原生多模态世界模型,该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成- 1.3k
- 0
-
SmolLM-HuggingFace发布的高性能小型语言模型
SmolLM是由 Huggingface 最新发布的一组高性能的小型语言模型,参数分别为 1.35 亿、3.6 亿和 17 亿,训练数据来自高质量数据集 SmolLM-Corpus,其中包括 Cosmopedia v2、Python-Edu 和 FineWeb-Edu。SmolLM 模型在多种基准测试中表现不错, 适合跑在手机这种终端设备上。- 2.9k
- 0
-
神农大模型-中国农业大学发布的农业AI大模型,覆盖育种、种植农业遥感及气象等
神农大模型是农业科技领域的AI系统,模型具备农业知识问答、农业文本语义理解、文本摘要生成、农业生产决策推理等多项功能- 4.7k
- 0
-
Step-1V:阶跃星辰推出的千亿参数多模态大模型
Step-1V是阶跃星辰研发的一款千亿参数的多模态大模型。这个模型在多个领域表现出色,特别是在图像理解、多轮指令跟随、数学能力、逻辑推理和文本创作等方面。- 7.1k
- 0
-
Genie-谷歌发布的AI基础世界模型,一张图片生成交互世界
Genie是由谷歌发布的根据互联网视频训练的基础世界模型,该模型参数规模为11B,可以从合成图像、照片甚至草图生成无数种动作可控的交互式环境。- 6.1k
- 0