Google 发布 Gemini 1.5 Pro，支持原生音频理解

AI资讯
24年4月10日
编辑

AIHubAI布道师

AIHub 2024 年 04 月 10 日消息，Gemini 1.5 Pro现已在超过180个国家通过Gemini API公开预览提供，引入了首次的原生音频（语音）理解能力和新的File API，以便于处理文件。此外，引入了系统指令和JSON模式等新功能，给开发者更多控制模型输出的能力。最后，发布了性能优越的下一代文本嵌入模型。

Gemini 1.5 Pro的主要更新内容

全球可用性：Gemini 1.5 Pro现已在超过180个国家通过Gemini API公开预览提供，使得全球开发者都能访问并利用这一最新模型。
原生音频理解：引入了首次的原生音频（语音）理解能力，这意味着Gemini 1.5 Pro能够直接处理和理解音频输入，为开发者在音频处理和语音识别方面提供强大的工具。
新的File API：新推出的File API简化了文件处理过程，使得开发者能够更容易地在应用中处理音频、视频和其他文件类型。
系统指令：系统指令功能允许开发者定义角色、格式、目标和规则，以精确控制模型的输出，使其更贴合特定的应用场景和需求。
JSON模式：JSON模式的加入，使得模型能够只输出JSON对象，便于从文本或图像中提取结构化数据，极大地提高了数据处理的效率和便捷性。
功能调用改进：改进了功能调用机制，开发者现在可以选择不同的模式来限制模型的输出，提高了模型输出的可靠性和实用性。
新一代文本嵌入模型：推出了性能优越的新一代文本嵌入模型（text-embedding-004），在MTEB基准测试中显示出比现有模型更强的检索性能，为文本分析和语义理解提供了强大的支持。
更广泛的输入模态支持：Gemini 1.5 Pro扩展了对不同输入模态的支持，包括音频理解，并计划很快增加对视频内容的图像（帧）和音频（语音）跨模态推理的API支持，为开发者提供更多元化的应用可能。

这些更新不仅展示了Google对AI技术不断创新的承诺，也为开发者提供了更多工具和资源，以便更好地构建和优化他们的应用程序和服务。

如何使用Gemini 1.5 Pro？

获取API密钥：在Google AI Studio创建或访问您的API密钥，开始构建。
音频和视频模态的新用例：Gemini 1.5 Pro扩展了输入模态，包括在Gemini API和Google AI Studio中的音频（语音）理解。此外，Gemini 1.5 Pro现在能够对上传到Google AI Studio的视频进行图像（帧）和音频（语音）的跨模态推理，API支持即将推出。
系统指令：在Google AI Studio和Gemini API中，通过系统指令指导模型的响应。定义角色、格式、目标和规则，以引导模型针对您的特定用例行为。
JSON模式：指示模型仅输出JSON对象，此模式支持从文本或图像中提取结构化数据。您可以使用cURL开始，Python SDK支持即将到来。
功能调用的改进：现在可以选择模式来限制模型的输出，提高可靠性。选择文本、功能调用或仅函数本身。