来源:AICG工具箱 责编:网络 时间:2025-04-17 13:09:04
4月10日凌晨,谷歌在官网正式发布了Gemini 1.5 Pro,现在可在180多个国家/地区使用。
除了能生成创意文本、代码之外,Gemini 1.5 Pro最大的特色是能根据用户输入的文本提示,理解、总结上传的视频、音频内容进行深度总结,并且支持100万tokens上下文。
目前,可以在Google AI Studio开发平台中免费试用Gemini 1.5 Pro,支持中文进行提示。
此外,谷歌还对Gemini API进行了性能优化,包括系统指令、JSON模式以及函数调用优化,可显著提升模型的稳定性和输出能力。
「AIGC开放社区」通过Google AI Studio开发平台第一时间体验了一下最新的Gemini 1.5 Pro的多模态理解能力。使用方法非常简单便捷,以下是教程示例。
1)登录https://aistudio.google.com/app/prompts/new_chat然后选择模型Gemini 1.5 Pro,以及上方的Video功能。
2)点击Video后,选择Upload上传视频。
3)由于模型对上传视频的解析速度过慢,所以,这里直接使用了谷歌内置的视频示例。需要注意的是,上传视频不要超过100万tokens。
4)我们使用内置视频示例,然后用中文提问:“介绍一下这部影片讲述了哪些内容。”
5)Gemini 1.5 Pro正在解析,通常只需要几十秒就能完成。
结果已经出来了,这是一部由BusterKeaton 于 1924 年主演并导演的电影《福尔摩斯二世》。
6)我们继续发问,“你能用这个视频写一段600字的影评吗?”大概几十秒后,Gemini 1.5 Pro便生成了影评。
虽然生成的内容无法与顶级影评人的作品媲美。但整体的文章架构、叙述方法以及词汇的准确度是超过很多小白、中级影评人的水平。只需要在这个基础之上进行稍加修改,就是一篇不错的内容。
值得一提的是,用户可以一次性上传多个视频一起解读,这对于视频媒体行业来说很有帮助,可以快速理解长视频内容节省时间。
我们再试试音频,基本操作与视频差不多。这里我们上传一份英文阅读ESL Podcast的课程。
然后上传MP3格式文件
2)音频比视频解析快了很多很多,这里我们上传的音频有大约12万tokens。
3)开始发问,“总结一下这个音频的内容。”
4)Gemini 1.5 Pro已经精准解读出来了,这个音频是 ESL Podcast 系列课程“Jeff 的一天”的第一课,旨在帮助学习者掌握日常英语词汇。
比较意外的是,Gemini 1.5 Pro还把整个可成的结构、故事内容和学习目标全部都解读了出来,看来Gemini 1.5 Pro还是更懂英文数据内容。
Gemini 1.5 Pro的音频理解,同样支持多个文件一起解读。
为了帮助开发人员更好地控制Gemini模型,谷歌对API进行了三个优化。
系统指令:目前可以在Google AI Studio 和 Gemini API 中使用系统指令功能,可指导模型的响应输出。能让用户根据其特定需求和用例控制模型的行为。
在设置系统指令时,用户需要为模型提供额外的上下文来了解任务、提供自定义程度更高的响应,并在用户与模型的整个互动过程中遵循特定准则。
而开发者通过系统指令能定义角色、格式、目标和规则,以引导模型在特定用例中的各种行为。
JSON模式:现在Gemini API 提供了一个配置参数,用于请求 JSON 格式的响应。可以帮助开发者从文本或图像中提取结构化数据。
函数调用优化:开发者可以使用自定义函数并将其提供给AI模型,但模型不会直接调用这些函数,而是生成指定函数名称和建议的参数的结构化数据输出。
该输出支持调用外部 API,然后生成的 API 输出可以重新合并到模型中,从而帮助开发者实现更全面的查询响应。
目前,Gemini 1.5 Pro已经全面开放使用了,有兴趣的小伙伴赶紧去试试吧。
相信广大设计师朋友在工作中总会遇到一些B端类的视觉需求,通常是UI的装饰氛围模块以及UI视觉卡片。今天我们就来个小教程,帮助大家快速了解这类需求的设计方法和制作过程。
阿里云 AI 智领者峰会-北京站活动中,阿里云对外发布了新版的通义千问大模型,V2 5版本大模型正式发布,该版大模型的多项能力赶超了GPT-4。
【AI奇点网2024年8月5日早报】本站每日播报AI业界最新资讯,触摸时代脉搏,掌握未来科技动向。事不宜迟,点击查看今日AI资讯早餐。
硅谷AI大厂Meta官网上新,官宣Llama 3正式发布。提供80亿和700亿参数两个版本。有意思的是,80亿版本在某些测评项目的成绩上还超过了70亿版本。
B端设计教学_怎么进行UI视觉设计_B端设计教学
ChatGPT如何工作_ChatGPT如何进行多轮对话
中文多模态大模型SuperCLUE-V榜单发布丨Stability AI推出Stable Fast 3D模型丨Meta AI向好莱坞明星采买声音授权
小米AI助理“小爱同学”接入字节跳动豆包大模型,将用于小米旗下所有「人车家」终端
基准测评国内第一:百川智能发布新一代大模型Baichuan 4,发布旗下首款AI智能搜索助理「百小应」
谷歌Gemini引发争议!网友质疑宣传片疑似剪辑效果 夸大宣传丨实测对标GPT-4测评基准有失偏颇
Music To Image音生图工具是什么_AI音频生成图像工具有哪些_AI音生图工具有哪些_Music To Image怎么用
controlnet怎么操作_stable diffusion模型拆解_controlnet控图的差异跟使用技巧有哪些
通义听悟如何将阿里云盘文件转文字
stable diffusion图生图技巧_stable diffusion怎么图生图