谷歌的Gemini 2.0正式上线
OpenAI接连几天的发布让人产生审美疲劳,谷歌于周三推出新一代至强AI大模型Gemini 2.0 Flash。现在开发者可以通过Gemini的API接口、谷歌的AI开发平台(AI Studio和Vertex AI)尝试使用2.0 Flash的测试版。
正式版本将于1月份推出,在此期间谷歌正在发布Multimodal Live API。
什么是Gemini 2.0
Gemini 2.0 Flash是Gemini 2.0系列的第一个模型,也是当前主力模型,反应速度快(低延迟),性能强大,代表了谷歌Gemini最顶尖的技术水平。速度是“前任”的2倍,支持图像、视频和音频等多模态输入,现在还支持多模态输出,比如原生生成的图像与文本混合,以及可控制的多语言文本转语音(TTS)音频,还能够原生调用工具,如谷歌搜索、代码执行以及第三方用户自定义函数。
Gemini 2.0能做什么
除了能生成文字外,还能直接生成图片和语音,但生成图片和语音的功能暂时只对“早期合作伙伴”开放,要等到明年1月才会向所有人开放。
谷歌表示在接下来几个月里,会把2.0 Flash的各种版本整合到多个产品中,包括Android Studio、Chrome开发工具、Firebase、Gemini代码助手。
新模型在编程、数学和多模态处理方面都有明显提升,特别是在代码生成方面的进步最为显著,能够处理 200 万个标记(相当于一个多小时的视频),擅长处理大型复杂数据集。因为高超的性能,它在 Livebench 上排名第二,超过了Claude 3.5 Sonnet,直逼Open o1-preview

理解程序问题,制定解决方案,在用户的指导和监督下写代码。
谷歌还开发了游戏智能体,基于Gemini 2.0,能看懂游戏画面,理解游戏规则和进程,实时跟玩家聊天并给出建议

还能使用谷歌搜索找到游戏攻略和技巧,谷歌正在与Supercell等游戏公司合作,在《部落冲突》《卡通农场》等游戏中测试该AI。

谷歌还尝试将Gemini 2.0的空间推理能力应用于机器人技术,但目前仍处于早期阶段。
测试Gemini 2.0写作
Gemini 2.0的文字表达能力很强,能轻松按照简单指令写出符合要求(如写一篇爆款标题)的公众号文章。

未来prompt会更简单,只需遵循角色扮演、提供示例、清晰表述等简单提问原则就能得到好答案。
它还实现了实时音视频通话功能,可以直接和AI进行实时视频和语音通话,如描述周围环境、猜测手机型号等,但进行音视频通话时不能用中文回复(可借助翻译软件,若收到日语回复可要求用英语交流),还可以对视频进行拆解。

它具备处理200万token上下文的能力,可以处理大量资料如整本书的分析、总结、提炼甚至二次创作。
使用Gemini 2.0
使用Gemini 2.0可通过访问

新建对话并将模型设置为“Gemini 2.0 Flash”或“Gemini experimental 1206”(1206模型最强,Flash速度快但能力可能稍弱)后直接提问
如果不会魔法使用,也可以通过灵想AI里面的模型切换进行使用

相对于以往的直接生成,Gemini提供了更多选项

并开始设计人物和故事情节

开始撰写开头部分
故事更加丰满

比起之前的一键成文多了更多可控选项

总结一下,Gemini 2.0目前是免费里最好用的模型了,但大模型实在是太卷了,如果有最新好用的大模型我也会第一时间分享出来,欢迎关注我哦~