GPT
Google 全新 AI 模型「Gemini」推出,30 项测试都赢过 GPT-4v,比专家还强
newsman 发表了文章 • 2023-12-25 18:03
Google 的 Bard AI 机器人过去曾使用 LaMDA 系列的语言模型,后来改为 PaLM2,如今正式宣布推出自家的语言模型 Gemini,使用 TPU v4 和 v5e 芯片进行训练,强调多模、多样化的解析能力以及运行效率,甚至在多项测试中赢过 OpenAI 的 GPT-4 模型。
Google 自家原生 AI 模型,多项测试赢过 GPT-4v
Gemini 是 Google 推出的「原生」AI 模型,可以处理包含代码、文本、声音、图片、影片这些不同形式的内容,而且因为 Google 的数据库中有着巨量的内容,是训练 Gemini 很棒的资源。
Google 甚至表示 Gemini 可以直接「看懂」图片,而不是像过去使用 OCR 的方式扫描图片然后再辨识上面的文本这种方式来分析图片。
在 Google 的影片中,拿了两张图片做比较,Gemini 可以回答右边图片中的汽车会跑的比较快,因为符合空气力学的关系,但你可以注意到,图片中并没有任何的文本,如果使用传统 OCR 解析图片的方式,就无法判断出这些内容。
Google 展示的内容中,甚至还直接画了一只鸭子,而 Gemini 也可以很快地理解出用户话的内容是什么。
Gemini 也能够解析代码、C++、Java 等常用编程语言,甚至是爬虫都可以,不只分析,也能够按照你要的需求、指定的语言生成代码。
Gemini 的运行速度也相当快,在一个午休的时间就可以阅读完 20 万份的论文,并且从用户要求的关键字、条件去查找相关的数据,找出 250 份符合资格的论文以及我们要找的数据在哪里,并且整理成一份清单。
如果拿来和 OpenAI 的 GPT-4v 和 Gemini 做比较,全部 32 项测试中,有 30 项测试是由 Gemini 胜过了 GPT-4v,而且在 MMLU 大规模多任务语言理解的测试中,包含了历史、法律、医学、数学….等 57 个科目中,Gemini 都有达到 90% 的水准,甚至超越了人类专家的表现。
Gemini 也有适合手机使用的版本,Pixel 8 Pro 优先体验
Gemini 共有 3 种不同大小的模型版本,分为 Ultra、Pro、Nano,其中的 Nano 版本最小,甚至可以直接安装到手机上使用,Google 也表示 Nano 版本就针对行动设备所打造的,旗下 Pixel 8 Pro 也会优先开放使用。
其中最大型的 Gemini Ultra 也就是上面所说,在 32 项测试中赢过 GPT-4v 其中 30 项的大型版本,预计明年推出,但在此之前将会先提供给部分用户、开发者以及企业用户。
而中型的 Pro 版本则是现在就可以使用,部分使用英文语系的用户在使用 Bard 的时候,就会自动用上 Gemini 模型,12/13 Google Cloud 的 Vertex AI、AI Studio 上也会释放出相关的 API。
Google 全新 AI 模型「Gemini」推出,30 项测试都赢过 GPT-4v,比专家还强
newsman 发表了文章 • 2023-12-25 18:03
Google 的 Bard AI 机器人过去曾使用 LaMDA 系列的语言模型,后来改为 PaLM2,如今正式宣布推出自家的语言模型 Gemini,使用 TPU v4 和 v5e 芯片进行训练,强调多模、多样化的解析能力以及运行效率,甚至在多项测试中赢过 OpenAI 的 GPT-4 模型。
Google 自家原生 AI 模型,多项测试赢过 GPT-4v
Gemini 是 Google 推出的「原生」AI 模型,可以处理包含代码、文本、声音、图片、影片这些不同形式的内容,而且因为 Google 的数据库中有着巨量的内容,是训练 Gemini 很棒的资源。
Google 甚至表示 Gemini 可以直接「看懂」图片,而不是像过去使用 OCR 的方式扫描图片然后再辨识上面的文本这种方式来分析图片。
在 Google 的影片中,拿了两张图片做比较,Gemini 可以回答右边图片中的汽车会跑的比较快,因为符合空气力学的关系,但你可以注意到,图片中并没有任何的文本,如果使用传统 OCR 解析图片的方式,就无法判断出这些内容。
Google 展示的内容中,甚至还直接画了一只鸭子,而 Gemini 也可以很快地理解出用户话的内容是什么。
Gemini 也能够解析代码、C++、Java 等常用编程语言,甚至是爬虫都可以,不只分析,也能够按照你要的需求、指定的语言生成代码。
Gemini 的运行速度也相当快,在一个午休的时间就可以阅读完 20 万份的论文,并且从用户要求的关键字、条件去查找相关的数据,找出 250 份符合资格的论文以及我们要找的数据在哪里,并且整理成一份清单。
如果拿来和 OpenAI 的 GPT-4v 和 Gemini 做比较,全部 32 项测试中,有 30 项测试是由 Gemini 胜过了 GPT-4v,而且在 MMLU 大规模多任务语言理解的测试中,包含了历史、法律、医学、数学….等 57 个科目中,Gemini 都有达到 90% 的水准,甚至超越了人类专家的表现。
Gemini 也有适合手机使用的版本,Pixel 8 Pro 优先体验
Gemini 共有 3 种不同大小的模型版本,分为 Ultra、Pro、Nano,其中的 Nano 版本最小,甚至可以直接安装到手机上使用,Google 也表示 Nano 版本就针对行动设备所打造的,旗下 Pixel 8 Pro 也会优先开放使用。
其中最大型的 Gemini Ultra 也就是上面所说,在 32 项测试中赢过 GPT-4v 其中 30 项的大型版本,预计明年推出,但在此之前将会先提供给部分用户、开发者以及企业用户。
而中型的 Pro 版本则是现在就可以使用,部分使用英文语系的用户在使用 Bard 的时候,就会自动用上 Gemini 模型,12/13 Google Cloud 的 Vertex AI、AI Studio 上也会释放出相关的 API。
Google 全新 AI 模型「Gemini」推出,30 项测试都赢过 GPT-4v,比专家还强
newsman 发表了文章 • 2023-12-25 18:03
Google 的 Bard AI 机器人过去曾使用 LaMDA 系列的语言模型,后来改为 PaLM2,如今正式宣布推出自家的语言模型 Gemini,使用 TPU v4 和 v5e 芯片进行训练,强调多模、多样化的解析能力以及运行效率,甚至在多项测试中赢过 OpenAI 的 GPT-4 模型。
Google 自家原生 AI 模型,多项测试赢过 GPT-4v
Gemini 是 Google 推出的「原生」AI 模型,可以处理包含代码、文本、声音、图片、影片这些不同形式的内容,而且因为 Google 的数据库中有着巨量的内容,是训练 Gemini 很棒的资源。
Google 甚至表示 Gemini 可以直接「看懂」图片,而不是像过去使用 OCR 的方式扫描图片然后再辨识上面的文本这种方式来分析图片。
在 Google 的影片中,拿了两张图片做比较,Gemini 可以回答右边图片中的汽车会跑的比较快,因为符合空气力学的关系,但你可以注意到,图片中并没有任何的文本,如果使用传统 OCR 解析图片的方式,就无法判断出这些内容。
Google 展示的内容中,甚至还直接画了一只鸭子,而 Gemini 也可以很快地理解出用户话的内容是什么。
Gemini 也能够解析代码、C++、Java 等常用编程语言,甚至是爬虫都可以,不只分析,也能够按照你要的需求、指定的语言生成代码。
Gemini 的运行速度也相当快,在一个午休的时间就可以阅读完 20 万份的论文,并且从用户要求的关键字、条件去查找相关的数据,找出 250 份符合资格的论文以及我们要找的数据在哪里,并且整理成一份清单。
如果拿来和 OpenAI 的 GPT-4v 和 Gemini 做比较,全部 32 项测试中,有 30 项测试是由 Gemini 胜过了 GPT-4v,而且在 MMLU 大规模多任务语言理解的测试中,包含了历史、法律、医学、数学….等 57 个科目中,Gemini 都有达到 90% 的水准,甚至超越了人类专家的表现。
Gemini 也有适合手机使用的版本,Pixel 8 Pro 优先体验
Gemini 共有 3 种不同大小的模型版本,分为 Ultra、Pro、Nano,其中的 Nano 版本最小,甚至可以直接安装到手机上使用,Google 也表示 Nano 版本就针对行动设备所打造的,旗下 Pixel 8 Pro 也会优先开放使用。
其中最大型的 Gemini Ultra 也就是上面所说,在 32 项测试中赢过 GPT-4v 其中 30 项的大型版本,预计明年推出,但在此之前将会先提供给部分用户、开发者以及企业用户。
而中型的 Pro 版本则是现在就可以使用,部分使用英文语系的用户在使用 Bard 的时候,就会自动用上 Gemini 模型,12/13 Google Cloud 的 Vertex AI、AI Studio 上也会释放出相关的 API。