生图提示词手册
首页 人工智能AI 解读 ChatGPT-4V 多模态能力

解读 ChatGPT-4V 多模态能力

下面是笔者整理分享的一篇解读关于 ChatGPT-4V 多模态能力的文章,其中包括物体检测、人脸识别、文本识别、识别复杂验证码能力等的知识,大家可以进来了解了解。 今天 OpenA…

下面是笔者整理分享的一篇解读关于 ChatGPT-4V 多模态能力的文章,其中包括物体检测、人脸识别、文本识别、识别复杂验证码能力等的知识,大家可以进来了解了解。

今天 OpenAI 发布重大更新,支持多模态语音和图像,模型叫 GPT-4V。

用一句话总结:ChatGPT 由「一个完美的词语接龙工具」,现在升级能看懂你发的图片,听懂你的声音,还能说话了!

千万不要想,这个更新没新东西,有人已经拿它开始赚钱了!

Spotify 推出一个名为”Voice Translation for podcasts”的 AI 工具,可以将播客翻译成其他语言,并保持原始发言人的声音风格。

好像比同声翻译还厉害了点(目前接口还没有对外开放)。

对于开发者来说,研发成本大幅度降低。是不是可训练一个可以说话的小助理了?

讲点实用,那这个更新,我们可以用来干什么?

我就基于官方的更新说明,逐个分析给大家。

一、GPT-4V说明 1. 物体检测

检测和识别图像中的常见物体,如汽车、动物、家居用品等。

这个能干啥?

官方给了一个例子:比如“如何调整自行车座椅高度”。

不知道怎么调整,手机拍下发给 ChatGPT,它来告诉你。不知道用什么工具,把你手边能用的工具拍下来给GPT,它告诉你选哪种更合适。

就像在现实世界中,身边有个专家,手把手教你怎么解决问题。

这个能力是可以工业化的,因为ChatGPT是可以调用外部接口。

ChatGPT 能看到图像,并且可以通过接口,调用工具来处理一些复杂的事务。比如机器人等。

2. 人脸识别

可以识别图像中的人脸,并能根据面部特征,识别性别、年龄和种族属性。其面部分析能力是在 FairFace 和 LFW 等数据集上进行测量的。

那接下来是不是可以识别抑郁症等疾病?

虽然官方重点声明了 “目前在科学研究和医疗用途中性能不可靠”。

但未尝不是一个突破点。

3. 文本识别

有字符识别 (OCR) 功能,可以检测图像中的打印或手写文本,并将其转录为可读文本。

这相当于对现在的图片转文字功能,能力进行了升级,不仅仅有识别能力,还能推理并修正错误的信息,对开发者来说利好。

目前我认识的朋友,就有这个需求,一下子就解决了他的问题。

4. 识别复杂验证码能力

能通过视觉推理,来识别基于文本和图像的验证码,这表明 GPT 有高级的解谜能力!

可能会暴力破解一些验证码工具,或者在科研领域,会有一些意想不到的效果。

5. 地理定位

可根据图中的风景,识别出是在哪个城市。

二、GPT-4V 视觉推理不足的地方

官方重点声明了“目前在科学研究和医疗用途中性能不可靠”。

总结一下:GPT-4V 在空间的识别上,能力不足。

1. 复杂图像

该模型难以准确解释复杂的科学图表、医学扫描或具有多个重叠文本组件的图像。它没有上下文细节,不能有效地提供服务。

2. 空间关系

模型很难理解图像中,物品的精确空间布局和位置。它无法正确传达物品之间的相对位置。

3. 重叠

当图像中的物品严重重叠时,GPT-4V 有时无法区分一个物品结束位置和下一个对象的开始位置。它会将不同的对象混合在一起。

4. 背景/前景

模型并不总是准确地感知图像的前景和背景中的对象。它可能会错误地描述对象关系。

5. 遮挡

当图像中某些对象被其他对象部分遮挡或遮挡时,GPT-4V 可能无法识别被遮挡的对象或错过它们与周围对象的关系。

6. 小细节

模型经常会错过或误解非常小的物体、文本或图像中的复杂细节,从而导致错误的关系描述。

7. 下文推理

GPT-4V 缺乏强大的视觉推理能力,来深入分析图像的上下文,并描述对象之间的隐式关系。

8. 置信度

模型可能会错误地描述对象关系,与图像内容不符。

最后,GPT-4V(ision)的训练完成于2022年,我们和Open的差距,看来不止3个月啊!

加油啊,国内的大模型厂家!

生成海报
免责声明:文章内容不代表本站立场,本站不对其内容的真实性、完整性、准确性给予任何担保、暗示和承诺,仅供读者参考,文章版权归原作者所有。如本文内容影响到您的合法权益(内容、图片等),请及时联系本站,我们会及时删除处理。
域名

为您推荐

深度解析周鸿祎发布的两款AI产品 | 5000字

深度解析周鸿祎发布的两款AI产品 | 5000字

前段时间老周的AI免费课里,推出了两款AI 产品:AI搜索和AI浏览器。这个国内首款AI浏览器,再加上AI搜索的结合,会...
AI工具体验差?来掌握这8个核心设计原则!

AI工具体验差?来掌握这8个核心设计原则!

编者按:如今 AI 工具已经相当多了,但是它们从用户体验的角度来说却存在诸多问题,这篇文章出自资深产品设计师 Ben ,...
LTX Studio 最新测评! 颠覆传统的一站式 AI 视频创作神器

LTX Studio 最新测评! 颠覆传统的一站式 AI 视频创作神器

大家好,这里是和你们一起探索 AI 的花生~ AI 视频生成工具正在被越来越多地应用到实际创作中,大家应该看过不少用 A...
爆肝整理!如何用AIGC轻松搞定春季运营海报设计?

爆肝整理!如何用AIGC轻松搞定春季运营海报设计?

海报素材不用愁!8 组高质量空间场景类 Midjourney 提示词 大家好,我是花生~ 今天继续为大家推荐 8 组高质...
人人都能做音乐!Suno v3 一键生成高质量中文歌曲!

人人都能做音乐!Suno v3 一键生成高质量中文歌曲!

大家好,这里是和你们一起探索 AI 的花生~ 之前为大家推荐 AI 音乐生成工具时提到过 Suno,它可以根据提示词生成...

发表回复

返回顶部