超过GPT-4V,国产开源多模态大模型来了!支持视频理解/超高分辨率图片理解/多轮对话...

扫码领取享50优惠!随时可用,先到先得!

e24deafcdda3418409dff52aead46826.png

大家好,开源多模态大模型真的是每天都在疯狂的涌现,今天分享一个国产大模型 InternLM-XComposer-2.5 中文名:浦语·灵笔2.5

仅使用 7B LLM 后端就达到了 GPT-4V 级别的能力,甚至从官方的论文测试结果来看,部分benchmark上的指标甚至超过了 GPT-4V

c107044c35038310d952367b5f0c7392.png

InternLM-XComposer-2.5

下面介绍一下主要功能:

  • 超高分辨率理解:浦语·灵笔2.5使用560×560分辨率的ViT视觉编码器增强了IXC2-4KHD中提出的动态分辨率解决方案,支持具有任意纵横比的高分辨率图像。

  • 细粒度视频理解:浦语·灵笔2.5将视频视为由数十到数千帧组成的超高分辨率复合图像,从而通过密集采样和每帧更高的分辨率捕捉细节。

  • 多轮多图像对话:浦语·灵笔2.5支持自由形式的多轮多图像对话,使其能够在多轮对话中与人类自然互动。

  • 网页制作:浦语·灵笔2.5可以通过遵循文本-图像指令来创建网页,包括源代码(HTML、CSS和JavaScript)的组合。

  • 高质量文本-图像文章创作:浦语·灵笔2.5利用特别设计的“思维链”(CoT)和“直接偏好优化”(DPO)技术,显著提高了其创作内容的质量。

  • 出色的性能:浦语·灵笔2.5在28个基准测试中进行了评估,在16个基准测试上优于现有的开源先进模型。它还在16个关键任务上超越或与GPT-4V和Gemini Pro表现相近。


1、支持与高分辨率图片对话的能力


1da90a537c7f8aab1d7a8ac836837ea8.png

2、多轮多图像对话

da718b9f866433a8596b9eb15ba046c9.png

3、视频理解

752f4480fdd10cbef2c2a944692c6646.png

4、网页制作

从简历到网页生成

dc34e58f2854fff374682f0be69863e7.png

根据指令生成网页

1a523c2bbfe1ee8f0f98a7e362363241.png

根据截图生成对应的网页

34c7b1d5b32156f3aacbb10d10a3c90d.png

5、文章创作

f033ed6b0d48c375e2abf899c5ad5aaf.png

论文和项目地址:

https://huggingface.co/internlm/internlm-xcomposer2d5-7b

https://arxiv.org/pdf/2407.03320

https://github.com/InternLM/InternLM-XComposer

整体框架

2778c8d9a4d1a0d9e8a6a9632205cdda.png

InternLM-XComposer-2.5(为简单起见,下文中称为 IXC2.5)的模型架构主要遵循 InternLM-XComposer2和 InternLMXComposer2-4KHD(为简单起见,称为 IXC2 和 IXC2-4KHD)的设计,包括轻量级视觉编码器 OpenAI ViT-L/14]、大型语言模型 InternLM2-7B和部分 LoRA以实现高效对齐。我们建议读者参阅 IXC2 和 IXC2-4KHD 论文以了解更多详细信息。

InternLM-XComposer2:https://arxiv.org/pdf/2401.16420 

InternLM-XComposer2-4KHD:https://arxiv.org/pdf/2404.06512

论文和项目地址:

https://huggingface.co/internlm/internlm-xcomposer2d5-7b

https://arxiv.org/pdf/2407.03320

https://github.com/InternLM/InternLM-XComposer

format,png 更多细节请查看论文,今天的内容就分享到这里了,如果对大家有帮助,欢迎多多点赞转发,可以留言分享或推荐你感兴趣的方向

课程推荐

对于希望入门 NeRF 或者对这个方向感兴趣但是又担心课程质量,怕被割的小伙伴,可以了解一下哈

扫描了解更多(添加助理,可以试看视频):

e2fe9092f861e08df3729671050a1408.png

下面是课程的大纲和往期学生的一些反馈,内容真实可靠,课程的单价不高,基本上就是赚口碑了,有兴趣的小伙伴可以扫描最下面的二维码了解!!!

课程大纲:

33f8e226523754120824e9f6fae9d147.jpeg

往期学员真实反馈:

1ab13bad0c556700548e020b3ff03b0a.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/777618.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

全能PDF工具集 -- PDF Shaper Professional v14.3 特别版

软件简介 PDF Shaper是一款功能强大的PDF工具集,它提供了一系列用于处理PDF文档的工具。这款软件使用户能够轻松地转换、分割、合并、提取页面以及旋转和加密PDF文件。PDF Shaper的界面简洁直观,使得即使是新手用户也能快速上手。它支持广泛的功能&…

Okhttp hostnameVerifier详解

hostnameVerifier 方法简介核心原理参考资料 方法简介 本篇博文以Okhttp 4.6.0来解析hostnameVerfier的作用,顾名思义,该方法的主要作用就是鉴定hostnname的合法性。Okhttp在初始化的时候我们可以自己配置hostnameVerfier: new OkHttpClien…

奇迹MU 骷髅战士在哪

BOSS分布图介绍 我为大家带来各地区怪物分布图。在游戏前期,很多玩家可能会不知道该去哪里寻找怪物,也不知道哪些怪物值得打。如果选择了太强的怪物,弱小的玩家可能会无法抵御攻击。如果选择了低等级的boss,收益可能并不理想。所…

【数据库原理】课程笔记

数据库原理 一、数据库系统基础 数据模型的类型 概念数据模型: 概念数据模型也称概念模型或信息模型,是对现实世界中问题域内事务(特性)的描述,是以用户观点实现世界的模型(图形表示)。主要用于描述事物的概念化结构,使数据库的设计人员在设计初期,避开计算机系统及…

基于大象机器人UltraArm P340机械臂和传送带,实现教育场景中的自动化分拣系统!

引言 今天我们将展示一个高度自动化的模拟场景,展示多个机械臂与传送带协同工作的高效分拣系统。在这个场景中,机械臂通过视觉识别技术对物体进行分类,并通过精确的机械操作将它们放置在指定的位置。这一系统不仅提高了分拣的速度和准确性&am…

Go语言--复合类型之指针与数组

分类 指针 指针是一个代表着某个内存地址的值。这个内存地址往往是在内存中存储的另一个变量的值的起始位置。Go 语言对指针的支持介于 Java 语言和 C/C语言之间,它既没有想 Java 语言那样取消了代码对指针的直接操作的能力,也避免了 C/C语言中由于对指针的滥用而造成的安全和…

【紫外线发光器件小结】 UV-B LED 308nm

之前有介绍光的波长和频率计算。 波长小于390nm,频率高于770太赫兹的电磁波忙,或者光。基本有一段就叫做紫外线。 紫外线有分为UV-A/B/C;三小段; 如下图: 高压汞灯与UV LED的光谱;黑色线汞灯,蓝色LED

通信协议:常见的芯片内通信协议

相关阅读 通信协议https://blog.csdn.net/weixin_45791458/category_12452508.html?spm1001.2014.3001.5482 本文将简单介绍一些常见的芯片间通信协议,但不会涉及到协议的具体细节。 一、AMBA(Advanced Microcontroller Bus Architecture)…

(七)[重制]C++命名空间与标准模板库(STL)

​ 引言 在专栏C教程的第六篇C中的结构体与联合体中,介绍了C中的结构体和联合体,包括它们的定义、初始化、内存布局和对齐,以及作为函数参数和返回值的应用。在专栏C教程的第七篇中,我们将深入了解C中的命名空间(nam…

C++(Qt)-GIS开发-简易瓦片地图下载器

Qt-GIS开发-简易瓦片地图下载器 文章目录 Qt-GIS开发-简易瓦片地图下载器1、概述2、安装openssl3、实现效果4、主要代码4.1 算法函数4.2 瓦片地图下载url拼接4.3 多线程下载 5、源码地址6、参考 更多精彩内容👉个人内容分类汇总 👈👉GIS开发 …

连锁门店如何快速联网

随着新零售业态的发展,连锁门店的运营模式逐渐转为数字化运营,新增了诸如收银PoS、扫码枪、摄像头等数字化终端。这些数字化的业务应用都需要依托稳定可靠的网络才能正常运转,在这样的背景下,连锁门店对网络连接的需求显得尤为关键…

C++下Protobuf学习

C下Protobuf简单学习 Protobuf(Protocol Buffers)协议是一种由 Google 开发的高效的、跨语言的、平台无关的数据序列化协议,提供二进制序列化格式和相关的技术,它用于高效地序列化和反序列化结构化数据,通常用于网络通…

WordPress网站违法关键词字过滤插件下载text-filter

插件下载地址:https://www.wpadmin.cn/2025.html 插件介绍 WordPress网站违法关键词字过滤插件text-filter由本站原创开发,支持中英文关键字自动替换成**号,可以通过自定义保存修改按钮增加“预设关键字”,也可以导入定义好的txt文本形式的关…

single_test_funi.py: error: the following arguments are required: img

parser.add_argument(img, defaultS/1.jpg, helpImage file) 当你已经指定了文件路径,还是报错怎么办? parser.add_argument(img, nargs?, defaultS/1.jpg, helpImage file) nargs? 表示 config 参数是可选的。如果用户没有提供这个参数&#xff0c…

【ARMv8/v9 GIC 系列 5.6 -- GIC 超优先级中断详细介绍】

请阅读【ARM GICv3/v4 实战学习 】 文章目录 Interrupt superpriority超优先级中断的特性和应用Physical interface interrupt signalsPhysical Group 1 Non-NMI for Current Security StatePhysical Group 1 for Other Security State, or a Group 0 Non-NMIPhysical Group 1 …

JVM原理(十八):JVM虚拟机的编译器优化技术

1. 编译器优化技术 编译器的目标虽然是做程序代码翻译为本地机器 码的工作,但其实难点并不在于能不能成功翻译出机器码,输出代码优化质量的高低才是决定编译器优秀与否的关键。 1.1. 优化技术概览 即时编译器对这些代码优化变换是建立在代码的中间表示…

基于Android Studio点餐项目,点餐app

目录 项目介绍 图片展示 运行环境 获取方式 项目介绍 实现登录、注册、注销功能,退出登录等功能, 以及基本的选择店铺点餐,加入购物车和结算等功能,以及可以增加或者减少商品的个数, 同时可以同步价格的总量。以…

两年经验前端带你重学前端框架必会的ajax+node.js+webpack+git等技术的个人学习心得、作业及bug记录 Day1

黑马程序员前端AJAX入门到实战全套教程,包含学前端框架必会的(ajaxnode.jswebpackgit),一套全覆盖 Day1 你好,我是Qiuner. 为帮助别人少走弯路和记录自己编程学习过程而写博客 这是我的 github https://github.com/Qiuner ⭐️ ​…

沙龙回顾|MongoDB如何充当企业开发加速器?

数据不仅是企业发展转型的驱动力,也是开发者最棘手的问题。前日,MongoDB携手阿里云、NineData在杭州成功举办了“数据驱动,敏捷前行——MongoDB企业开发加速器”技术沙龙。此次活动吸引了来自各行各业的专业人员,共同探讨MongoDB的…

大话C语言:第27篇 内存模型

1 存储硬件概述 现代计算机遵循冯诺依曼体系结果,存储分为: 外部存储器:长期存放数据,掉电不丢失数据。例如,硬盘、flash、rom、u 盘、光盘、磁带。 内部存储器:暂时存放数据,掉电数据丢失。例…