使用 Qwen/Qwen2-VL-2B-Instruct进行图片自动标注

这是 Qwen-VL 模型的最新版本,代表了近一年的创新。

主要增强功能:

  • SoTA对各种分辨率和比例的图像的理解:Qwen2-VL在视觉理解基准上达到了最先进的性能,包括MathVista、DocVQA、RealWorldQA、MTVQA等。
  • 理解 20 分钟+ 的视频:Qwen2-VL 可以理解 20 分钟以上的视频,以进行高质量的基于视频的问答、对话、内容创建等。
  • 可以操作您的手机、机器人等的代理:Qwen2-VL 具有复杂的推理和决策能力,可以与手机、机器人等设备集成,根据视觉环境和文本指令进行自动操作。
  • 多语言支持:为了服务全球用户,除了英文和中文外,Qwen2-VL 现在还支持理解图像中不同语言的文本,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。

主要有两个模型:

Qwen2-VL-2B-Instruct

Qwen2-VL-7B-Instruct

主要是对目录下的图片文件自动进行标注,图片的高和宽建议不要超过2048,不然有可能GPU内存不够。

会自动根据 test01.img 产生标注文件 test01.txt ,这样训练 flux1 就很好。

创建环境和安装依赖性的库

代码支持多GPU操作,当GPU内存不够时,适量添加GPU,下面的测试是3 *24G(RTX 4090)

下面是代码

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部