阿里云今天发布了其新一代的大规模视觉语言模型Qwen-VL,并已在ModeScope平台上开源。
Qwen-VL是一款能够支持中英文等多种语言的视觉语言(Vision Language,VL)模型。与之前的VL模型相比,它不仅具备基本的图文识别、描述、问答和对话能力,还引入了视觉定位和图像中文字理解等新功能。
该模型基于Qwen-7B语言模型构建,在架构设计上引入了视觉编码器,支持视觉信号输入,能够处理的图像输入分辨率为448。
官方指出,Qwen-VL适用于知识问答、图像标题生成、图像问答、文档问答以及细粒度视觉定位等多种场景,并在主流的多模态任务评测和多模态聊天能力评测中,展示了超越同类规模通用模型的优异表现。
基于Qwen-VL,通义千问团队利用对齐机制开发了视觉AI助手Qwen-VL-Chat,使得开发者能够快速构建具备多模态能力的对话应用。
此外,通义千问团队还构建了一套基于GPT-4评分机制的测试集“试金石”,用于评估模型的多模态对话能力。通过对Qwen-VL-Chat与其他模型的对比测试,Qwen-VL-Chat在中英文对齐评测中均取得了开源LVLM的最佳结果。
[[[IMG_1]]]
[[[IMG_2]]]
[[[IMG_3]]]
