互联网资讯 · 2023年11月23日 0

openmagic_cn_banner

发布大规模视觉语言模型Qwen-VL并在ModeScope开源

阿里云今天发布了其新一代的大规模视觉语言模型Qwen-VL，并已在ModeScope平台上开源。

openmagic_cn_banner

Qwen-VL是一款能够支持中英文等多种语言的视觉语言（Vision Language，VL）模型。与之前的VL模型相比，它不仅具备基本的图文识别、描述、问答和对话能力，还引入了视觉定位和图像中文字理解等新功能。

该模型基于Qwen-7B语言模型构建，在架构设计上引入了视觉编码器，支持视觉信号输入，能够处理的图像输入分辨率为448。

官方指出，Qwen-VL适用于知识问答、图像标题生成、图像问答、文档问答以及细粒度视觉定位等多种场景，并在主流的多模态任务评测和多模态聊天能力评测中，展示了超越同类规模通用模型的优异表现。

基于Qwen-VL，通义千问团队利用对齐机制开发了视觉AI助手Qwen-VL-Chat，使得开发者能够快速构建具备多模态能力的对话应用。

openmagic_cn_banner

此外，通义千问团队还构建了一套基于GPT-4评分机制的测试集“试金石”，用于评估模型的多模态对话能力。通过对Qwen-VL-Chat与其他模型的对比测试，Qwen-VL-Chat在中英文对齐评测中均取得了开源LVLM的最佳结果。

[[[IMG_1]]]

[[[IMG_2]]]

[[[IMG_3]]]

You may also like...

发表评论取消回复

openmagic_cn_banner