Seguindo Tongyi Qianwen-7B (Qwen-7B), o Alibaba Cloud lançou o modelo de linguagem visual em grande escala Qwen-VL, e seu código-fonte será aberto diretamente assim que estiver online.
Especificamente, Qwen-VL é um grande modelo multimodal baseado em Tongyi Qianwen-7B, que suporta múltiplas entradas, como imagens, texto e quadros de detecção, e suporta a saída de quadros de detecção além de texto.
Por exemplo 🌰, inserimos uma imagem de Arnia, por meio de perguntas e respostas, o Qwen-VL-Chat pode não apenas resumir o conteúdo da imagem, mas também localizar Arnia na imagem.
Na tarefa de teste, Qwen-VL demonstrou a força do “guerreiro hexagonal”, na avaliação padrão em inglês dos quatro tipos de tarefas multimodais (Zero-shot Caption/VQA/DocVQA/Grounding), alcançou SOTA.
Assim que a notícia do código aberto foi divulgada, atraiu muita atenção.
Vamos dar uma olhada no desempenho específico ~
O primeiro modelo geral que suporta o posicionamento de domínio aberto chinês
Vamos dar uma olhada nas características dos modelos da série Qwen-VL como um todo:
Diálogo multilíngue: suporte ao diálogo multilíngue, suporte ponta a ponta para reconhecimento de textos longos em chinês e inglês em imagens;
Diálogo intercalado com várias imagens: suporta entrada e comparação de várias imagens, especifica perguntas e respostas de imagens, criação de literatura com várias imagens, etc .;
O primeiro modelo de uso geral que suporta o posicionamento de domínio aberto chinês: o quadro de detecção é marcado por meio da expressão da linguagem de domínio aberto chinês, ou seja, o objeto alvo pode ser encontrado com precisão na tela;
Reconhecimento e compreensão refinados: Comparado com a resolução 224 usada por outro LVLM de código aberto (modelo de linguagem visual em grande escala), Qwen-VL é o primeiro modelo LVLM de código aberto com resolução 448. Resoluções mais altas podem melhorar o reconhecimento de texto refinado, a resposta a perguntas de documentos e a anotação da caixa de detecção.
Em termos de cenários, o Qwen-VL pode ser usado em cenários como resposta a perguntas de conhecimento, resposta a perguntas sobre imagens, resposta a perguntas sobre documentos e posicionamento visual refinado.
Por exemplo, se um amigo estrangeiro que não entende chinês vai ao hospital consultar um médico, de frente para o mapa guia com uma cabeça e duas grandes, e não sabe como chegar ao departamento correspondente, ele pode jogar o mapa diretamente e perguntas para Qwen-VL, e deixá-lo seguir as informações da imagem atuando como tradutor.
Vamos testar a entrada e comparação de múltiplas imagens:
Embora ele não tenha reconhecido Arnia, seu julgamento emocional foi bastante preciso (cabeça de cachorro manual).
Em termos de capacidade de posicionamento visual, mesmo que a imagem seja muito complicada e haja muitos personagens, Qwen-VL pode encontrar Hulk e Homem-Aranha com precisão de acordo com os requisitos.
Em termos de detalhes técnicos, Qwen-VL usa Qwen-7B como modelo de linguagem base, introduz um codificador visual ViT na arquitetura do modelo e conecta os dois por meio de um adaptador de linguagem visual com reconhecimento de posição, para que o modelo suporte entrada de sinal visual .
O processo de treinamento específico é dividido em três etapas:
Pré-treinamento: otimize apenas o codificador visual e o adaptador de linguagem visual, congele o modelo de linguagem. Usando dados emparelhados de imagem e texto em grande escala, a resolução da imagem de entrada é 224x224.
Pré-treinamento multitarefa: introduza dados de linguagem visual multitarefa de alta resolução (448x448), como VQA, VQA de texto, compreensão de referência, etc., para pré-treinamento conjunto multitarefa.
Ajuste fino supervisionado: congele o codificador visual, otimize o modelo de linguagem e os adaptadores. Use os dados de interação da caixa de diálogo para ajuste de prompt para obter o modelo Qwen-VL-Chat final com recursos interativos.
Os pesquisadores testaram o Qwen-VL em avaliações padrão de inglês em quatro categorias de tarefas multimodais (Zero-shot Caption/VQA/DocVQA/Grounding).
Os resultados mostram que Qwen-VL alcança os melhores resultados de LVLM de código aberto do mesmo tamanho.
Além disso, os pesquisadores construíram um conjunto de testes TouchStone baseado no mecanismo de pontuação GPT-4.
Neste teste de comparação, Qwen-VL-Chat alcançou SOTA.
Se você estiver interessado em Qwen-VL, há demonstrações na Comunidade Modak e no huggingface que você pode experimentar diretamente, e o link está no final do artigo ~
Qwen-VL apoia pesquisadores e desenvolvedores na realização de desenvolvimento secundário, e também permite o uso comercial, mas deve-se ressaltar que para uso comercial, é necessário preencher primeiro o questionário.
Link do projeto:
-Bater papo
Endereço do papel:
Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
Ali grande modelo é open source novamente! Capaz de ler imagens e conhecer objetos, baseado em Tongyi Qianwen 7B, disponível comercialmente
Fonte: Qubit
Seguindo Tongyi Qianwen-7B (Qwen-7B), o Alibaba Cloud lançou o modelo de linguagem visual em grande escala Qwen-VL, e seu código-fonte será aberto diretamente assim que estiver online.
Por exemplo 🌰, inserimos uma imagem de Arnia, por meio de perguntas e respostas, o Qwen-VL-Chat pode não apenas resumir o conteúdo da imagem, mas também localizar Arnia na imagem.
O primeiro modelo geral que suporta o posicionamento de domínio aberto chinês
Vamos dar uma olhada nas características dos modelos da série Qwen-VL como um todo:
Em termos de cenários, o Qwen-VL pode ser usado em cenários como resposta a perguntas de conhecimento, resposta a perguntas sobre imagens, resposta a perguntas sobre documentos e posicionamento visual refinado.
Por exemplo, se um amigo estrangeiro que não entende chinês vai ao hospital consultar um médico, de frente para o mapa guia com uma cabeça e duas grandes, e não sabe como chegar ao departamento correspondente, ele pode jogar o mapa diretamente e perguntas para Qwen-VL, e deixá-lo seguir as informações da imagem atuando como tradutor.
Em termos de capacidade de posicionamento visual, mesmo que a imagem seja muito complicada e haja muitos personagens, Qwen-VL pode encontrar Hulk e Homem-Aranha com precisão de acordo com os requisitos.
Os pesquisadores testaram o Qwen-VL em avaliações padrão de inglês em quatro categorias de tarefas multimodais (Zero-shot Caption/VQA/DocVQA/Grounding).
Além disso, os pesquisadores construíram um conjunto de testes TouchStone baseado no mecanismo de pontuação GPT-4.
Se você estiver interessado em Qwen-VL, há demonstrações na Comunidade Modak e no huggingface que você pode experimentar diretamente, e o link está no final do artigo ~
Qwen-VL apoia pesquisadores e desenvolvedores na realização de desenvolvimento secundário, e também permite o uso comercial, mas deve-se ressaltar que para uso comercial, é necessário preencher primeiro o questionário.
Link do projeto:
-Bater papo
Endereço do papel: