Ali grande modelo é open source novamente! Capaz de ler imagens e conhecer objetos, baseado em Tongyi Qianwen 7B, disponível comercialmente

Fonte: Qubit

Ali modelo grande de código aberto e um novo ~

Seguindo Tongyi Qianwen-7B (Qwen-7B), o Alibaba Cloud lançou o modelo de linguagem visual em grande escala Qwen-VL, e seu código-fonte será aberto diretamente assim que estiver online.

Especificamente, Qwen-VL é um grande modelo multimodal baseado em Tongyi Qianwen-7B, que suporta múltiplas entradas, como imagens, texto e quadros de detecção, e suporta a saída de quadros de detecção além de texto.

Por exemplo 🌰, inserimos uma imagem de Arnia, por meio de perguntas e respostas, o Qwen-VL-Chat pode não apenas resumir o conteúdo da imagem, mas também localizar Arnia na imagem.

Na tarefa de teste, Qwen-VL demonstrou a força do “guerreiro hexagonal”, na avaliação padrão em inglês dos quatro tipos de tarefas multimodais (Zero-shot Caption/VQA/DocVQA/Grounding), alcançou SOTA.

Assim que a notícia do código aberto foi divulgada, atraiu muita atenção.

Vamos dar uma olhada no desempenho específico ~

O primeiro modelo geral que suporta o posicionamento de domínio aberto chinês

Vamos dar uma olhada nas características dos modelos da série Qwen-VL como um todo:

  • Diálogo multilíngue: suporte ao diálogo multilíngue, suporte ponta a ponta para reconhecimento de textos longos em chinês e inglês em imagens;
  • Diálogo intercalado com várias imagens: suporta entrada e comparação de várias imagens, especifica perguntas e respostas de imagens, criação de literatura com várias imagens, etc .;
  • O primeiro modelo de uso geral que suporta o posicionamento de domínio aberto chinês: o quadro de detecção é marcado por meio da expressão da linguagem de domínio aberto chinês, ou seja, o objeto alvo pode ser encontrado com precisão na tela;
  • Reconhecimento e compreensão refinados: Comparado com a resolução 224 usada por outro LVLM de código aberto (modelo de linguagem visual em grande escala), Qwen-VL é o primeiro modelo LVLM de código aberto com resolução 448. Resoluções mais altas podem melhorar o reconhecimento de texto refinado, a resposta a perguntas de documentos e a anotação da caixa de detecção.

Em termos de cenários, o Qwen-VL pode ser usado em cenários como resposta a perguntas de conhecimento, resposta a perguntas sobre imagens, resposta a perguntas sobre documentos e posicionamento visual refinado.

Por exemplo, se um amigo estrangeiro que não entende chinês vai ao hospital consultar um médico, de frente para o mapa guia com uma cabeça e duas grandes, e não sabe como chegar ao departamento correspondente, ele pode jogar o mapa diretamente e perguntas para Qwen-VL, e deixá-lo seguir as informações da imagem atuando como tradutor.

Vamos testar a entrada e comparação de múltiplas imagens:

Embora ele não tenha reconhecido Arnia, seu julgamento emocional foi bastante preciso (cabeça de cachorro manual).

Em termos de capacidade de posicionamento visual, mesmo que a imagem seja muito complicada e haja muitos personagens, Qwen-VL pode encontrar Hulk e Homem-Aranha com precisão de acordo com os requisitos.

Em termos de detalhes técnicos, Qwen-VL usa Qwen-7B como modelo de linguagem base, introduz um codificador visual ViT na arquitetura do modelo e conecta os dois por meio de um adaptador de linguagem visual com reconhecimento de posição, para que o modelo suporte entrada de sinal visual .

O processo de treinamento específico é dividido em três etapas:

  • Pré-treinamento: otimize apenas o codificador visual e o adaptador de linguagem visual, congele o modelo de linguagem. Usando dados emparelhados de imagem e texto em grande escala, a resolução da imagem de entrada é 224x224.
  • Pré-treinamento multitarefa: introduza dados de linguagem visual multitarefa de alta resolução (448x448), como VQA, VQA de texto, compreensão de referência, etc., para pré-treinamento conjunto multitarefa.
  • Ajuste fino supervisionado: congele o codificador visual, otimize o modelo de linguagem e os adaptadores. Use os dados de interação da caixa de diálogo para ajuste de prompt para obter o modelo Qwen-VL-Chat final com recursos interativos.

Os pesquisadores testaram o Qwen-VL em avaliações padrão de inglês em quatro categorias de tarefas multimodais (Zero-shot Caption/VQA/DocVQA/Grounding).

Os resultados mostram que Qwen-VL alcança os melhores resultados de LVLM de código aberto do mesmo tamanho.

Além disso, os pesquisadores construíram um conjunto de testes TouchStone baseado no mecanismo de pontuação GPT-4.

Neste teste de comparação, Qwen-VL-Chat alcançou SOTA.

Se você estiver interessado em Qwen-VL, há demonstrações na Comunidade Modak e no huggingface que você pode experimentar diretamente, e o link está no final do artigo ~

Qwen-VL apoia pesquisadores e desenvolvedores na realização de desenvolvimento secundário, e também permite o uso comercial, mas deve-se ressaltar que para uso comercial, é necessário preencher primeiro o questionário.

Link do projeto:

-Bater papo

Endereço do papel:

Ver original
O conteúdo é apenas para referência, não uma solicitação ou oferta. Nenhum aconselhamento fiscal, de investimento ou jurídico é fornecido. Consulte a isenção de responsabilidade para obter mais informações sobre riscos.
  • Recompensa
  • Comentário
  • Compartilhar
Comentário
0/400
Sem comentários
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate.io
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)