General VS vertical, o modelo grande aproximou-se do primeiro match point

Fonte: Shenmou Finance, autor | Zhang Wei

Crédito da imagem: Gerado por ferramentas Unbounded AI

O campo de batalha dos megamodelos de IA está se fragmentando.

Como fusível, o Chatgpt abriu as portas para a era do AI2.0, e o AI2.0 é caracterizado por "inteligência industrial e digitalização", que pode substituir o trabalho com eficiência e ser amplamente utilizado em todas as esferas da vida. Explorando o Metaverso, que já passou do período descontrolado, a implementação do modelo grande de IA é mais realista.

A manifestação mais típica é que o grande modelo de IA sai do círculo mais amplamente, não apenas no lado B. Por exemplo, embora o chatGPT tenha sido lançado há mais de meio ano, o autor ainda pode ouvir as vozes dos trabalhadores migrantes falando sobre o chatGPT no café no andar de baixo do Shanghai CBD; de acordo com relatos da mídia, algumas empresas também usam o AIGC como um ferramenta de produtividade.

Como disse Zhang Yong, presidente e CEO do Alibaba Group e CEO do Alibaba Cloud Intelligence Group: Diante da era da IA, vale a pena refazer todos os produtos com um modelo grande.

Grandes fábricas, instituições de pesquisa científica e empresários chegaram ao fim.

Grandes fabricantes como Baidu Wenxin Yiyan, Huawei Pangu, 360 Zhinao, Shangtang Rixin, Ali Tongyi Qianwen, Jingdong Lingxi, Kunlun Wanwei Tiangong e outros modelos grandes apareceram sucessivamente, seguidos por Tencent Hunyuan, HKUST Modelos grandes como Xunfei Xinghuo estão esperando em linha para ficar online.

Os empreendedores também têm celebridades. Wang Xiaochuan, fundador da Sogou, Wang Huiwen, cofundador da Meituan, Kaifu Li, presidente da Sinovation Works e outros fizeram aparições de alto nível em grandes modelos de IA.

A mania de modelos de IA em larga escala que durou mais de alguns meses gerou dois caminhos.

Corrida armamentista de IA, grande diferenciação de modelo

Os grandes modelos de IA entraram no estágio de competição e os caminhos estão divergindo gradualmente.

À medida que o modelo de IA esquenta gradualmente, de acordo com as estatísticas da mídia, no início de fevereiro, havia apenas 29 ações na seção "ChatGPT" da Oriental Fortune, e agora chegou a 61 ações, e o número ainda está aumentando . De acordo com estatísticas incompletas, até agora, mais de 40 empresas e instituições em meu país lançaram produtos de modelos em grande escala ou anunciaram planos de modelos em grande escala.

Entre eles, os jogadores que participam da "corrida armamentista" de modelos de IA em grande escala também desenvolveram duas direções de desenvolvimento. Grandes modelos verticais e grandes modelos gerais estão se tornando as duas principais direções de desenvolvimento no campo da inteligência artificial.

Grandes modelos verticais referem-se a modelos otimizados para domínios ou tarefas específicas, como reconhecimento de fala, processamento de linguagem natural, classificação de imagens, etc.

Atualmente, mais e mais empresas estão aderindo à trilha de modelos verticais em grande escala. Xueersi anunciou que está desenvolvendo um grande modelo matemático autodesenvolvido, chamado MathGPT, para entusiastas da matemática e instituições de pesquisa científica em todo o mundo; em 6 de maio, a Taoyun Technology anunciou o lançamento de um grande modelo cognitivo para crianças - Alpha Egg Children's Cognitive Big O modelo traz uma nova experiência interativa para crianças em termos de prática de expressão, cultivo de EQ, inspiração de criatividade e ajuda no aprendizado.

Modelos grandes gerais referem-se a modelos que podem lidar com várias tarefas e domínios, como BERT, GPT, etc.

Devido às vantagens de capital e talentos, os principais fabricantes visam principalmente a faixa de modelos grandes de uso geral.

Os grandes fabricantes visam modelos grandes de uso geral. Por um lado, eles podem combinar recursos de IA com seus próprios produtos. Empresas de Internet mais representativas e gigantes da tecnologia como Alibaba, Huawei e Baidu.

Por exemplo, após a integração do GPT-4 pela Microsoft no pacote da família Office, o "Tongyi Qianwen" de Ali também começou a acessar o DingTalk. Os usuários podem gerar conteúdo em documentos e, em videoconferências, podem gerar visualizações e conteúdo pessoais.

Por exemplo, o grande modelo do Baidu também pode ser combinado com seu próprio negócio. "Wen Xin Yi Yan" pode ter uma transformação qualitativa na iteração dos mecanismos de busca. "Yuyan" da NetEase e "ChatJD" da JD.com podem ser usados primeiro em seus próprias indústrias.

Por outro lado, o modelo grande de uso geral tem ampla aplicabilidade, e aqueles que se destacarem primeiro podem estabelecer uma vantagem pioneira e se tornar o líder na era AI2.0. Afinal, todos sabem a verdade que "quem corre rápido pega a carne, e quem corre devagar só come o que sobrou".

O modelo grande de aplicação vertical pode ser descrito como um "fluxo claro". Uma vez que o modelo grande de aplicação vertical está mais alinhado com as necessidades dos cenários verticais e tem maior qualidade do que o modelo grande geral, muitas empresas também viram as oportunidades. Por exemplo, Shenlan, Mobvoi, Youdao e outras empresas que se concentram em faixas específicas de IA.

O desenvolvimento de grandes modelos verticais se reflete principalmente na melhoria contínua do desempenho do modelo em vários campos. Por exemplo, a taxa de erro de reconhecimento de fala diminuiu ano a ano e a capacidade de compreensão semântica do processamento de linguagem natural continuou a melhorar. O modelo geral grande fez um progresso notável na aprendizagem multitarefa e na aprendizagem por transferência e tornou-se uma importante direção de pesquisa no campo do processamento de linguagem natural.

Por exemplo, grandes modelos biológicos podem melhorar a eficiência dos produtos farmacêuticos de IA. Relatórios de pesquisas estrangeiras mostram que a IA pode aumentar a taxa de sucesso da pesquisa e desenvolvimento de novos medicamentos em 16,7%, e a pesquisa e desenvolvimento de medicamentos assistidos por IA pode economizar US$ 54 bilhões em custos de pesquisa e desenvolvimento todos os anos e economizar de 40% a 60% de tempo e custo no processo principal de pesquisa e desenvolvimento. De acordo com as informações públicas da Nvidia, o uso da tecnologia de IA pode reduzir o tempo necessário para a descoberta precoce de medicamentos em um terço e economizar custos em um centésimo.

Do ponto de vista da indústria, o modelo geral é uma "enciclopédia", que pode responder a todas as perguntas e se aplica a diferentes solos industriais, enquanto o modelo vertical é semelhante a um especialista em um único campo. Embora seja profissional, seu público é destinado a ser um pequeno número de pessoas.

Dados são fatais

A vantagem do modelo grande vertical é que ele não é "grande" o suficiente: o poder de computação não é grande o suficiente e a dificuldade do algoritmo é baixa.

Depois que Wang Xiaochuan entrou na trilha do modelo em grande escala, ele sempre enfatizou que a direção dos esforços futuros não é fazer AGI (Inteligência Artificial Geral) como OpenAI, mas fazer modelos em grande escala verticalmente em certos campos específicos e realizar aplicações de pouso .

Um modelo grande em sentido amplo na verdade descreve um modelo grande de propósito geral. Assim como um modelo "grande", a razão pela qual um modelo grande é "grande" é por causa do grande número de parâmetros e da enorme quantidade de dados, que têm grande impacto em algoritmos, poder de computação e espaço de armazenamento de dados. Grandes requisitos, e essas não são apenas pessoas que podem compensar, mas também precisam de muito dinheiro. Você sabe, o sucesso do Open AI também foi construído pela Microsoft com bilhões de dólares. A enorme demanda de capital também é um teste para a determinação dos grandes fabricantes em pesquisa e desenvolvimento.

Nos últimos cinco anos, o volume de parâmetros de modelos grandes de IA aumentou em uma ordem de grandeza a cada ano. Por exemplo, o volume de parâmetros de GPT-4 é 16 vezes maior que o de GPT-3, atingindo 1,6 trilhão; e com a introdução de dados multimodais, como imagens, áudio e vídeo, o volume de dados de grandes modelos também está se expandindo rapidamente. Isso significa que, se você deseja jogar com um modelo grande, deve ter um grande poder de computação.

As empresas que fabricam modelos verticais de grande escala são relativamente escassas em termos de fundos, poder de computação e dados em comparação com grandes fabricantes, portanto, na verdade, não estão na mesma linha de partida que os players de modelos de grande escala de uso geral.

Assim como os novos veículos movidos a energia são inseparáveis dos três principais componentes de motores, baterias e controles eletrônicos, os grandes modelos de IA não podem ser separados do suporte de poder de computação, algoritmos e dados.

Entre poder de computação, algoritmos e dados, os dados são a dificuldade de grandes modelos verticais.

Entre os três elementos, a dificuldade de pesquisa e desenvolvimento do algoritmo é relativamente baixa.As empresas atuais têm seus próprios algoritmos de caminho para implementar modelos grandes e existem muitos projetos de código aberto para referência.

O chip determina o poder de computação. O grande modelo geral de IA precisa de um chip de alto desempenho para concluir o treinamento e a construção da rede neural do modelo geral. No entanto, o chip atual é menos autodesenvolvido e ainda é principalmente de origem externa. Por exemplo, o chip mais adequado para ChatGPT é da Nvidia, o chip principal H100 e o chip secundário A100.

A dificuldade está nos dados. Dados de alta qualidade são a chave para ajudar no treinamento e ajuste de IA. Dados suficientes e ricos são a base de modelos grandes de IA generativa.

De acordo com a divulgação anterior da OpenAI, apenas o número de parâmetros do ChatGPT3 atingiu 175 bilhões e os dados de treinamento atingiram 45 TB.

Devido ao desenvolvimento relativamente maduro da Internet móvel da China, uma grande quantidade de recursos de dados chineses é armazenada em várias empresas ou instituições, dificultando o compartilhamento.

"Como muitos dados de negócios, dados de logística, dados financeiros, etc. da empresa são dados de domínio privado muito importantes, é difícil imaginar que a China Star Optoelectronics ou a PetroChina usarão os dados para outros treinarem." Xu Hui, CEO da Chuangxinqizhi, foi recentemente entrevistado por valores mobiliários Em entrevista ao Times, ele também disse sem rodeios.

Tomando como exemplo a indústria farmacêutica de IA, grandes modelos biológicos enfrentam o problema de serem “presos” pela tecnologia. O custo de obtenção de dados experimentais de alta precisão para pesquisa e desenvolvimento de medicamentos é relativamente alto, e há um grande número de dados não rotulados no banco de dados público. É necessário fazer bom uso tanto de uma grande quantidade de dados não rotulados quanto de uma pequena quantidade de dados de alta precisão, portanto, requisitos mais altos são apresentados para a construção do modelo.

**Quem ganhará o primeiro pote de ouro? **

Independentemente do modelo, a comercialização é a questão central. A julgar pelos atuais players de IA com modelos grandes, eles estão avançando rapidamente no empoderamento e na comercialização.

Embora o modelo de grande escala de uso geral e o modelo vertical de grande escala tomem caminhos diferentes, eles ainda são "família" em essência e estão no mesmo caminho, portanto, o problema da concorrência não pode ser evitado.

Para o modelo geral de grande escala, o modelo vertical de grande escala pousa primeiro e o caminho do modelo geral de grande escala será mais estreito. Da mesma forma, depois que os modelos de grande escala de uso geral rapidamente dominarem o mercado, será mais difícil para os modelos verticais de grande escala com linhas de negócios estreitas ganhar dinheiro.

No estágio ideal, seja um modelo econômico ou um valor universal, o modelo de larga escala de uso geral é melhor do que o modelo vertical de larga escala. No entanto, a vida real não é uma utopia, quem corre mais rápido entre o modelo de grande escala de uso geral e o modelo de grande escala vertical depende da competição entre vários empreendimentos.

A julgar pelo quente AIGC do ano passado. Em comparação com permitir que os usuários usem AI para gerar conteúdo com um limite inferior no C-end, alguns participantes do mercado acreditam que o B-end será o modelo de negócios mais importante do AIGC.

A Huawei também presta mais atenção ao seu próprio negócio ToB. Na coletiva de imprensa, a Huawei afirmou que o grande modelo Huawei Pangu usa principalmente IA para capacitar indústrias e é usado em muitos setores, como energia elétrica, finanças e agricultura. Entre eles, o modelo grande CV é usado em minas e o NLP modelo grande é usado na recuperação inteligente de documentos.

Por exemplo, a Baidu, especializada em mecanismos de busca, lançou o Wenxin Yiyan com atributos de busca como GPT-3.

Além do ChatGPT, de fato, antes da rajada de modelos de IA em grande escala, havia cenas de pouso.Esses modelos "grandes" são, na verdade, principalmente modelos verticais em grande escala.

Modelo de linguagem: como GPT, BERT, etc., usado principalmente no campo do processamento de linguagem natural, como tradução automática, geração de texto, análise de sentimento, etc. Modelos de imagem: como ResNet, Inception, etc., que são usados principalmente no campo da visão computacional, como classificação de imagens, detecção de alvos, segmentação de imagens, etc. Modelo de recomendação: como DNN, RNN, etc., que são usados principalmente no campo de sistemas de recomendação, como recomendação de produto e recomendação de propaganda. Chatbots: como Seq2Seq, Transformer, etc., que são utilizados principalmente em cenários como atendimento inteligente e assistentes inteligentes. Controle de risco financeiro: como XGBoost, LightGBM, etc., que são utilizados principalmente em cenários de controle de risco de instituições financeiras como bancos e valores mobiliários, como credit scoring e antifraude. Diagnóstico por imagem médica: como DeepLung, DeepLesion, etc., que são usados principalmente no campo do diagnóstico por imagem médica, como diagnóstico de câncer de pulmão e análise patológica.

Ganhar dinheiro é mais importante do que pousar.

De acordo com o relatório da Guosheng Securities "How Much Computing Power Needed for ChatGPT", estima-se que o custo do treinamento GPT-3 seja de cerca de 1,4 milhão de dólares americanos e, para alguns LLM (Large Language Model) maiores, o custo do treinamento está entre 2 milhões de dólares americanos e 12 milhões de dólares americanos entre. Com base no número médio de visitantes únicos do ChatGPT em janeiro de 13 milhões, a demanda de chip correspondente é de mais de 30.000 GPUs NVIDIA A100, o custo de investimento inicial é de cerca de 800 milhões de dólares americanos e o custo diário de eletricidade é de cerca de 50.000 dólares americanos.

Não há dúvida de que modelos de grande escala de uso geral são mais amplamente usados em cenários de pouso. Para jogadores que confiam em modelos de grande escala de uso geral, a comercialização vem em segundo lugar. Modelos verticais de grande escala precisam de comercialização mais rápida para cobrir o fundo linha, então modelos verticais de grande escala têm mais vantagens Alta probabilidade e taxa de adoção mais rápida.

Não há uma resposta definitiva sobre quem pode formar uma vantagem absoluta primeiro. Essa "corrida armamentista" de grandes modelos de IA é como a mudança borboleta da web1 para a web2. As empresas estão correndo contra o tempo, e quem aproveitar a oportunidade primeiro, conquistará o mercado.

Ver original
O conteúdo serve apenas de referência e não constitui uma solicitação ou oferta. Não é prestado qualquer aconselhamento em matéria de investimento, fiscal ou jurídica. Consulte a Declaração de exoneração de responsabilidade para obter mais informações sobre os riscos.
  • Recompensa
  • Comentar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate.io
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)