General VS vertical, el modelo grande se acercó al primer punto de partido

Fuente: Shenmou Finance, autor | Zhang Wei

Crédito de la imagen: Generado por herramientas Unbounded AI

El campo de batalla de los megamodelos de IA se está fragmentando.

Como fusible, Chatgpt abrió la puerta a la era de AI2.0, y AI2.0 se caracteriza por la "inteligencia industrial y la digitalización", que pueden reemplazar el trabajo de manera eficiente y ser ampliamente utilizados en todos los ámbitos de la vida. ya ha pasado el período fuera de control, la implementación del modelo grande de IA es más realista.

La manifestación más típica es que el gran modelo de IA sale del círculo más ampliamente, no solo en el lado B. Por ejemplo, a pesar de que chatGPT se lanzó hace más de medio año, el autor aún puede escuchar las voces de los trabajadores migrantes hablando sobre chatGPT en la cafetería de la planta baja en Shanghai CBD; según los informes de los medios, algunas empresas también usan AIGC como un herramienta de productividad.

Como dijo Zhang Yong, presidente y director ejecutivo de Alibaba Group y director ejecutivo de Alibaba Cloud Intelligence Group: frente a la era de la IA, vale la pena rehacer todos los productos con un modelo grande.

Las grandes fábricas, las instituciones de investigación científica y los empresarios han llegado a su fin.

Los principales fabricantes como Baidu Wenxin Yiyan, Huawei Pangu, 360 Zhinao, Shangtang Rixin, Ali Tongyi Qianwen, Jingdong Lingxi, Kunlun Wanwei Tiangong y otros modelos grandes han aparecido sucesivamente, seguidos por Tencent Hunyuan, HKUST Los modelos grandes como Xunfei Xinghuo están esperando en línea para conectarse.

Los empresarios también tienen celebridades: Wang Xiaochuan, fundador de Sogou, Wang Huiwen, cofundador de Meituan, Kaifu Li, presidente de Sinovation Works y otros hicieron apariciones de alto perfil en modelos grandes de IA.

La moda de los modelos a gran escala de IA que duró más de unos pocos meses ha generado dos caminos.

Carrera armamentista de IA, gran diferenciación de modelos

Los modelos grandes de AI han entrado en la etapa de competencia y los caminos se están separando gradualmente.

A medida que el modelo de IA se calienta gradualmente, según las estadísticas de los medios, a principios de febrero, solo había 29 acciones en la sección "ChatGPT" de Oriental Fortune, y ahora ha llegado a 61 acciones, y el número sigue aumentando. . Según estadísticas incompletas, hasta el momento, más de 40 empresas e instituciones en mi país han lanzado productos modelo a gran escala o han anunciado planes modelo a gran escala.

Entre ellos, los jugadores que participan en la "carrera armamentista" de los modelos a gran escala de IA también han desarrollado dos direcciones de desarrollo. Los modelos grandes verticales y los modelos grandes generales se están convirtiendo en las dos principales direcciones de desarrollo en el campo de la inteligencia artificial.

Los modelos grandes verticales se refieren a modelos optimizados para dominios o tareas específicas, como reconocimiento de voz, procesamiento de lenguaje natural, clasificación de imágenes, etc.

Actualmente, cada vez son más las empresas que se suman a la pista de los modelos verticales a gran escala. Xueersi anunció que está desarrollando un gran modelo matemático de desarrollo propio, denominado MathGPT, para entusiastas de las matemáticas e instituciones de investigación científica de todo el mundo; el 6 de mayo, Taoyun Technology anunció el lanzamiento de un gran modelo cognitivo para niños: Alpha Egg Children's Cognitive Big El modelo brinda una nueva experiencia interactiva para los niños en términos de practicar la expresión, cultivar EQ, inspirar la creatividad y ayudar a aprender.

Los modelos grandes generales se refieren a modelos que pueden manejar múltiples tareas y dominios, como BERT, GPT, etc.

Debido a las ventajas del capital y los talentos, los principales fabricantes apuntan principalmente a la pista de modelos grandes de uso general.

Los grandes fabricantes apuntan a modelos grandes de propósito general. Por un lado, pueden combinar capacidades de IA con sus propios productos. Empresas de Internet más representativas y gigantes tecnológicos como Alibaba, Huawei y Baidu.

Por ejemplo, luego de la integración de Microsoft de GPT-4 en el cubo de la familia Office, "Tongyi Qianwen" de Ali también comenzó a acceder a DingTalk. Los usuarios pueden generar contenido en documentos y en videoconferencias, pueden generar vistas y contenido personales.

Por ejemplo, el modelo grande de Baidu también se puede combinar con su propio negocio. "Wen Xin Yi Yan" puede tener una transformación cualitativa en la iteración de los motores de búsqueda. "Yuyan" de NetEase y "ChatJD" de JD.com se pueden usar primero en su industrias propias.

Por otro lado, el modelo grande de propósito general tiene una amplia aplicabilidad, y aquellos que superan primero pueden establecer una ventaja de ser los primeros en moverse y convertirse en el líder en la era AI2.0. Después de todo, todos saben la verdad de que "los que corren rápido obtienen la carne, y los que corren lento solo pueden comer las sobras".

El modelo grande de aplicación vertical se puede describir como una "corriente clara". Dado que el modelo grande de aplicación vertical está más en línea con las necesidades de los escenarios verticales y tiene una calidad más alta que el modelo grande general, muchas empresas también han visto las oportunidades. Por ejemplo, Shenlan, Mobvoi, Youdao y otras empresas que se enfocan en pistas específicas de IA.

El desarrollo de grandes modelos verticales se refleja principalmente en la mejora continua del rendimiento del modelo en varios campos. Por ejemplo, la tasa de error del reconocimiento de voz ha disminuido año tras año y la capacidad de comprensión semántica del procesamiento del lenguaje natural ha seguido mejorando. El modelo grande general ha logrado un progreso notable en el aprendizaje de tareas múltiples y el aprendizaje de transferencia, y se ha convertido en una dirección de investigación importante en el campo del procesamiento del lenguaje natural.

Por ejemplo, los grandes modelos biológicos pueden mejorar la eficiencia de los productos farmacéuticos de IA. Los informes de investigaciones extranjeras muestran que la IA puede aumentar la tasa de éxito de la investigación y el desarrollo de nuevos fármacos en un 16,7 %, y la investigación y el desarrollo de fármacos asistidos por IA pueden ahorrar 54 000 millones de USD en costes de investigación y desarrollo cada año, y ahorrar entre un 40 % y un 60 % de tiempo y costo en el proceso principal de investigación y desarrollo. De acuerdo con la información pública de Nvidia, el uso de la tecnología de IA puede acortar el tiempo requerido para el descubrimiento temprano de fármacos a un tercio y ahorrar costos a un doscientos.

Desde el punto de vista de la industria, el modelo general es una "enciclopedia", que puede responder a todas las preguntas y aplicarse a diferentes suelos industriales, mientras que el modelo vertical es similar a un experto en un solo campo. Aunque es profesional, su audiencia es destinado a ser un pequeño número de personas.

Los datos son fatales

La ventaja del modelo vertical grande es que no es lo suficientemente "grande": la potencia de cálculo no es lo suficientemente grande y la dificultad del algoritmo es baja.

Después de que Wang Xiaochuan ingresó a la pista de modelos a gran escala, siempre enfatizó que la dirección de los esfuerzos futuros no es hacer AGI (Inteligencia Artificial General) como OpenAI, sino hacer modelos a gran escala verticalmente en ciertos campos específicos y realizar aplicaciones de aterrizaje. .

Un modelo grande en un sentido amplio en realidad describe un modelo grande de propósito general. Al igual que un modelo "grande", la razón por la que un modelo grande es "grande" se debe a la gran cantidad de parámetros y la gran cantidad de datos, que tienen un gran impacto en los algoritmos, el poder de cómputo y el espacio de almacenamiento de datos Grandes requisitos, y estas no solo son personas que pueden compensar, sino que también necesitan mucho dinero. Ya sabes, el éxito de Open AI también fue construido por Microsoft con miles de millones de dólares. La enorme demanda de capital es también una prueba para la determinación de los principales fabricantes en investigación y desarrollo.

En los últimos cinco años, el volumen de parámetros de los modelos grandes de IA ha aumentado en un orden de magnitud cada año. Por ejemplo, el volumen de parámetros de GPT-4 es 16 veces mayor que el de GPT-3, alcanzando los 1,6 billones; y con la introducción de datos multimodales como imágenes, audio y video, el volumen de datos de modelos grandes también se está expandiendo rápidamente. Esto quiere decir que si quieres jugar con un modelo grande, debes tener una gran potencia de cómputo.

En comparación con los grandes fabricantes, las empresas que fabrican modelos verticales a gran escala tienen fondos, poder de cómputo y datos relativamente escasos, por lo que en realidad no están en la misma línea de partida que los reproductores de modelos a gran escala de propósito general.

Así como los vehículos de nueva energía son inseparables de los tres componentes principales de los motores, las baterías y los controles electrónicos, los grandes modelos de IA no pueden separarse del soporte de la potencia informática, los algoritmos y los datos.

Entre el poder de cómputo, los algoritmos y los datos, los datos son la dificultad de los grandes modelos verticales.

Entre los tres elementos, la dificultad de investigación y desarrollo del algoritmo es relativamente baja. Las empresas actuales tienen sus propios algoritmos de ruta para implementar modelos grandes, y hay muchos proyectos de código abierto como referencia.

El chip determina la potencia informática. El modelo general de IA grande necesita un chip de mayor rendimiento para completar el entrenamiento y la construcción de la red neuronal del modelo general. Sin embargo, el chip actual es menos autodesarrollado y todavía se obtiene principalmente de fuentes externas. Por ejemplo, el chip más adecuado para ChatGPT es de Nvidia, el chip insignia H100 y el chip secundario A100.

La dificultad radica en los datos. Los datos de alta calidad son la clave para ayudar en el entrenamiento y ajuste de la IA Los datos suficientes y ricos son la base de los grandes modelos de IA generativa.

De acuerdo con la divulgación anterior de OpenAI, la cantidad de parámetros de ChatGPT3 solo alcanzó los 175 mil millones y los datos de capacitación alcanzaron los 45 TB.

Debido al desarrollo relativamente maduro de Internet móvil de China, una gran cantidad de recursos de datos chinos se almacenan en varias empresas o instituciones, lo que dificulta compartirlos.

"Dado que muchos datos comerciales, logísticos, financieros, etc. de la empresa son datos de dominio privado muy básicos, es difícil imaginar que China Star Optoelectronics o PetroChina usarán los datos para que otros se capaciten". Xu Hui, CEO de Chuangxinqizhi, fue entrevistado recientemente por valores En una entrevista con el Times, también dijo sin rodeos.

Tomando como ejemplo la industria farmacéutica de la IA, los grandes modelos biológicos enfrentan el problema de estar "atascados" por la tecnología. El costo de obtener datos experimentales de alta precisión para la investigación y el desarrollo de fármacos es relativamente alto, y hay una gran cantidad de datos sin etiquetar en la base de datos pública. Es necesario hacer un buen uso tanto de una gran cantidad de datos sin etiquetar como de una pequeña cantidad. cantidad de datos de alta precisión, por lo que se plantean mayores requisitos para la construcción del modelo.

**¿Quién ganará la primera olla de oro? **

Independientemente del modelo, la comercialización es el tema central. A juzgar por los jugadores de IA actuales con modelos grandes, están avanzando rápidamente en el empoderamiento y la comercialización.

Aunque el modelo a gran escala de propósito general y el modelo a gran escala vertical toman caminos diferentes, todavía son "familiares" en esencia y están en el mismo camino, por lo que no se puede evitar el problema de la competencia.

Para el modelo general a gran escala, el modelo vertical a gran escala aterriza primero y la ruta del modelo general a gran escala será más estrecha. Del mismo modo, después de que los modelos a gran escala de uso general se apoderen rápidamente del mercado, será más difícil que los modelos verticales a gran escala con líneas comerciales estrechas ganen dinero.

En la etapa ideal, ya sea un modelo económico o un valor universal, el modelo a gran escala de propósito general es mejor que el modelo a gran escala vertical. Sin embargo, la vida real no es una utopía, quien corre más rápido entre el modelo a gran escala de propósito general y el modelo a gran escala vertical depende de la competencia entre varias empresas.

A juzgar por el caliente AIGC del año pasado. En comparación con permitir que los usuarios usen IA para generar contenido con un umbral más bajo en el extremo C, algunos participantes del mercado creen que el extremo B será el modelo comercial más importante de AIGC.

Huawei también presta más atención a su propio negocio ToB. En la conferencia de prensa, Huawei afirmó que el modelo grande Huawei Pangu utiliza principalmente IA para empoderar a las industrias y se usa en muchas industrias, como la energía eléctrica, las finanzas y la agricultura, entre ellas, el modelo grande CV se usa en minas y el NLP. el modelo grande se utiliza en la recuperación inteligente de documentos.

Por ejemplo, Baidu, que se especializa en motores de búsqueda, lanzó Wenxin Yiyan con atributos de búsqueda como GPT-3.

Además de ChatGPT, de hecho, antes de la ráfaga de modelos a gran escala de IA, había escenas de aterrizaje. Estos modelos "grandes" son en realidad principalmente modelos verticales a gran escala.

Modelo de lenguaje: como GPT, BERT, etc., utilizado principalmente en el campo del procesamiento del lenguaje natural, como traducción automática, generación de texto, análisis de sentimientos, etc. Modelos de imagen: como ResNet, Inception, etc., que se utilizan principalmente en el campo de la visión artificial, como clasificación de imágenes, detección de objetivos, segmentación de imágenes, etc. Modelo de recomendación: como DNN, RNN, etc., que se utilizan principalmente en el campo de los sistemas de recomendación, como la recomendación de productos y la recomendación publicitaria. Chatbots: como Seq2Seq, Transformer, etc., que se utilizan principalmente en escenarios como atención al cliente inteligente y asistentes inteligentes. Control de riesgos financieros: como XGBoost, LightGBM, etc., que se utilizan principalmente en escenarios de control de riesgos de instituciones financieras como bancos y valores, como credit scoring y antifraude. Diagnóstico por imagen médica: como DeepLung, DeepLesion, etc., que se utilizan principalmente en el campo del diagnóstico por imagen médica, como el diagnóstico de cáncer de pulmón y el análisis patológico.

Ganar dinero es más importante que aterrizar.

Según el informe de Guosheng Securities "Cuánto poder de cómputo se necesita para ChatGPT", se estima que el costo de la capacitación de GPT-3 es de aproximadamente 1,4 millones de dólares estadounidenses, y para algunos LLM (Modelo de lenguaje grande) más grandes, el costo de la capacitación es de entre 2 millones de dólares estadounidenses y 12 millones de dólares estadounidenses entre. Según el número promedio de visitantes únicos de ChatGPT en enero de 13 millones, la demanda de chips correspondiente es de más de 30 000 GPU NVIDIA A100, el costo de inversión inicial es de aproximadamente 800 millones de dólares estadounidenses y el costo diario de electricidad es de aproximadamente 50 000 dólares estadounidenses.

No hay duda de que los modelos a gran escala de propósito general se usan más ampliamente en escenarios de aterrizaje. Para los jugadores que confían en los modelos a gran escala de propósito general, la comercialización es la segunda. Los modelos verticales a gran escala necesitan una comercialización más rápida para cubrir el fondo. línea, por lo que los modelos verticales a gran escala tienen más ventajas Alta probabilidad y tasa de adopción más rápida.

No hay una respuesta definitiva sobre quién puede formar primero una ventaja absoluta. Esta "carrera armamentista" de modelos grandes de IA es como el cambio de mariposa de web 1 a web 2. Las empresas están compitiendo contra el tiempo, y quien aproveche la oportunidad primero aprovechará el mercado.

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Comercie con criptomonedas en cualquier lugar y en cualquier momento
qrCode
Escanee para descargar la aplicación Gate.io
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)