¿Mila Jovovich logró con IA un “proyecto de sobresaliente”? Prueba real de desarrolladores: ¿de verdad tiene contenido o es exageración y bombo publicitario?

CryptoCity

El sistema de memoria de IA MemPalace, en cuyo desarrollo participa Milla Jovovich, afirma haber obtenido la puntuación perfecta en las pruebas y se hizo viral, pero la comunidad la acusó de sospechas de hacer trampa en las pruebas y de inducir a error con los datos. En pruebas reales se descubrió que los beneficios están exagerados y que hay una gran cantidad de errores; el equipo ya ha reconocido las deficiencias y está trabajando en su reparación.

Milla Jovovich crea un palacio de memoria de IA y atrae la atención del público

Ayer (4/7), en el mundo de la IA hubo una gran noticia: la estrella de Hollywood, famosa por The Evil Dead y El quinto elemento, Milla Jovovich (Milla Jovovich), se asoció con el desarrollador Ben Sigman para crear el sistema de memoria de IA de código abierto «MemPalace», con ayuda de Claude Code.

En un instante, se difundió la afirmación de que «una superestrella de Hollywood cruza al mundo del desarrollo y logra un proyecto de puntuación perfecta»; hasta ahora, MemPalace también ha acumulado más de 20k estrellas en GitHub, pero pronto surgieron cuestionamientos por parte de la comunidad de desarrolladores: ¿de verdad tiene material sólido o es solo publicidad?

Primero, veamos la motivación detrás del nacimiento de MemPalace. La documentación oficial afirma que busca resolver la limitación de que, actualmente, en los sistemas de IA, el contenido de las conversaciones del usuario con la IA, el proceso de toma de decisiones y las discusiones sobre la arquitectura suelen desaparecer al terminar la sesión de trabajo, lo que hace que meses de esfuerzo se pierdan.

Para resolver este problema, MemPalace utiliza una arquitectura espacial para almacenar recuerdos: clasifica de manera clara la información en alas que representan a personal o proyectos, así como en estructuras de distintos niveles como pasillos, habitaciones y cajones, manteniendo el texto original de las conversaciones para posteriores búsquedas semánticas.

El equipo de desarrollo afirma que, en el criterio de evaluación de memoria a largo plazo LongMemEval, MemPalace obtiene un 100% de puntuación perfecta, y además alcanza una precisión del 96,6% sin llamar a ninguna API externa; también puede ejecutarse completamente en local, sin necesidad de suscribirse a servicios en la nube, y cuenta con el sistema de dialectos AAAK, que supuestamente logra hasta 30 veces de compresión sin pérdidas.

Fuente de la imagen: GitHub La estrella de cine estadounidense Milla Jovovich crea un palacio de memoria de IA y atrae la atención del público

Competidores y la comunidad la cuestionan a la vez: métodos de prueba y fallas en la promoción

Pero el resultado de «100% en LongMemEval» que afirma MemPalace no tardó en provocar dudas por parte de sus competidores.

PenfieldLabs, que también produce sistemas de memoria de IA, señaló que es matemáticamente imposible que MemPalace obtenga la puntuación perfecta en el conjunto de datos LoCoMo, porque las respuestas estándar de ese conjunto de datos ya contienen 99 errores.

Tras analizar, PenfieldLabs encontró que el logro del 100% de MemPalace proviene de configurar el número de recuperaciones en 50 veces, pero el nivel más alto de las conversaciones del conjunto de pruebas solo tiene 32 veces; esto significa que el sistema salta directamente la etapa de recuperación y entrega todos los datos al modelo de IA para que los lea.

Con respecto al 100% en LongMemEval, se descubrió que el equipo de desarrollo se dirigió a tres problemas específicos que fallaban al concentrar la evaluación, y escribió código de reparación dedicado; hay sospechas de trampa contra el conjunto de pruebas.

Fuente de la imagen: Reddit PenfieldLabs señala que MemPalace afirma obtener una puntuación perfecta en el conjunto de datos LoCoMo, lo cual es imposible matemáticamente

Pruebas reales de usuarios de GitHub: la evaluación comparativa contiene componentes que inducen a error

El usuario de GitHub hugooconnor comentó después de realizar pruebas reales. MemPalace afirma tener una precisión de recuperación de hasta 96,6%, pero en realidad no usó en absoluto la arquitectura del palacio de memoria que promociona MemPalace. hugooconnor afirma que sus pruebas solo llamaban a la función predeterminada de la base de datos subyacente ChromaDB, sin involucrar ninguna lógica de clasificación por alas, habitaciones o cajones que el proyecto destaca.

Tras sus pruebas, hugooconnor descubrió que cuando el sistema realmente activa la lógica de clasificación exclusiva de estos palacios de memoria, los resultados de recuperación en realidad empeoran. Por ejemplo, en el modo de habitaciones la precisión baja a 89,4%, y al activar la tecnología de compresión AAAK, la precisión cae aún más a 84,2%, y ambas cifras son inferiores al rendimiento de la base de datos predeterminada.

hugooconnor también criticó el método de prueba: el entorno de pruebas de MemPalace intencionalmente reduce el rango de recuperación de cada problema a aproximadamente 50 etapas de conversación, lo cual hace demasiado fácil encontrar respuestas en un conjunto de muestras diminuto.

Si el rango se amplía a más de 19.000 etapas de conversación del contexto real, la precisión de una búsqueda tradicional por palabras clave se desploma hasta el 30%, lo que muestra que el método de prueba actual de MemPalace oculta el verdadero problema de la búsqueda.

Fuente de la imagen: GitHub Pruebas reales de usuarios de GitHub: la evaluación comparativa de MemPalace contiene componentes que inducen a error

Al mismo tiempo, aunque el equipo de desarrollo ya publicó una declaración de corrección, admitiendo que la tecnología AAAK efectivamente fue verificada como compresión con pérdidas, y se comprometió a corregir la documentación y el diseño del sistema de acuerdo con las severas críticas de la comunidad, el documento principal del proyecto todavía conserva múltiples afirmaciones exageradas sin corregir, incluidas las afirmaciones de 30 veces de compresión sin pérdidas y una mejora de 34% en la recuperación, y además las tablas comparativas con otros competidores también carecen por completo de fuentes.

El código fuente de MemPalace enfrenta múltiples Bug

A medida que cada vez más desarrolladores descargan las pruebas, en la plataforma de GitHub aparecen numerosas reportes de errores sobre el código fuente de MemPalace.

El usuario cktang88 enumeró varios defectos graves. Incluyen que el comando de compresión no puede funcionar y provoca que el sistema se bloquee, errores en la lógica de cálculo de palabras del resumen, y estadísticas inexactas al excavar habitaciones, además de que el servidor carga todos los datos interpretados en la memoria cada vez que se llama, causando serios problemas de consumo de recursos.

Otros problemas señalados también incluyen que el sistema escribe de forma forzada el nombre de un miembro de la familia del desarrollador en el archivo de configuración predeterminado, y que existe un límite máximo obligatorio de visualización de 10k registros al consultar el estado.

Ante estos problemas, la comunidad de código abierto ya ha comenzado a repararlos activamente. El usuario adv3nt3 envió múltiples solicitudesde reparación, que incluyen corregir las estadísticas de excavación, eliminar el nombre predeterminado del miembro de la familia y retrasar el tiempo de inicialización del grafo de conocimiento. El equipo de desarrollo también reconoció posteriormente estos errores y, mediante la colaboración con la comunidad, está resolviendo gradualmente los problemas del código.

Milla Jovovich Vibe Coding es genial, pero la forma de marketing no

Para el proyecto MemPalace, un usuario de Hacker News, darkhanakh, llegó a la siguiente conclusión: MemPalace da la sensación de OpenClaw, es decir, que manipula artificialmente los resultados del benchmark para que parezcan impecables, y luego lo envuelve como si fuera algún tipo de gran avance para comercializarlo.

Considera que la tecnología subyacente de MemPalace podría ser realmente interesante, pero dado que el método de prueba tiene este tipo de fallas, y aun así promociona con «la puntuación más alta jamás publicada», no le parece apropiado; «pero, lo de Milla Jovovich jugando a Vibe Coding, yo creo que igual es bastante genial.»

Lectura adicional:
¡La IA para escribir programas falla! Problema de seguridad de datos en la app de «Buscador de Comida para Aprovechar» de productos con fecha corta en la tienda, y el GPS de la casa queda al descubierto sin ropa

Aviso legal: La información de esta página puede proceder de terceros y no representa los puntos de vista ni las opiniones de Gate. El contenido que aparece en esta página es solo para fines informativos y no constituye ningún tipo de asesoramiento financiero, de inversión o legal. Gate no garantiza la exactitud ni la integridad de la información y no se hace responsable de ninguna pérdida derivada del uso de esta información. Las inversiones en activos virtuales conllevan riesgos elevados y están sujetas a una volatilidad significativa de los precios. Podrías perder todo el capital invertido. Asegúrate de entender completamente los riesgos asociados y toma decisiones prudentes de acuerdo con tu situación financiera y tu tolerancia al riesgo. Para obtener más información, consulta el Aviso legal.
Comentar
0/400
Sin comentarios