Das Shanghai Artificial Intelligence Lab veröffentlicht das 3D-Realszenenmodell von Shusheng·Tianji LandMark

巴比特_

2023-07-07 03:00:09

Quelle: Das Papier

Reporter Wu Tianyi Praktikant Chen Xiaorui

Bildquelle: Erstellt vom Unbounded AI-Tool

·Das weltweit erste reale NeRF 3D-Großmodell mit 100 Milliarden Parametern ·Sky LandMark kann mehrere Stadtbearbeitungsfunktionen unterstützen. In der Demonstration kann das Wukang-Gebäude mithilfe der NeRF-Technologie seinen Stil sowie seine Licht- und Schatteneffekte je nach Zeitperiode ändern; der chinesische Kulturpalast kann als Ganzes oder in verschiedenen Ebenen gedreht werden.

·Das Shanghai Artificial Intelligence Laboratory hat das allgemeine Großmodellsystem für Wissenschaftler eingeführt, darunter drei Basismodelle für Multimodalität, Puyu und Tianji. Gleichzeitig wurde das erste Open-Source-System mit vollständiger Kette für Großmodelle eingeführt Entwicklung und Anwendung.

Am 6. Juli sprach Lin Dahua, Experte für Deep Learning und Informatik, Professor am Shanghai Artificial Intelligence Laboratory und Professor an der chinesischen Universität Hong, auf der Frontiers of Science-Plenarsitzung der World Artificial Intelligence Conference (WAIC) 2023 Kong veröffentlichte ein großes 3D-Realszenenmodell des Shusheng Tianji LandMark und stellte dessen technisches Prinzip und funktionale Anwendung vor.

Lin Dahua sagte, dass Shusheng·Tianji LandMark das weltweit erste NeRF-3D-Großmodell mit 100 Milliarden Parametern ist, das gemeinsam vom Shanghai Artificial Intelligence Laboratory, der Chinese University of Hong Kong und dem Shanghai Surveying and Mapping Institute entwickelt wurde. ) Die Fähigkeit Die Lichtfeldmodellierung erstreckt sich von der Objektebene bis zur Stadtebene. Lin Dahua sagte, dass die Veröffentlichung von Shusheng·Tianji LandMark eine innovative Anwendung großer Modelle sei, die „uns die technische Möglichkeit bietet, in Zukunft AIGC (Artificial Intelligence Generated Content) auf Stadtebene zu realisieren.“

Das „Shusheng General Model System“ (im Folgenden als „Shusheng Large Model“ bezeichnet) wurde ebenfalls erstmals auf der Konferenz vorgestellt, darunter die drei Grundmodelle Shusheng·Multimodal, Shusheng·Puyu und Shusheng·Tianji sowie das erstes groß angelegtes modellorientiertes Open-Source-System mit vollständiger Kette für Forschung, Entwicklung und Anwendung.

Von einem Apfel zu einer ganzen Stadt

„Neben der Textgenerierung kann das große Modell uns auch eine fantasievollere Welt bieten.“ Lin Dahua sagte, dass der Wissenschaftler Tianji LandMark die NeRF-Technologie nutzt, um mehr Möglichkeiten für die Anwendung der Großmodelltechnologie zu bieten.

NeRF ist eine neue Art von 3D-Lichtfeldmodellierungstechnologie, die erstmals im März 2020 vom Google-Forschungsteam vorgeschlagen wurde. Sie wurde ursprünglich auf die 3D-Modellierung angewendet und war auf die Ebene kleiner Objekte (die Größe eines Apfels) beschränkt. . „Aber wir glauben, dass die NeRF-Technologie mehr als das ist.“ Lin Dahua sagte: „Am 10. Dezember 2021 schlug unser Team erstmals vor, die Fähigkeit der NeRF-Lichtfeldmodellierung von der Objektebene eines kleinen Apfels auf die Stadtebene zu erweitern.“ Dies ist das weltweite erste Mal, dass die Fähigkeiten der NeRF-Technologie von Objekten auf Städte ausgeweitet werden. Er sagte, nachdem ihr Forschungsteam eine Zeit lang NeRF auf Stadtebene vorgeschlagen hatte, hätten die Carnegie Mellon University und Google ihre jeweiligen NeRF-Technologien auf Stadtebene veröffentlicht .

Am 10. Dezember 2021 schlug das Team von Lin Dahua erstmals vor, die NeRF-Lichtfeldmodellierungsfunktion von der Objektebene eines kleinen Apfels auf die Stadtebene zu erweitern.

„Basierend auf der Kerntechnologie von NeRF auf Stadtebene verbessern wir ständig seine Skalierbarkeit und Fähigkeiten.“ Lin Dahua stellte vor, dass das reale 3D-Großmodell von Shusheng·Tianji LandMark auf der CT-NeRF-Technologie und dem Algorithmus der zweiten Generation basiert des Forschungsteams und unterstützt ein umfassendes Spektrum an hochpräzisem Echtzeit-Rendering, einschließlich 200 Milliarden Parametern, die 100 Quadratkilometer abdecken. Jedes Detail in der realen Szene unterstützt eine hochauflösende 4K-Auflösung.

Real 3D ist ein digitaler Raum, der reale, dreidimensionale und zeitlich sequenzierte menschliche Produktions-, Lebens- und ökologische Räume in einem bestimmten Bereich widerspiegelt und ausdrückt. Berichten zufolge integriert Shusheng·Tianji LandMark Algorithmen, Operatoren und Computersysteme und schlägt ein neues reales 3D-Modelldarstellungs- und Trainingsparadigma auf Modellebene vor. Es kann groß angelegte 3D-Stadtszenen genau darstellen und gleichzeitig effizient trainieren Erzielen Sie hochwertige neuronale Rendering-Effekte. Es ist in vier Aspekten führend: hochpräzise Modellierung, hochpräzises Rendering, funktionale Skalierbarkeit und Integration von Training und Interaktion.

Shusheng·Tianji LandMark kann auch Funktionen wie die Bearbeitung auf Stadtebene und die Stilkonvertierung unterstützen. In der Demonstration kann das Wukang-Gebäude mithilfe der NeRF-Technologie seinen Stil sowie seine Licht- und Schatteneffekte je nach Zeitspanne ändern; der chinesische Kulturpalast kann eine Gesamtdrehung oder eine Drehung verschiedener Ebenen durchführen. „Dies bietet eine technische Möglichkeit für unsere AIGC auf Stadtebene in der Zukunft“, sagte Lin Dahua.

Verschiedene Teile des Chinesischen Kulturpalastes können „gedreht“ werden.

Lin Dahua sagte: „Ich hoffe, dass wir durch die neue 3D-Technologie zur Generierung realer Szenen neue Vorstellungskraft und Innovationsraum in unseren zukünftigen städtischen Raum bringen können. In Zukunft wird das Shanghai AI Lab den Modellierungsumfang und die Funktionen von Shusheng Tianji erweitern.“ Die Algorithmen, Operatoren und Systeme von Shusheng Tianji sind alle Open Source.“

Das erste allgemeine Großmodellsystem für Wissenschaftler

Bei dem Treffen stellte Lin Dahua auch das allgemeine Großmodellsystem für Wissenschaftler vor, darunter die drei Basismodelle Multimodal, Puyu und Tianji. Gleichzeitig stellte er das erste Full-Chain-Open-Source-System für Großmodelle vor. Entwicklung und Anwendung von maßstabsgetreuen Modellen. Darunter verfügt das multimodale große Modell über 20 Milliarden Parameter, unterstützt 3,5 Millionen semantische Tags und ist weltweit führend bei über 80 Aufgaben; das große Modell der Pu-Sprache ist das erste in China offiziell veröffentlichte große Modell mit 100 Milliarden Parametern, das mehrere unterstützt Sprachen.

„Der Gelehrte Puyu hat LLaMA-7B (ein vom FAIR-Team von Meta AI entwickeltes Sprachmodell für künstliche Intelligenz) in allen Dimensionen übertroffen.“ Lin Dahua sagte, dass Shusheng Puyu als großes Modell mit Hunderten von Milliarden Parametern erreicht hat Beide übertreffen das Beste bestehende Open-Source-Modelle in China.

Am 7. Juni dieses Jahres veröffentlichten Shanghai AI Lab und SenseTime gemeinsam mit der Chinese University of Hong Kong, der Fudan University und der Shanghai Jiaotong University das groß angelegte Sprachmodell „Scholar·Puyu“. Das Modell verfügt über 104 Milliarden Parameter und ist eines der derzeit großen Sprachmodelle mit Hunderten von Milliarden Parametern. Es wird auf der Grundlage eines mehrsprachigen, hochwertigen Datensatzes mit 1,6 Billionen Token trainiert.

Berichten zufolge wurde Scholar·Puyu seit seinem offiziellen Debüt im Juni innerhalb eines Monats einem umfassenden Upgrade unterzogen, das fünf Aspekte umfasste. Erstens wurde die Länge des Kontextfensters von 2K auf 8K erhöht, was es ermöglicht, lange Eingaben zu verstehen, komplexe Argumente zu entwickeln und über einen längeren Zeitraum hinweg mehrere Dialogrunden durchzuführen; zweitens wurden die mehrsprachigen und strukturierten Ausdrucksmöglichkeiten erweitert gestärkt, Die neue Version des Modells unterstützt mehr als 20 Sprachen und kann auch komplexe Informationen durch Tabellen und Diagramme zusammenfassen und präsentieren; drittens wurden die mehrdimensionalen Fähigkeiten umfassend verbessert und die Leistung bei 42 Mainstream-Bewertungssätzen wurde erheblich verbessert verbessert, und die Leistung von 35 von ihnen übertraf ChatGPT; Viertens haben sich die mathematischen Logikfähigkeiten erheblich verbessert, und die mathematischen Fähigkeiten wie numerische Berechnung, Funktionsoperation und Gleichungslösung wurden erheblich verbessert. Die Leistung des Mathematikbewertungssatzes GSM8K ist von 62,9 auf 73,2 gestiegen. Bei den Multiple-Choice-Fragen der Hochschulaufnahmeprüfung 2023 ist die Genauigkeitsrate um mehr als 70 % gestiegen; Fünftens wurden die Sicherheits- und Ausrichtungsfähigkeiten deutlich verbessert. Durch eine effektivere Feinabstimmung der Anweisungen Einschließlich Verstärkungslernen basierend auf menschlichem Feedback (RLHF) kann die neue Version des Modells menschliche Anweisungen zuverlässiger befolgen, und die Sicherheit ist ebenfalls offensichtlich. Verbessern.

„Der ultimative Wert aller großen Modelle besteht immer noch darin, Mehrwert für das Leben und die Produktion zu schaffen. Das Shanghai Artificial Intelligence Laboratory erzielt nicht nur technologische Durchbrüche durch Innovation, sondern setzt sich auch für die Förderung der Implementierung dieser Technologien in bestimmten Branchen ein“, sagte Lin Dahua bei der Konferenz.

Lin Dahua sagte, dass das Team neben dem großen Modell selbst auch die gesamte Kette von Werkzeugsystemen als Open-Source-Lösung bereitgestellt habe und dabei die fünf Hauptglieder Daten, Vorschulung, Feinabstimmung, Bereitstellung und Bewertung während der Entwicklung des großen Modells abdeckt Modell. „Durch das Open-Source-Toolsystem kann der Wert des Modells voll ausgeschöpft werden. Ich glaube, dass Open Source Entwicklern wirklich dabei helfen kann, auf der Grundlage großer Modelle zu entwickeln und Innovationen zu entwickeln.“

Berichten zufolge handelt es sich bei der offiziellen Open-Source-Version um ein leichtes InternLM-7B mit 7 Milliarden Parametern, das bei der volldimensionalen Auswertung mit 40 Auswertungssätzen eine hervorragende und ausgewogene Leistung zeigt und damit den bestehenden Open-Source-Modellen überlegen ist.

Original anzeigen

Disclaimer: The information on this page may come from third parties and does not represent the views or opinions of Gate. The content displayed on this page is for reference only and does not constitute any financial, investment, or legal advice. Gate does not guarantee the accuracy or completeness of the information and shall not be liable for any losses arising from the use of this information. Virtual asset investments carry high risks and are subject to significant price volatility. You may lose all of your invested principal. Please fully understand the relevant risks and make prudent decisions based on your own financial situation and risk tolerance. For details, please refer to Disclaimer.

Kommentieren

0/400

Keine Kommentare