Quelle: Das Papier
Autor: Shao Wen
KI-gestützte Bots wie ChatGPT könnten bald „im Universum keinen Text mehr haben“, warnen Experten. Gleichzeitig werden die von der KI generierten Daten genutzt, um die KI zu „feedbacken“ oder das Modell zum Absturz zu bringen. Die hochwertigen Daten, die für zukünftiges Modelltraining verwendet werden, könnten immer teurer werden und das Netzwerk wird fragmentiert und geschlossen.
„Wenn die Entwicklung groß angelegter Modelle tiefer geht, wie beispielsweise groß angelegte Industriemodelle, sind die erforderlichen Daten keine kostenlosen und offenen Daten im Internet. Um ein Modell mit hoher Präzision zu trainieren, ist Branchenexpertise oder sogar kommerzielles Fachwissen erforderlich.“ Geheimnisse. Wissen. Damit jeder zu einem solchen Korpus beitragen kann, muss es einen Mechanismus für die Verteilung von Rechten und Interessen geben.“
Bildquelle: Erstellt von Unbounded AI
Als einer der „Troika“ der Infrastruktur für künstliche Intelligenz war die Bedeutung von Daten schon immer selbstverständlich. Während der Boom bei großen Sprachmodellen seinen Höhepunkt erreicht, schenkt die Branche Daten mehr Aufmerksamkeit als je zuvor.
Anfang Juli warnte Stuart Russell, Professor für Informatik an der University of California in Berkeley und Autor von „Artificial Intelligence – A Modern Approach“, dass KI-gestützten Bots wie ChatGPT bald „der Text im Universum ausgehen könnte“. .“ „, und die Technik, Bots durch das Sammeln großer Textmengen zu trainieren, stößt „auf Schwierigkeiten.“ Das Forschungsunternehmen Epoch schätzt, dass die Datensätze für maschinelles Lernen bis 2026 alle „hochwertigen Sprachdaten“ erschöpfen könnten.
„Datenqualität und Datenvolumen werden in der nächsten Phase der Schlüssel zur Entstehung groß angelegter Modellfunktionen sein“, teilte Wu Chao, Direktor des Expertenausschusses des CITIC Think Tank und Direktor des Securities Research Institute von China Securities, mit Rede auf der World Artificial Intelligence Conference (WAIC) 2023 Es wird geschätzt, dass „20 % der Qualität eines Modells in Zukunft vom Algorithmus und 80 % von der Qualität der Daten bestimmt werden.“ Als nächstes hoch -Qualitätsdaten werden der Schlüssel zur Verbesserung der Leistung des Modells sein.“
Doch woher kommen hochwertige Daten? Gegenwärtig steht die Datenbranche noch vor vielen dringenden Problemen, z. B. wie hoch der Standard der Datenqualität ist, wie die gemeinsame Nutzung und Verbreitung von Daten gefördert werden kann und wie ein Preis- und Vertriebsertragssystem gestaltet werden soll.
Wei Zhilin, stellvertretender General Manager von Shanghai Data Exchange, sagte in einem Interview mit The Paper (einschließlich Medien) am 8. Juli, dass in der „Troika“ aus Daten, Rechenleistung und Algorithmen Daten der Kern, die längste und die wichtigste seien grundlegendsten Elemente.
Das Large-Scale Language Model (LLM) weist heute eine erstaunliche Leistung auf, und der Mechanismus dahinter wird als „Intelligent Emergenz“ zusammengefasst. Vereinfacht ausgedrückt können jetzt KI-Fähigkeiten erlernt werden, die bisher nicht gelehrt wurden. Und eine große Anzahl von Datensätzen ist eine wichtige Grundlage für die „Intelligence Emergenz“.
Ein großes Sprachmodell ist ein tiefes neuronales Netzwerk mit Milliarden bis Billionen Parametern, das auf einem riesigen natürlichen Sprachkorpus von mehreren Terabyte (Terabyte, 1 TB = 1024 MB) „vorab trainiert“ ist, einschließlich strukturierter Daten, Online-Bücher und anderer Inhalte. Shan Haijun, Vizepräsident des China Electronics Jinxin Research Institute, erklärte Peng Mei Technology während der Weltkonferenz für künstliche Intelligenz 2023, dass große Modelle im Wesentlichen probabilistische Generationsmodelle seien und ihre Kernkompetenzen in der Fähigkeit zum Verstehen (kontextbezogenes Lernen) und zum Denken lägen ( Denkkette) und Hat Werte (Human Feedback Reinforcement Learning). Der größte Durchbruch von ChatGPT war das Erscheinen von GPT-3 mit etwa 175 Milliarden Parametern und einem Datenvolumen von 45 TB.
Eine umfassende Ansicht aller Datensätze von GPT-1 bis zu Gophers kuratierten Sprachmodellen von 2018 bis Anfang 2022. Die ungewichtete Größe in GB. Bildnachweis: Alan D. Thompson
„OpenAI hat immer daran gearbeitet, qualitativ hochwertigere Daten zu suchen und die vorhandenen Daten gründlich zu analysieren, um seine Fähigkeiten immer leistungsfähiger zu machen.“ Am 12. Juli wurde Xiao Yanghua, Professor der Fudan-Universität, Direktor des Shanghai Key Laboratory of Data Science sagte gegenüber The Paper: „Die Erfassung umfangreicher, qualitativ hochwertiger und vielfältiger Daten und die eingehende Analyse dieser Daten könnten eine der wichtigen Ideen sein, um die Entwicklung großer Modelle voranzutreiben.“
Allerdings sind qualitativ hochwertige Daten Mangelware.
Eine Studie von Epoch, einer Gruppe von Forschern für künstliche Intelligenz, im vergangenen November schätzte, dass die Datensätze für maschinelles Lernen bis 2026 alle „hochwertigen Sprachdaten“ erschöpfen könnten. Und als die Studie veröffentlicht wurde, hatte der weltweite Boom der großen Modelle noch gar nicht stattgefunden. Laut der Studie stammten Sprachdaten in „hochwertigen“ Sätzen aus „Büchern, Nachrichtenartikeln, wissenschaftlichen Arbeiten, Wikipedia und gefilterten Webinhalten“.
Gleichzeitig werden die Datenerfassungspraktiken generativer KI-Entwicklungsorganisationen wie OpenAI zum Trainieren großer Sprachmodelle immer umstrittener. Ende Juni wurde OpenAI mit einer Sammelklage konfrontiert, in der ihm vorgeworfen wurde, „eine große Menge personenbezogener Daten“ gestohlen zu haben, um ChatGPT zu trainieren. Soziale Medien, darunter Reddit und Twitter, äußerten Unzufriedenheit mit der willkürlichen Nutzung von Daten auf ihren Plattformen. Am 1. Juli verhängte Musk aus diesem Grund eine vorübergehende Begrenzung der Anzahl der gelesenen Tweets.
In einem Interview mit dem Technologie- und Finanzmedien-Insider am 12. Juli sagte Russell, dass viele Berichte, wenn auch unbestätigt, detailliert darlegen, dass OpenAI Textdatensätze von privaten Quellen gekauft habe. Zwar gibt es verschiedene mögliche Erklärungen für diesen Kauf, aber „die natürliche Schlussfolgerung ist, dass es nicht genügend qualitativ hochwertige öffentliche Daten gibt.“
Einige Experten haben vorgeschlagen, dass möglicherweise neue Lösungen entstehen, bevor die Daten erschöpft sind. Beispielsweise kann das große Modell kontinuierlich selbst neue Daten generieren und dann einer Qualitätsfilterung unterzogen werden, die wiederum zum Trainieren des Modells verwendet werden kann. Dies wird als Selbstlernen oder „Feedback“ bezeichnet. Laut einem im Mai dieses Jahres von Forschern der Oxford University, der Cambridge University und des Imperial College London auf der Preprint-Plattform arXiv veröffentlichten Papier wird das KI-Training mit KI-generierten Daten jedoch zu irreversiblen Fehlern im KI-Modell führen Das Modellzusammenbruch. Dies bedeutet, dass die hochwertigen Daten, die in Zukunft für das Modelltraining verwendet werden, immer teurer werden, das Netzwerk fragmentiert und geschlossen wird und die Ersteller von Inhalten ihr Bestes tun werden, um zu verhindern, dass ihre Inhalte kostenlos gecrawlt werden.
Es ist nicht schwer zu erkennen, dass die Beschaffung qualitativ hochwertiger Daten immer schwieriger wird. „Die meisten unserer Daten stammen mittlerweile aus dem Internet. Woher werden die Daten in der zweiten Jahreshälfte kommen? „Der junge Wissenschaftler des Shanghai Artificial Intelligence Laboratory, verantwortlich für OpenDataLab, sprach He Conghui auf der Weltkonferenz für künstliche Intelligenz 2023 darüber.
Wu Chao sagte gegenüber The Paper auch, dass derjenige, der als nächstes über höherwertige Daten verfügt oder einen stetigen Strom qualitativ hochwertiger Daten generieren kann, der Schlüssel zur Leistungsverbesserung sein wird.
He Conghui glaubt, dass sich das Paradigma der gesamten Modellentwicklung schrittweise von „modellzentriert“ zu „datenzentriert“ ändern wird. Aber es gibt ein Problem mit der Datenzentrierung – das Fehlen von Standards, und die Kritikalität der Datenqualität wird oft erwähnt, aber tatsächlich ist es derzeit für irgendjemanden schwierig, klar zu sagen, was gute Datenqualität ist und was der Standard ist.
Im Laufe der Praxis stand He Conghui auch vor einem solchen Problem: „Unsere Praxis in diesem Prozess besteht darin, die Daten aufzuschlüsseln und sie immer detaillierter zu machen. Mit jedem Unterteilungsfeld und jedem Unterteilungsthema wird der Qualitätsstandard der Daten schrittweise erhöht.“ wird immer kleiner. Es wurde vorgeschlagen. Gleichzeitig reicht es nicht aus, die Daten allein zu betrachten, sondern auch hinter die Daten zu schauen. Wir werden die Daten und die Modellleistung kombinieren, um die entsprechende Absicht zu verbessern Daten und formulieren gemeinsam einen Satz von Iterationsmechanismen für die Datenqualität.“
Letztes Jahr veröffentlichte das Shanghai Artificial Intelligence Laboratory, in dem He Conghui arbeitet, die offene Datenplattform OpenDataLab für künstliche Intelligenz, die mehr als 5.500 hochwertige Datensätze bereitstellt, „aber das ist nur auf der Ebene öffentlicher Datensätze.“ Wir hoffen, dass die Daten Der Austausch wird vor zwei Tagen eingerichtet. Die groß angelegte Korpusdatenallianz kann Forschungseinrichtungen und Unternehmen bessere Methoden zur Datenverbreitung bieten.“
Am 6. Juli auf der Weltkonferenz für künstliche Intelligenz 2023, Shanghai Artificial Intelligence Laboratory, China Institute of Scientific and Technological Information, Shanghai Data Group, Shanghai Digital Business Association, National Meteorological Center, China Central Radio and Television, Shanghai Press Industry Group The Large Die von anderen Einheiten gemeinsam initiierte Model Corpus Data Alliance gab die formelle Gründung bekannt.
Am 7. Juli wurde das Korpus auf der offiziellen Website der Shanghai Data Exchange offiziell veröffentlicht. Insgesamt wurden fast 30 Korpusdatenprodukte aufgelistet, darunter Text, Audio, Bild und andere Multimodalitäten, die die Bereiche Finanzen, Transport und Medizin abdecken.
Doch eine solche Korpuskonstruktion ist keine Selbstverständlichkeit. „Können große Unternehmen einen qualitativ hochwertigen Korpus benötigen? Wird die Zielgruppe bereit sein, Daten zu öffnen?“ Tang Qifeng, General Manager von Shanghai Data Exchange, sagte auf der Weltkonferenz für künstliche Intelligenz 2023, dass die Schwierigkeit hauptsächlich darin liegt der Grad der Offenheit und Datenqualität Zwei Möglichkeiten.
Wei Zhilin teilte mit, dass die Datenversorgung nun vor vielen Herausforderungen stehe. Führende Hersteller seien nicht bereit, Daten offenzulegen. Gleichzeitig seien alle besorgt über den Sicherheitsmechanismus im Datenaustauschprozess. Ein weiterer wichtiger Punkt ist, dass immer noch Zweifel am Mechanismus der Einnahmenverteilung für die offene Verbreitung von Daten bestehen.
Konkret muss der Datenaustausch drei Probleme lösen. Lin Le, Gründer und CEO von Shanghai Lingshu Technology Co., Ltd. erklärte gegenüber Pengpai Technology, dass Daten erstens leicht zu fälschen seien und dass sichergestellt werden müsse, dass die Daten authentisch und glaubwürdig seien. Der zweite Grund ist, dass Daten leicht zu kopieren sind, was bedeutet, dass die Eigentumsbeziehung nicht klar ist und eine Blockchain zur Bestätigung und autorisierten Nutzung erforderlich ist. Drittens kann die Privatsphäre leicht verloren gehen. Blockchain kann mit Privacy-Computing-Technologie kombiniert werden, um Daten verfügbar und unsichtbar zu machen.
Tang Qifeng wies darauf hin, dass für Lieferanten mit hoher Datenqualität, aber geringer Offenheit das Vertrauensproblem der Korpusdatenzirkulation durch die Datentransaktionskette effektiv gelöst werden kann. „Einer der Kernpunkte liegt in der Frage der Eigentumsrechte und der Verteilung der Vorteile danach.“ Teilnahme am Großmodell.“
Lin Changle, Executive Vice President des Interdisciplinary Information Core Technology Research Institute der Tsinghua University, entwirft ein theoretisches System zur Preisgestaltung von Daten und zur Verteilung von Vorteilen.
„Bis zu einem gewissen Grad kann eine Menge menschliches Wissen wie ChatGPT in ein paar Monaten kostenlos genutzt werden. Wir sehen, dass das große Modell die Artikel einiger Autoren lernen, den gleichen Artikelstil schreiben oder Van Goghs Gemälde generieren kann, aber es.“ „Diese Zahlung muss nicht sein, die Subjekte dieser Datenquellen haben davon nicht profitiert“, sagte Lin Changle auf der Weltkonferenz für künstliche Intelligenz 2023, daher könnte es einen radikaleren Standpunkt geben: Rechte an geistigem Eigentum im Zeitalter von Es gibt keine großen Modelle oder es wird gesagt, dass es keinen traditionellen Schutz des geistigen Eigentums gibt.
Lin Changle ist jedoch davon überzeugt, dass sich der Schutz geistiger Eigentumsrechte nach der Ära der groß angelegten Modelle hin zur Bestätigung von Datenrechten, Preisen und Transaktionen entwickeln wird. „Wenn die Entwicklung groß angelegter Modelle tiefer geht, wie beispielsweise groß angelegte Industriemodelle, sind die erforderlichen Daten keine kostenlosen und offenen Daten im Internet. Um Modelle mit extrem hoher Präzision zu trainieren, ist Branchenexpertise oder sogar kommerzielles Fachwissen erforderlich.“ Geheimnisse. Wissen. Damit jeder zu einem solchen Korpus beitragen kann, muss es einen Mechanismus für die Verteilung von Rechten und Interessen geben.“
Die „Data Asset Map“, an der Lin Changle derzeit arbeitet, besteht darin, mithilfe von Mathematik eine Reihe von Einkommensverteilungsmechanismen zu beweisen, um Datenrechte gerecht zu verteilen.
So lösen Sie die Datenzirkulation
Liu Quan, stellvertretender Chefingenieur des CCID-Forschungsinstituts des Ministeriums für Industrie und Informationstechnologie und ausländischer Akademiker der Russischen Akademie der Naturwissenschaften, erwähnte bei der WAIC „Integration von Zahlen und Realität, Intelligenz führt die Zukunft“ Industrial Blockchain Ecological Forum, dass kürzlich die Pekinger Version von „Twenty Articles of Data“ in der Branche aufgetaucht ist. Sehr große Resonanz, sie löst das Kernproblem im Prozess der Datenzirkulation. Am offensichtlichsten wird die Frage geklärt, wem Regierungsdaten gehören – öffentliche Daten gehören der Regierung. Was ist mit Unternehmensdaten und personenbezogenen Daten? „Der Beijing Municipal Data Exchange kann mit der Durchführung anvertrauter Operationen betraut werden.“
Am 5. Juli gaben das Pekinger Stadtkomitee der Kommunistischen Partei Chinas und die Pekinger Stadtregierung eine Mitteilung zu den „Umsetzungsmeinungen zur besseren Nutzung der Rolle von Datenelementen und zur weiteren Beschleunigung der Entwicklung der digitalen Wirtschaft“ heraus. Die „Implementation Opinions“ sind in neun Teile gegliedert. Sie bilden ein grundlegendes Datensystem aus den Aspekten Dateneigentumsrechte, Zirkulationstransaktionen, Einkommensverteilung und Sicherheitsgovernance. Sie schlagen insgesamt 23 spezifische Anforderungen vor, die als Peking-Version bezeichnet werden der „Twenty Data Articles“ der Branche.
„Aus nationaler Sicht sind laut Statistik 80 % der Datenressourcen in öffentlichen und staatlichen Institutionen konzentriert. Wir wollen die Datenversorgung weitgehend lösen und hoffen, dass wir auf den 20 Datenartikeln basieren ( „Das Zentralkomitee der Kommunistischen Partei Chinas und der Staatsrat zum Aufbau eines Datenbasissystems, Stellungnahmen zum besseren Spielen der Rolle von Datenelementen“). Der offene Austausch öffentlicher Daten kann eine Reihe replizierbarer Mechanismen und Paradigmen zur Förderung der Datenbildung bilden in öffentliche Versorgungsbetriebe investieren und dann der Öffentlichkeit dienen“, sagte Wei Zhilin.
Wei Zhilin sagte, dass nach aktuellen Statistiken der Bestand an Datenressourcen in China insgesamt weltweit an zweiter Stelle stehe, diese Daten jedoch an verschiedenen Orten verstreut seien. Laut Zhan Yubao, stellvertretender Direktor des Digital China Research Institute des State Information Center, auf der Weltkonferenz für künstliche Intelligenz 2023 am 7. Juli, umfasst Chinas aktuelles nationales Datenzirkulationssystem: Es gibt zwei Datenaustausche, einer ist Shanghai Data Exchange One ist der Shenzhen Data Exchange; in China gibt es 17 Datenaustauschzentren, darunter das Beijing Data Exchange Center.