We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Parsing and deduplicating Scientific Text at Scale for AuroraGPT

Formale Metadaten

Titel
Parsing and deduplicating Scientific Text at Scale for AuroraGPT
Serientitel
Anzahl der Teile
3
Autor
Lizenz
CC-Namensnennung - keine kommerzielle Nutzung 4.0 International:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen und nicht-kommerziellen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
Identifikatoren
Herausgeber
Erscheinungsjahr
Sprache

Inhaltliche Metadaten

Fachgebiet
Genre
Abstract
In this talk, Robert Underwood will share the recent progress of the AuroraGPT Team, how data contributes to the project of building a science-focused LLM with AuroraGPT, and the topics that his team sees as open questions. He will discuss the systems and data quality challenges the team tackles to prepare terabytes of scientific data and text to produce high-quality text and data for training.