We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

How to train your general purpose document retriever model

00:00

Formale Metadaten

Titel
How to train your general purpose document retriever model
Serientitel
Anzahl der Teile
60
Autor
Mitwirkende
Lizenz
CC-Namensnennung 3.0 Unported:
Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen.
Identifikatoren
Herausgeber
Erscheinungsjahr
Sprache

Inhaltliche Metadaten

Fachgebiet
Genre
Abstract
Large language models augment traditional information retrieval (IR) approaches with both high quality language parsing skills and knowledge external to the corpus. However, training a state of the art general purpose model for document retrieval is challenging. This talk is motivated by our experiences training a high quality retriever model for use alone or together with BM25 to improve relevance out-of-the-box in Elasticsearch. We chose to focus on the learned sparse model (LSM) architecture. LSMs for information retrieval (IR) were recently popularised by SPLADE [1] and have various attractive properties for our purpose. They enable retrieval via inverted indices for which Elasticsearch has a high quality implementation in Lucene. They provide tuneable parameters which allow one to trade off accuracy with index size and query latency. They enable word level highlighting to explain matches. And they perform well in zero-shot settings. In this talk we survey LSMs and discuss how they fit into the IR landscape. We describe some challenges training language models effectively. We briefly survey some techniques which have been studied previously and found to improve performance both in and out of domain. These include downstream task aware pre-training and knowledge distillation. Finally, we give an overview of the key ingredients of our full training pipeline and useful lessons we learned along the way. Our goal was to consistently improve on BM25 relevance in a zero-shot setting. In particular, we set out to beat BM25 across a suite of diverse IR tasks gathered together in the BEIR benchmark [2] without using any in domain supervision. We survey other published results on this benchmark and discuss how we compare.
Formation <Mathematik>Formale SpracheSchwach besetzte MatrixInformation RetrievalBenchmarkBitResultanteVirtuelle MaschineElastische DeformationProzess <Informatik>SchnittmengeEndliche ModelltheorieMultiplikationsoperatorVektorpotenzialDiagramm
Elastische DeformationSchwach besetzte MatrixEndliche ModelltheorieFormale SpracheInformation RetrievalVektorraumDichte <Physik>DatenmodellDimensionsanalyseFormale SpracheInformationOrdnung <Mathematik>Schwach besetzte MatrixTopologieTransformation <Mathematik>ValiditätInformation RetrievalHalbleiterspeicherFormale SemantikProdukt <Mathematik>MatrizenrechnungWellenpaketKategorie <Mathematik>VektorraumDimensionsanalyseTaskAutomatische IndexierungKonfiguration <Informatik>Arithmetisches MittelBenchmarkBitIndexberechnungLeistung <Physik>LeistungsbewertungResultanteSkalarproduktStatistische HypotheseTabelleTUNIS <Programm>WärmeausdehnungZahlenbereichZusammengesetzte VerteilungToken-RingQuick-SortElastische DeformationAbfrageGüte der AnpassungÄhnlichkeitsgeometrieParametersystemRuhmasseGewicht <Ausgleichsrechnung>CASE <Informatik>Prozess <Informatik>VorhersagbarkeitCodierung <Programmierung>ProgrammierparadigmaDichte <Physik>SchnittmengeOffene MengeInteraktives FernsehenRahmenproblemFramework <Informatik>Endliche ModelltheorieDifferenteRechenbuchDomain <Netzwerk>SelbstrepräsentationObjekt <Kategorie>Klassische PhysikMessage-PassingMinkowski-MetrikMehrrechnersystemBitfehlerhäufigkeitRankingMinimumVerdeckungsrechnungComputeranimation
StapeldateiDatenmodellAbfrageAlgorithmusDiagrammFormale SpracheInformationOrdnung <Mathematik>ComputerarchitekturSchaltnetzWellenpaketBitEinfacher RingFunktionalRandverteilungResultanteTermVirtuelle MaschineFlächeninhaltStapeldateiAbfrageFamilie <Mathematik>ParametersystemGewicht <Ausgleichsrechnung>Prozess <Informatik>Zusammenhängender GraphFehlermeldungFormation <Mathematik>QuadratzahlPunktNegative ZahlSchnittmengeOffene MengeInformationsspeicherungEinfügungsdämpfungt-TestAuszeichnungsspracheNichtunterscheidbarkeitEndliche ModelltheorieSchlüsselverwaltungDifferenteDomain <Netzwerk>SelbstrepräsentationKlassische PhysikMultiplikationsoperatorPufferüberlaufZweiKeller <Informatik>BenutzerbeteiligungOrtsoperatorMaschinenschreibenNatürliche ZahlInformation RetrievalMakrobefehlArithmetisches MittelBenchmarkTUNIS <Programm>Quick-SortExogene VariableCASE <Informatik>HypercubeCodierung <Programmierung>RankingComputeranimation
AbfragePetaflopsInformationSchaltnetzSchwach besetzte MatrixFunktion <Mathematik>Information RetrievalHalbleiterspeicherProdukt <Mathematik>WellenpaketVektorraumTaskAutomatische IndexierungNebenbedingungBenchmarkBildschirmmaskeEinbettung <Mathematik>EndlichkeitHistogrammMomentenproblemPhysikalisches SystemResultanteZentrische StreckungToken-RingQuick-SortStapeldateiAbfrageGüte der AnpassungRegulärer GraphGewicht <Ausgleichsrechnung>ProgrammfehlerDistributionenraumNegative ZahlWort <Informatik>Interaktives FernsehenFaltungsoperatorEinfügungsdämpfungGraphikprozessorEndliche ModelltheorieMicrosoft dot netSelbstrepräsentationNeuroinformatikObjekt <Kategorie>Klassische PhysikKontextbezogenes SystemMinkowski-MetrikOrtsoperatorPetaflopsBildgebendes VerfahrenProgrammierungKonfiguration <Informatik>OrthogonalitätFunktionalLokales MinimumPhysikalische TheorieRandverteilungSkalarproduktTUNIS <Programm>Überlagerung <Mathematik>GegenbeispielProzess <Informatik>Codierung <Programmierung>RankingRichtungSoundverarbeitungLoginComputeranimation
PetaflopsElastische DeformationDatenstrukturStapeldateiMathematikFormale SpracheImplementierungInformationMaschinenschreibenMathematikSchaltnetzSchwach besetzte MatrixFunktion <Mathematik>Information RetrievalHalbleiterspeicherProdukt <Mathematik>WellenpaketMittelwertVektorraumDimensionsanalyseAutomatische IndexierungLogischer SchlussGlobale OptimierungBenchmarkBitEinbettung <Mathematik>Geometrische QuantisierungGruppenoperationInhalt <Mathematik>Lokales MinimumMomentenproblemResultanteTrigonometrische FunktionZentrische StreckungToken-RingQuick-SortStapeldateiAbfrageVersionsverwaltungGüte der AnpassungGewicht <Ausgleichsrechnung>Prozess <Informatik>DatenfeldDistributionenraumRankingNegative ZahlSchnittmengeArithmetische FolgeWort <Informatik>Interaktives FernsehenGrößenordnungRichtungEinfügungsdämpfungEndliche ModelltheorieDifferenteDomain <Netzwerk>SelbstrepräsentationNeuroinformatikp-BlockDreiecksfreier GraphKontextbezogenes SystemMultiplikationsoperatorMessage-PassingMinkowski-MetrikKonzentrizitätSoftwareentwicklerPetaflopsMehrrechnersystemZahlenbereichRechter WinkelComputeranimation
WellenpaketMomentenproblemCoxeter-GruppeSchnittmengeDomain <Netzwerk>Natürliche ZahlPufferüberlaufKeller <Informatik>ComputeranimationVorlesung/Konferenz
WellenpaketMaßerweiterungMereologieAbfrageInternetworkingSchnittmengeUnüberwachtes LernenEndliche ModelltheorieSelbstrepräsentationPufferüberlaufGüte der AnpassungÄhnlichkeitsgeometrie
DatenfeldInformationOrdnung <Mathematik>Information RetrievalBildschirmfensterHybridrechnerResultanteZahlenbereichToken-RingStrategisches SpielHeegaard-ZerlegungMixed RealityRechter WinkelSprachsyntheseGrenzschichtablösungLokales MinimumVorlesung/Konferenz
CodeFormale SpracheInformationSchwach besetzte MatrixTUNIS <Programm>Quick-SortSchnittmengeEin-AusgabeEndliche ModelltheorieDifferenteSelbstrepräsentationKontextbezogenes SystemNeuronales NetzChord <Kommunikationsprotokoll>Vorlesung/Konferenz
Automatische HandlungsplanungUnrundheitMultiplikationsoperatorFormation <Mathematik>Vorlesung/KonferenzDiagramm
Transkript: Englisch(automatisch erzeugt)