Der Fachinformationsdienst Politikwissenschaft - Pollux hat zum Ziel, Politikwissenschaftlern einen fachspezifischen und schnellen Zugang zu forschungsrelevanter Fachliteratur und Informationen zu bieten. Pollux bezieht Daten von verschiedenen Anbietern, unter anderem von BASE, die Metadaten von wissenschaftlich relevanten Repositories zusammenführen und indexieren. Viele BASE-Literaturnachweise sind nicht nach Fachgebieten klassifiziert. Aus diesem Grund haben wir ein Filterungsverfahren entwickelt, das in der Lage ist, politikwissenschaftlich relevante Einträge aus der großen Menge von BASE-Metadaten zu erkennen und herauszufiltern. Dieses Verfahren besteht aus verschiedenen Modulen, um Einträge mit unterschiedlichen verfügbaren Metadaten (z.B. Zusammenfassung oder Schlüsselwörter) zu erfassen. Die beiden Hauptmodule sind sogenannte harte und weiche Filter. Der harte Filter ist ein schlagwortbasierter Filteransatz, für den wir 65 Schlüsselwörtern entwickelt haben. Dieses Modul wird auf die Einträge angewandt, die keine vollständigen Zusammenfassungen haben, und daher wird der Filter auf den Titel des Eintrags und die Schlüsselwörter angewandt, wenn letztere verfügbar sind. Der weiche Filter verwendet ein BERT-basiertes Klassifizierungsmodell, das für die Erkennung wissenschaftlicher Artikel aus dem Bereich der Politikwissenschaft trainiert wurde. Das Modell ist in der Lage, zwei Klassen von Einträgen zu erkennen: aus den Bereich Politikwissenschaft oder andere wisschenschaftliche Domäne. Das Modell wurde auf englische Zusammenfassungen wissenschaftlicher Artikel “fine-tuned”, weshalb der Filter auf den Titel und die Zusammenfassung des Eintrags angewendet wird. Beide Verfahren zeigten gute Ergebnisse bei der Erkennung von politikwissenschaftlich relevanten Einträgen aus einer Sammlung von multidisziplinären wissenschaftlichen Artikeln. In dem Beitrag würden wir das Filterungsverfahren beschreiben und demonstrieren. |