Wie funktioniert OCR? - TIB AV-Portal

Wie funktioniert OCR?

61

Kompetenzwerkstatt Digital Humanities der Universitätsbibliothek Humboldt-Universität zu Berlin

Neudecker, Clemens

Formal Metadata

Title

Wie funktioniert OCR?

Subtitle

Grundlagen, Stand der Technik und aktuelle Herausforderungen

Title of Series

Werkzeug. Zur Praxis computergestützter Forschung in den Geistes- und Kulturwissenschaften

Number of Parts

4

Author

Neudecker, Clemens

Contributors

Banford, Jacqueline

License

CC Attribution 3.0 Germany:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal purpose as long as the work is attributed to the author in the manner specified by the author or licensor.

Identifiers

10.5446/67432 (DOI)

Publisher

Kompetenzwerkstatt Digital Humanities der Universitätsbibliothek Humboldt-Universität zu Berlin

Release Date

Language

Producer

Eckenstaler, Sophie

Schlesinger, Claus-Michael

Production Year

2024

Production Place

Berlin

Content Metadata

Subject Area

Computer Science

Genre

Abstract

Texterkennung (Optical Character Recognition, OCR) ist die Technologie um aus Scans (also Bildern) von Dokumenten digitale, editierbare und durchsuchbare Volltexte zu erzeugen. Sowohl durch Digital Humanities als auch Künstliche Intelligenz steigt der Bedarf von Wissenschaft und Forschung an digitalen Texten. Jedoch ist die Texterkennung, insbesondere für historische Dokumente, noch stets eine sowohl technisch als auch organisatorisch hoch komplexe Aufgabe. Der Vortrag hat daher zum Ziel die Grundlagen, technischen Verfahren und den aktuellen Stand der Entwicklungen im Bereich der OCR vorzustellen um so einen gründlichen Überblick über die Möglichkeiten und Herausforderungen zu geben. Dabei werden neben Ursprung und Geschichte der OCR insbesondere die vielfältigen Verarbeitungsschritte in einem typischen OCR-Workflow, die besonderen Anforderungen von historischem Material sowie aktuelle Forschungsprojekte und technologische Entwicklungen im Zentrum stehen. Clemens Neudecker arbeitet als Forscher, Projektmanager und Library Hacker an der Staatsbibliothek zu Berlin. Er ist dort unter anderem eingebunden in das umfangreiche Verbundprojekt OCR-D. Seine Arbeitsschwerpunkte sind Computer Vision, Natural Language Processing, Machine Learning & Artificial Intelligence und ihr Einsatz in den Bereichen Digitale Bibliotheken und Digital Humanities.

Keywords

Optical Character Recognition (OCR)