Wie funktioniert OCR?
This is a modal window.
Das Video konnte nicht geladen werden, da entweder ein Server- oder Netzwerkfehler auftrat oder das Format nicht unterstützt wird.
Formale Metadaten
Titel |
| |
Untertitel |
| |
Serientitel | ||
Anzahl der Teile | 4 | |
Autor | ||
Mitwirkende | ||
Lizenz | CC-Namensnennung 3.0 Deutschland: Sie dürfen das Werk bzw. den Inhalt zu jedem legalen Zweck nutzen, verändern und in unveränderter oder veränderter Form vervielfältigen, verbreiten und öffentlich zugänglich machen, sofern Sie den Namen des Autors/Rechteinhabers in der von ihm festgelegten Weise nennen. | |
Identifikatoren | 10.5446/67432 (DOI) | |
Herausgeber | ||
Erscheinungsjahr | ||
Sprache | ||
Produzent | ||
Produktionsjahr | 2024 | |
Produktionsort | Berlin |
Inhaltliche Metadaten
Fachgebiet | ||
Genre | ||
Abstract |
| |
Schlagwörter |
00:00
Optische ZeichenerkennungReihePixelMaschinelles SehenFourier-EntwicklungSoftwareGoogleMaschinelles LernenAutomatSoftwareZeichenerkennungSchriftzeichenerkennungProgrammiergerätInhalt <Mathematik>Maschinelles LernenNeuronales NetzNumerisches GitterInternetPixelNoten <Programm>Voting <Programmierung>ZoomOpen SourceGenerizitätGoogleDatensatzDatenstrukturFormale SpracheSprachsyntheseProgrammierungTechnische OptikBildschirmfensterAggregatzustandAlgorithmische ProgrammierspracheBitGarbentheorieGeradeHochdruckInformationsverarbeitungKugelProjektive EbeneResultanteTermVirtuelle MaschineFlächeninhaltInternetworkingBasis <Mathematik>Prozess <Informatik>DatenfeldFormation <Mathematik>Notepad-ComputerPolarkoordinatenLesen <Datenverarbeitung>Web-SeiteSpiegelung <Mathematik>Charakteristisches PolynomWeb SiteSchreib-Lese-KopfDifferenteSelbstrepräsentationNeuroinformatikMultiplikationsoperatorVolltextDigitale PhotographieSchreiben <Datenverarbeitung>Rechter WinkelComputeranimation
08:45
SchriftzeichenerkennungMaschinelles LernenProject <Programm>XMLIMPACT <Programmierumgebung>ACCESS <Programm>Lesen <Datenverarbeitung>SignaldetektionWorld Wide WebPRINCE2DatensatzDatenstrukturInformationSoftwareProgrammierungProgrammbibliothekDigitalisierungProdukt <Mathematik>SchriftzeichenerkennungGrenzschichtablösungBelegleserGeradeHochdruckKoordinatenMereologieProjektive EbeneResultanteNeuronales NetzParametersystemCASE <Informatik>Prozess <Informatik>DatenfeldPunktOffene MengeLesen <Datenverarbeitung>Web-SeiteKartesische KoordinatenStammdatenDateiformatFraktalgeometrieKonditionszahlDifferenteKontrast <Statistik>NeuroinformatikMultiplikationsoperatorVolltextDigitale PhotographieInterface <Schaltung>PackprogrammThe European LibrarySoftwareentwicklerEinsPhysikalische GrößeSoftwareentwicklungDruckverlaufARCHIVE <Programm>Scope <Programmierung>PortscannerComputeranimationXML
17:30
PRINCE2Coin <Programmiersprache>DigitalisierungGoogle BücherDämpfungDatenstrukturInformatikOrdnung <Mathematik>SoftwareProgrammbibliothekDigitalisierungMAPSchriftzeichenerkennungAlgorithmische ProgrammierspracheBitGeradeHochdruckInhalt <Mathematik>Materialisation <Physik>MereologiePaarvergleichRandverteilungTabelleVirtuelle MaschineZusammengesetzte VerteilungDatenflussFlächeninhaltFontRuhmasseCASE <Informatik>Prozess <Informatik>RobotikElektronische UnterschriftWellenlehreVarietät <Mathematik>Wort <Informatik>Lesen <Datenverarbeitung>Shape <Informatik>FokalpunktData MiningSichtenkonzeptKonditionszahlExtreme programmingDifferenteKontrast <Statistik>Web logMultiplikationsoperatorRechter WinkelPortscannerRoboterPhysikalische GrößeAbteilung <Mathematik>DruckverlaufMischung <Mathematik>Google BücherComputeranimation
26:15
XMLCodeSchriftzeichenerkennungFontUnicodeABEL <Programmiersprache>CHILL <Programmiersprache>GABI <Programm>AlgorithmusBildgebendes VerfahrenFormale SpracheMAPSchriftzeichenerkennungDialektFaserbündelGlobale OptimierungAlgorithmische ProgrammierspracheBelegleserBildschirmmaskeBitGeradeHochdruckInhalt <Mathematik>Kette <Mathematik>MaschinencodePhysikalisches SystemResultanteTabelleWellenformWinkelZahlenbereichFlächeninhaltEinflussgrößeFontBasis <Mathematik>CASE <Informatik>Prozess <Informatik>KrümmungsmaßAdditionVerzerrungstensorModul <Datentyp>PixelUnicodeWort <Informatik>Web-SeiteRahmenproblemGraphfärbungVorzeichen <Mathematik>Open SourceDifferenteKontrast <Statistik>p-BlockSymboltabelleMinimalgradStandardabweichungTVD-VerfahrenRechter WinkelPortscannerSoftwareentwicklerAutomatSoftwareCodierungSoftwareentwicklungKrümmungEbeneGRADEKettenregelSonderzeichenVerzerrungModularitätSystems <München>DigitalisiererComputeranimation
35:54
SchriftzeichenerkennungBenutzeroberflächeDatenstrukturTypentheorieNeuronales NetzKlasse <Mathematik>PixelWeb-SeitePhysikalische GrößeFunktionalGeradep-BlockComputeranimation
36:51
SchriftzeichenerkennungDichte <Physik>Gesetz <Mathematik>RundungLESSchriftzeichenerkennungDichte <Physik>PixelGeradePhysikalisches SystemWeb-SeiteAlgorithmusBildgebendes VerfahrenInformationSoftwareProgrammbibliothekWellenpaketMAPTotal <Mathematik>AggregatzustandAlgorithmische ProgrammierspracheBildschirmmaskeDifferentialGarbentheorieMaschinencodePaarvergleichResultanteZahlenbereichNeuronales NetzRuhmasseGewicht <Ausgleichsrechnung>CASE <Informatik>Prozess <Informatik>FehlermeldungAdditionSchnittmengeEin-AusgabeMultifunktionFramework <Informatik>Vorzeichen <Mathematik>Charakteristisches PolynomEndliche ModelltheorieKontextbezogenes SystemMultiplikationsoperatorStandardabweichungRechter WinkelMusterspracheDatensatzReiheCodierungGewicht <Mathematik>KanteMustervergleichComputeranimationXML
44:08
SchriftzeichenerkennungAgent <Informatik>ZeichenketteECCE <Programm>Ordnung <Mathematik>ReiheZeichenketteBerechnungDigitalisierungSchriftzeichenerkennungAbbildung <Physik>EbeneGruppoidInhalt <Mathematik>MISSStruktur <Mathematik>Token-RingKlasse <Mathematik>Strich <Typographie>Content <Internet>AlgorithmusAnalysisBildgebendes VerfahrenDatenstrukturSchaltnetzTypentheorieMAPGarbentheorieGeradeGreen-FunktionInterpretiererKette <Mathematik>LeistungsbewertungResultanteTeilmengeZahlenbereichDatenflussFlächeninhaltNichtlinearer OperatorAbstandCASE <Informatik>FehlermeldungDatenfeldFormation <Mathematik>PunktWort <Informatik>Lesen <Datenverarbeitung>Web-SeiteMultifunktionFramework <Informatik>BitrateWhiteboardDifferenteRechenbuchNeuroinformatikObjekt <Kategorie>Element <Gruppentheorie>StandardabweichungOverlay-NetzMessage-PassingInverseRechter WinkelXMLComputeranimation
50:56
PixelBildgebendes VerfahrenOrdnung <Mathematik>GarbentheorieGruppenoperationElektronischer ProgrammführerElement <Gruppentheorie>InformatikSoftwareRekursive FunktionProjektive EbeneResultanteTermComputeranimation
52:36
HTTPSchriftzeichenerkennungUnicodeInternetARCHIVE <Programm>Google BücherText Encoding InitiativeVolltextACCESS <Programm>Formation <Mathematik>InformationDateiSonderzeichenE-MailWINDOWS <Programm>ServerUnicodeHomepageData MiningXMLGoogleAnalysisDatenstrukturFolge <Mathematik>Syntaktische AnalyseProgrammbibliothekDigitalisierungDialektBitGruppenoperationHochdruckProjektive EbeneResultanteVirtuelle MaschineFlächeninhaltProzess <Informatik>Coxeter-GruppePunktCodierung <Programmierung>QuaderLesen <Datenverarbeitung>Web-SeiteDateiformatFramework <Informatik>SchnelltasteVorzeichen <Mathematik>Elektronische PublikationSichtenkonzeptDifferenteKontextbezogenes SystemStandardabweichungComputeranimation
56:45
Computeranimation
Transkript: German(automatisch erzeugt)
00:05
Ja, vielen Dank für die Einladung und Ankündigung und auch von mir nochmal herzliches Willkommen für die Anwesenden hier vor Ort und auch da oben im Internet. Genau, also ich beschäftige mich jetzt auch schon seit meinen Studienzeiten,
00:22
also jetzt tatsächlich auch schon seit 20 Jahren mit dem Thema OCR-Texterkennung. Und ja, würde mal versuchen sozusagen, das alles, was ich da als relevant erachte, von nicht ganz Anna und Eva, aber fast bis zu den heutigen Bleeding Edge Technologien
00:41
und Verfahren mal so in eine knappe Stunde für sie zu komprimieren. Ups, und gleichzeitig auch noch hier irgendwie das Zoom auszublenden. Ja, erstmal zur Begriffstdefinition, also was ist OCR?
01:02
Steht also für Optical Character Recognition. Und da möchte ich gleich mal dazu sagen, das Ganze ist so ein bisschen nicht mehr ganz zutreffend, denn die heute eingesetzten Verfahren, die so auf maschinellem Lernen noch in den Netzen beruhen, die arbeiten eigentlich nicht mehr mit einzelnen Zeichen, sondern die arbeiten sogar direkt mit ganzen Zeilen. Kommen wir aber später nochmal drauf.
01:23
Es gibt da noch so ein paar verwandte Begriffe, die so in der gleichen Sphäre rumschwirren. ULR, Optical Layout Recognition. Da geht es sozusagen darum, das Layout, die Struktur einer Seite zu analysieren. Ist aber jetzt kein Begriff, der so aus der Fachcommunity, aus der Wissenschaft kommt, hat eher damit zu tun, dass Fraunhofer das mal so ein bisschen gemarketet hat.
01:44
Optical Music Recognition. Da geht es dann darum, sozusagen Noten zu erkennen und in digitale Repräsentation zu überführen. Sie haben vielleicht auch schon mal gehört von der HTR, der Handschriftenerkennung. Also das ist sozusagen einer der großen Durchbrüche der letzten Jahre, dass eben auch Handschriften mittlerweile automatisiert relativ gut vom Computer erkannt werden können.
02:05
Was diesen ganzen Durchbruch, den ich dann gleich noch detailliert darstellen werde in den letzten Jahren mit dem Deep Learning, mit der KI, auch angestoßen hat für die OCR, für die HTR, war tatsächlich die Automatic Speech Recognition. Fast alle haben irgendwie so ein Gerät und die großen Technologiekonzerne haben da eben sehr viel Geld rein investiert,
02:25
damit sie da ihre digitalen Assistentinnen drin haben, mit denen sie quasi sprechen können, die sie verstehen, die Fragen beantworten. Und das sind letztendlich diese Technologien sehr stark vorangetrieben worden, von denen dann auch diese anderen Bereiche profitieren.
02:41
Wenn Sie nach OCR googeln und Sie finden Obstacle Course Racing, das hat also absolut gar nichts damit zu tun. Und ich fand es ganz schön, in der Ankündigung fiel schon der Begriff automatische Texterkennung. Also das setzt sich mittlerweile so langsam durch, weil man eigentlich feststellt, zum einen stimmt dieser Begriff der Zeichenerkennung heutzutage eben nicht mehr.
03:00
Und die Technologien für die Handschriften und für die Druckschriftenerkennung, die finden immer mehr zusammen und verschmelzen. Insofern ist eigentlich ein bisschen passenderer generischer Begriff Automatic Text Recognition. Genau, worum geht es grundsätzlich erstmal darum, man hat irgendwie ein Bild, also z.B. ein Scan oder ein Foto von irgendeinem Dokument oder irgendetwas, was eben Text enthält.
03:24
Man möchte jetzt, dass der Computer diesen Text liest bzw. die Pixel umwandelt, eben in irgendwie einen elektronischen Text, der damit einerseits durchsuchbar wird und andererseits natürlich auch editierbar, annotierbar. Ein Nebenprodukt ist dann auch eben durch die Layout-Analyse, wo ich dann nochmal drauf detaillierter eingehen werde, auch eine Strukturierung bzw. Segmentierung der Inhalte der Seite.
03:48
Genau, also einfach nochmal visualisiert, hier z.B. so einen historischen Druck. Und was wir wollen, ist dann eben den Text sozusagen möglichst fehlerfrei elektronisch erkannt.
04:00
Wie gesagt, ich fange nicht ganz bei Adam und Eva an, aber wollte es trotzdem mal kurz erwähnt haben, weil ich es doch ganz interessant finde. Also die ganzen Verfahren haben so vielleicht ihren Ursprung tatsächlich schon vor über 100 Jahren mit dem Optophon. Das war also so ein Gerät, was Sie hier rechts abgebildet sehen, da wurde Licht durchgescheint. Auf der Rückseite war so eine reflektierende Selenium-Schicht.
04:20
Und je nachdem, ob sozusagen auf dem Papier dann was gedruckt war oder nicht, ist unterschiedlich viel Licht durchgekommen, hat ein Signal ausgelöst auf diese Selenium-Schicht und daraus wurden dann akustische Töne, Signale erzeugt und hat letztendlich eben auch dazu gedient, Sägeschädigte ermöglichen, Texte zu lesen. Das wurde dann immer weiter verfeinert.
04:43
Und so richtig industriell kam das Ganze dann eigentlich erst so in den 70ern an den Start. Ray Kurzweil, der da wirklich sehr innovative Ideen vorangetrieben hat und diese Kurzweil Reading Machine erfunden hat, die dann letztendlich so die Grundlage der OCR-Verfahren, wie wir sie auch lange Zeit eingesetzt haben, war.
05:04
Zwischenzeitlich war er, glaube ich, Head of Cognitive Computing bei Google und hat da irgendwas mit Kryogenik vorangetrieben, also so ein bisschen abgedriftet, aber für den Bereich der OCR wirklich ganz wesentliche Beiträge geleistet. Genau in den 80ern hat sich das dann so ein bisschen tatsächlich im großen Stil verbreitet.
05:21
Also Xerox hat die Firma Kurzweil gekauft und angefangen, diese Technologie also in ihre Scanner und Kopierer zu integrieren. Und dann spätestens ab den 90ern ging es los, dass auch Privatanwender in sozusagen OCR einsetzen konnten. Es gab die erste Software, die man sich sozusagen auf Heim-PCs installieren konnte, um OCR durchzuführen.
05:43
Tatsächlich, hier sind so ein paar Screenshots eben von diesen ersten OCR-Tools. Es ist recht witzig, dass die damals eigentlich bekannten Programme sind im Wesentlichen drei gewesen. Mittlerweile sind es ein paar mehr, aber dass alle diese drei eigentlich im Wesentlichen immer noch im Einsatz sind. Und insbesondere Tesseract, das also wirklich 1984 schon auf eine ganz lange Vergangenheit von mittlerweile 40 Jahren zurückblicken kann.
06:08
Zwischendurch mal von Google gefördert, ursprünglich Jule Peckert. Das ist mittlerweile ein Community-betriebenes Open-Source-Projekt und man kann sagen eigentlich immer noch sehr stark konkurrenzfähig mit dem Stand der Technik.
06:23
Genau, und dann hatte ich gesagt, es gab dann irgendwann diesen Durchbruch, unter anderem eben auch durch die Spracherkennung und vor allem diese neuronalen Netze, oder was man eben aus meiner Sicht ein bisschen fälschlich als KI bezeichnet, also maschinelles Lernen. Thomas Breul war damals ein Forscher vom Deutschen Forschungsinstitut Künstliche Intelligenz in Kaiserslautern,
06:46
der als Erster angefangen hat, diese neuronalen Verfahren für die OCR einzusetzen und hat dann die Software Okropus entwickelt oder Okopei, weil sie in Pfeifen geschrieben ist. Und damit unter Beweis gestellt, dass es wirklich damit möglich ist, auch diese historischen Werke fast perfekt zu erkennen.
07:05
Sie sehen das rechts so ein bisschen visualisiert. Im Prinzip, das ist das, was ich eingangs gemeint hatte, diese neuronalen Netze, die gucken quasi nicht jedes einzelne Zeichen an und versuchen das dann mit irgendwelchen Mustern von Buchstaben zu vergleichen, sondern die lesen quasi in so einem Art Fenster einmal die Zeile von links nach rechts durch.
07:23
Das schiebt sich also sozusagen einfach so ein Fenster, so ein Ausschnitt über die Zeile drüber. Und Sie müssen sich vorstellen, jedes Mal, wenn dieser Ausschnitt sozusagen um einen Pixel nach rechts wandert, macht dieses neuronalen Netz eine Aufnahme. Und das ist das, was man so in diesem oberen blauen Feld an der linken Garant sieht.
07:40
Und diese einzelnen Aufnahmen von diesem Fenster, die werden dann nochmal unterteilt in einzelne kleinere Segmente oder Fenster, in denen sich dann eigentlich nur noch so Anhäufungen von vielleicht 16 mal 16 Pixel befinden. Und das sind tatsächlich aber die Merkmale, mit denen das neuronale Netz arbeitet, um dann zu bestimmen, was da steht.
08:01
Genau, von dieser Software Okropus gibt es mittlerweile ein paar Spin-offs. Das ist das Schöne bei Open Source. Leute entwickeln das dann weiter oder machen darauf aufbauend neue Tools. Da wäre zum Beispiel eben Kaken zu nennen, das speziell für arabische Schriften sehr geeignet ist. Oder Kalamari, was für die Frakturschriften besonders gut ist.
08:21
Und auch ein paar neue Verfahren, wie zum Beispiel Voting zwischen den Ergebnissen einführt. Genau, aber wie gesagt, auch Tesseract gibt es immer noch seit 1984 Going Strong. Ray Smith, der das damals auch ursprünglich für HP entwickelt hat, mittlerweile auch bei Google, entwickelt das nach wie vor auch weiter. Wie gesagt, mit Unterstützung aber auch eine relativ aktive Open Source Community.
08:44
Und hat dann eben auch 2016 begonnen, dieses OCR Tool auf dieses Deep Learning Verfahren, diese neuronale Netze umzustellen. Das hat sich also insoweit wirklich durchgesetzt und kann man sagen, die bis dahin eingesetzten Verfahren komplett abgelöst.
09:00
Genau, um das Bild noch zu vervollständigen, es gab dann so ein paar große Projekte Anfang des 21. Jahrhunderts, kann man schon sagen. Das begann mit dem Metadata Engine Projekt, ein Projekt, das geleitet wurde von der Universität Linz. Ein EU Projekt mit Partnern aus mehreren europäischen Ländern. Und was da eigentlich so wichtigste Ergebnisse waren, da war auch damals diese
09:23
Firma Abby dabei, die eigentlich über viele Jahre hinweg so der Platzhirsch war, was die kommerziellen OCR Software angeht und auch viele Bibliotheken eingesetzt wurde. Und die haben damals erstmals eben geschafft, diese OCR Engine für historische Frakturschrift zu trainieren.
09:41
Und da sehen Sie sozusagen rechts mal so ein Beispiel, wie das davor aussah. Und dann eben nach dem Projekt, also davor wurde quasi fast gar nichts erkannt und nach dem Projekt doch schon ziemlich gut. Das Ganze aber eigentlich nur fürs 19. Jahrhundert. Also alles, was noch älter war, war da sozusagen noch nicht im Scope. Ein anderes wichtiges Ergebnis, das in dem Projekt ein XML Format definiert wurde.
10:04
ALTO steht für Analyzed Layout in Text Object. Was eben erstmals auch ermöglicht hat, nicht nur den erkannten Text, sondern eben auch das Layout, also die Struktur Informationen, wo es zum Beispiel eine Überschrift, was ist eine Tabelle, wo ist ein Abschnitt, eine Fußnote, als Teil der OCR Erkennung sozusagen mit zu exportieren, als Information.
10:25
Und das ist nach wie vor das Format, was eigentlich auch in den meisten Bibliotheken in der produktiven Anwendung von OCR zum Einsatz kommt. Es ging dann weiter und für mich so richtig los 2008. Da gab es ein großes EU Projekt, für das ich dann fünf Jahre in die Liederrande gegangen bin, um das mitzuleiten.
10:46
Impact, man hatte damals den großen Wunsch sozusagen, diese ganzen Digitalisate, die schon entstanden sind, aber erst mal eben nur als Scans, als Fotos von Dokumenten endlich auch eben in Maschinen lesbaren, weiter nutzbaren Text zu überführen.
11:02
Vier Jahre, 16 Millionen haben wir verbrannt. Und ich kann dazu sagen, also von den Ergebnissen hier dieses Software Tools, die können Sie alle vergessen. Die sind sozusagen längst überholt. Das war unser Pech, dass wir damals noch zwei, drei Jahre vor diesem großen Durchbruch der maschinellen Verfahren standen.
11:20
Was sich aber erhalten hat, tatsächlich sind diese Datensets. Also es wurden aus zwölf europäischen Bibliotheken repräsentativ historische Drucke ausgewählt, transkribiert, um sozusagen Referenzdaten zu haben, die man einerseits nutzen konnte, um die Softwareentwicklung zu evaluieren, indem man die Ergebnisse vergleicht mit den per Hand erstellten transkribierten Referenzdaten oder um diese eben auch weiterzuentwickeln.
11:45
Und das ist tatsächlich auch zwölf Jahre nach Projektende noch Gold wert. Und es ist ein Kompetenzzentrum entstanden für diese Thematik der OCR, wo sich also interessierte Einrichtungen, Bibliotheken, Archive vernetzen und informieren können.
12:03
Genau, so richtig auf dem Erfolg dieser neuronalen Netze und des Deep Learnings dann aufsetzend war das Projekt READ. Und vielleicht haben einige von Ihnen auch schon mal von Transkribus gehört. Das Ziel von READ war dann eben, sich speziell auf die Erkennung von Handschriften zu konzentrieren
12:22
und hier eben auch diese neuronalen Verfahren erstmals im großen Stil dafür einzusetzen. Und da entstand eben dieses Tool Transkribus, das sehen Sie hier rechts eingeblendet, mit dem man eben tatsächlich in der Lage ist, mittlerweile sehr gut eben auch Handschriften vom Computer erkennen zu lassen.
12:40
Ein Unterschied im Gegensatz zur OCR dabei ist allerdings immer noch, dass man sozusagen für jede Handschrift, für jeden Schreiber oder Schreiberin die Software nochmal nachtrainieren muss, indem man in einem Interface des Transkribus auch bereitstellt, da ein paar Seiten transkribiert. Die füttert man sozusagen dem System und daraus lernt das System dann diese spezifische Handschrift zu erkennen.
13:04
Und das funktioniert schon ab vielleicht 10 bis 20 Seiten relativ gut. Genau, und dann wurde schon erwähnt, gibt es noch ein weiteres großes Projekt hier in Deutschland, gefördert von der Deutschen Forschungsgemeinschaft, OCRD, mit diesem etwas komplizierten Namen
13:22
Koordinierte Förderinitiative zur Weiterentwicklung der OCR. Und hier muss man sagen, der Hintergrund ist im Prinzip der, dass die Deutsche Forschungsgesellschaft also über viele Jahre, über 20 Jahre schon große Digitalisierungskampagnen fördert. Das spricht man hier in Bibliotheken von den VD, das Verzeichnis der deutschsprachigen Drucke,
13:42
quasi die Nationalbibliografie, also alle gedruckten seit Gutenberg erschienenen Werke im deutschsprachigen Raum. Aktuell kalkulieren wir damit ungefähr einer Million Werken, die also mit Förderung der Deutschen Forschungsgemeinschaft digitalisiert wurden, aber eben auch erst mal immer nur gescannt, also abfotografiert, weil man der Auffassung war,
14:03
die Texterkennungstechnologie ist noch nicht weit genug, die Ergebnisse sind noch nicht gut genug, um das einzusetzen. Und ja, passend eben auch mit diesem Aufkommen der neuronalen Netze wurde dann ein neues Förderprogramm aufgelegt, um zu sagen, okay, jetzt ist die Technologie soweit, jetzt fördern wir euch für ein paar Jahre,
14:21
um eben diese neuen technologischen Grundlagen nutzbar zu machen, um dann auch eben diese vielen Werke aus dem 15., 16., 17., 18. Jahrhundert endlich auch zu verarbeiten, um sie als elektronische Texte vorliegen zu haben. Ein Unterschied vielleicht, den ich dann noch herausstellen möchte, OCRD versus zum Beispiel Transcribus,
14:44
es war eben ganz wichtig für die DFG, aber auch für uns und unsere Stakeholder, unsere Nutzenden, dass die Software komplett frei ist, also open source, alles transparent, denn wenn sie wissenschaftlich mit den Ergebnissen weiterarbeiten wollen, dann wollen sie natürlich auch in der Lage sein, diese Ergebnisse der OCR zu reproduzieren
15:02
oder einen Einblick bekommen, wie diese Ergebnisse zustande kamen, mit welchen Verfahren, mit welchen Parametern. Genau. Dann wären wir sozusagen in der Jetztzeit angekommen, und Sie sehen, es gab da große Fortschritte, Durchbrüche, aber wir sind immer noch nicht am Ziel.
15:21
Warum? Na ja, die Herausforderungen, die man so in vier Jahrhunderten Druckerzeugnissen findet, die sind also doch sehr vielfältig und erheblich, und da möchte ich Ihnen jetzt mal so ein paar der Wichtigsten mal vorstellen. Da können wir natürlich erst mal beginnen direkt beim Zustand der Originale. Also oft ist es natürlich so, die historischen Werke, die wurden lange aufbewahrt,
15:44
die wurden irgendwie gelagert, vielleicht wurde das mal irgendwie feucht oder das Papier hat einfach gelitten, und dann haben wir eben sehr viele Werke, so wie hier, ich hoffe, man kann es einigermaßen erkennen, wo das Papier wirklich schon so gewählt ist, und das ist also ein ganz großes Problem für die Texterkennung immer noch.
16:01
Die Zeilen, ich hatte ja gesagt, mittlerweile operiert die OCR-Software auf Zeilen, und da ist es ganz wichtig, dass die einzelnen Zeilen sozusagen möglichst exakt horizontal ausgerichtet sind und möglichst nicht nach oben oder unten ausbrechen. Das führt immer noch zu ziemlichen Problemen bei der Erkennung. Und das tritt eben in den historischen Werken durchaus häufig auf.
16:25
Aber auch sowas haben wir sozusagen im Original, also da sehen wir, da hat einfach sozusagen die Tinte sich ihren Weg gebahnt durch das Papier, und wir sehen eben sehr viel letztendlich von dem Druck der gegenüberliegenden Seite hier durchscheinen. Das wird teilweise auch noch beim Scannen verstärkt, wenn sozusagen die Scanner von oben da Licht drauf werfen.
16:46
Und ja, auch das ist relativ schwierig für die OCR dann sozusagen zu unterscheiden, was ist denn jetzt hier der Text, den ich erkennen soll, und was sind eventuell Artefakte, also Text, der von der gegenüberliegenden Seite durchscheint und den ich hier ignorieren soll.
17:04
Manchmal trifft man natürlich auch auf sowas, also Bibliotheken werden benutzt und dann passiert auch mal, dass irgendwo was abreißt und dann wird das halt wieder zusammengeklebt. Und für uns Menschen ist es relativ unproblematisch jetzt hier festzustellen, was gehört hier zusammen, wie gehört dieser zusammengeklebte Absatz hier gelesen.
17:23
Aber dadurch, dass es eben hier einmal diesen Riss in der Mitte gibt und dann auch diese Krümmung, ist es also für die OCR schon wieder eine ganz schöne Herausforderung. Und sowas natürlich erst recht, ich weiß gar nicht, was hier eigentlich passiert ist.
17:41
Wenn man die historischen Werke anschaut, dann findet man natürlich da auch, ja, böse gesagt, Kritzeleien. Tatsächlich haben wir oft schon gehört, das sind eben gar keine Kritzeleien, sondern oft sind es natürlich bei historischen Werken auch wichtige Annotationen von historischen Persönlichkeiten aus dem Akademie- und Wissenschaftsbetrieb.
18:00
Das heißt, man möchte vielleicht sogar inzwischen auch diese handschriftlichen Annotationen noch erkennen, zum Beispiel mit sowas wie Transkribus oder vergleichbaren Verfahren. Für uns geht es aber jetzt erstmal darum, eben bei der OCR genau diese Bereiche eben auszublenden, der Maschine beizubringen, ja, liest das Gedruckte und ignoriere das andere. Das ist sozusagen für dich erstmal irrelevant, bitte ignorier das.
18:27
Und ja, man stößt eben auch immer auf viel Kreativität, die früher die Drucker und Setzer so mit ihren begrenzten Möglichkeiten ausgeschöpft haben. Also da wird dann eben auch gestalterisch gerne mal experimentiert und verschiedene Schriftarten, verschiedene Schriftgrößen zusammengeworfen.
18:45
Hier eine Mischung auch von Fraktur, Antiqua, Kursiv etc. Und auch das stellt die OCR doch für gehörige Probleme, wenn sie sozusagen von Zeile zu Zeile oder sogar innerhalb einer Zeile mit hier unterschiedlichen Schriftformen konfrontiert wird.
19:02
Genau, hier haben wir auch nochmal so einen extremen Fall von Annotationen. Und je mehr die eben dann auch im Text zwischen den Zeilen stehen, wird es wirklich kritisch eben für diese zeilenweise Erkennung und Analyse, weil dann letztendlich nicht mehr klar unterscheidbar ist, was gehört zur Zeile und was nicht.
19:24
Aber auch bei der Digitalisierung ist nicht immer alles glattgegangen. Also zum einen gibt es natürlich einfach auch bei der Massen-Digitalisierung mal Fehler, die passieren. Früher waren die Scan-Apparate auch noch nicht so gut. Man hat teilweise noch mit Schwarz-Weiß gescannt. Und wenn das halt dann irgendwie nicht richtig ausgeleuchtet war
19:42
oder irgendwie bei der Qualitätskontrolle vergessen wurde, dann passiert auch mal sowas. In dem Fall kann man sagen, da ist dann auch mit der besten OCR nicht mehr viel zu machen. Dann müsste man tatsächlich nochmal neu digitalisieren. Und insbesondere im Bereich der Zeitungen, wo wir hier in Berlin an der Stabilen großen Schwerpunkt haben,
20:01
ist es eben so, dass Zeitungen schon in den 70er-, 80er-Jahren mikroverfilmt wurden und man dann aus Gründen ja letztendlich Kostengründen lieber zum Mikrofilm greift für die Digitalisierung. Den kann man in so speziellen Geräten einfach einlegen. Da ist üblicherweise ein kompletter Jahrgang gebunden von der Zeitung auf Mikrofilm.
20:21
Und der Film läuft dann sozusagen automatisch durch. Es dauert 20 Minuten und man hat das ganze Jahr digitalisiert. Wenn man das sozusagen mit dem Original macht, jede Seite umblättern, muss da jemand sitzen und man ist locker mal einen ganzen Tag beschäftigt. Hat den Nachteil aber, dass eben die Qualität der Scans vom Mikrofilm schlechter ist als vom Original.
20:40
Die Mikrofilme sind zum einen bereits eben selbst in Schwarz-Weiß oder in Graustufen. Und die wurden natürlich auch benutzt und zeigen zum Teil auch Spuren davon. Genau. Und hier sehen wir auch eben wieder mal so einen Fall, wo wir einerseits dieses Durchschein haben. Ein bisschen hier Notizen, da ist noch irgendwie eine Signatur hinzugefügt.
21:01
Und die Wellen und das Ganze ist eben auch hier wieder von der Aufnahme, von der Digitalisierung, vom Kontrast nicht besonders gut. Das ist also irgendwie so alles sehr grau in grau. Und wenn Sie schon mal irgendwie Google Books genutzt haben als Quelle, die machen ja richtig im ganz großen Stil Digitalisierung. Ich konnte das an drei Bibliotheken miterleben.
21:22
Da gehen dann sozusagen logistische Gründe vor allen kuratorischen oder sonstigen Aspekten vor. Und es werden immer auch automatisierte Verfahren von Google eingesetzt, um dann die Scans, die am Gerät entstehen, nochmal zu optimieren. Aber wie gesagt auch hier in der Masse und bei der Vielfalt der Materialien
21:42
kommt es natürlich immer wieder mal zu Fehlern. Und dann entstehen irgendwie solche Dinge oder sowas. Und da gibt es einen Tumblr-Blog, der Art of Google Books, wo also die Community schon seit Jahren die schönsten Beispiele aus den Google Books-Kollektionen sammelt. Und da kriegt man dann eben auch ab und zu so Einblicke, wie ja, es geht, es sind immer noch Menschen am Werk.
22:03
Also die Roboter haben da noch nicht übernommen. Genau, ein häufiges, wirklich ganz kritisches Problem. Ich hatte schon ein paar Beispiele gezeigt, ist hier eben das Shine Through oder Bleed Through. Da kann man eben unterscheiden. In der Fachterminologie Shine Through ist sozusagen, wenn durch die Digitalisierung,
22:23
also durch die Beleuchtung, die Inhalte der gegenüberliegenden Seite durchscheinen. Und Bleed Through ist dann der Fall, wo es sozusagen wirklich einfach durch den Tinten fraß, also die Tinte sich sozusagen durchgearbeitet hat durch das Papier. Vom Erscheinungsbild und von der Behandlung des Problems ist es letztendlich nicht identisch.
22:41
Aber sozusagen der Ursprungsgrund ist ein anderer. Genau, hier nochmal so ein paar Beispiele. Rechts unten kann man sich schon vorstellen, dass die OCR-Technologie dann durchaus auf die Idee vielleicht kommt, diese obere Zeile auch als Text zu lesen. Es ist auch hier in Grau, wenn man sich vorstellt, es war vielleicht im Original. Kann ja auch mal sein, dass da irgendwie was in einer anderen Farbe gedruckt ist.
23:04
Zum Beispiel in roter Tinte, das sieht dann in Graustufen irgendwie ein bisschen wie ein schwächeres Grau aus. Also ist dann für die Software schon relativ schwer, hier noch irgendwie begründet zu entscheiden. Gehört das zum Inhalt oder muss ich mich damit nicht beschäftigen?
23:20
Die größere Herausforderung aber mittlerweile, würde ich sagen, ist gar nicht mehr die Texterkennung selbst, sondern eben genau diese Vorstrukturierung und eben auch das Extrahieren dieser einzelnen Zeilen und insbesondere überhaupt komplexere Layouts zu erfassen und dann digital auch richtig wiederzugeben. Da haben wir also auch wirklich schöne kreative Beispiele hier mit diesen vier Blöcken, Marginalien und diesem Text in der Mitte.
23:45
Historische Tabellen, hier saßen wir also auch lange zusammen mit den Kolleginnen und Kollegen aus den Abteilungen Historische Drucke und unseren Informatiker-Kollegen, aber wir haben dann doch entschieden, tatsächlich handelt es sich um eine Frühform von drei Tabellen hier auf der rechten Seite
24:00
und da dann sozusagen auch die Zuordnung der Spalten und Zeilen richtig digital wiederzugeben. Das ist dann bei den Gestaltungsvarianten gar nicht so einfach. Genau, aber wie gesagt, es wurde eben auch früher mit den begrenzten Mitteln schon ganz kreativ am Design gearbeitet und wir finden eben auch hier sowas, also mit diesem Kreuz aus dem Text und diesem Dachartig schräg angeordneten,
24:29
drunter ist auch nochmal eine Tabelle, auch hier haben wir wieder unterschiedlich Antiquar und Fraktur, also es ist immer wieder erstaunlich eben, wenn man sieht einfach diese Vielfalt von Materialien.
24:44
Eine ganz besondere Herausforderung für diese Layout-Erkennung oder Strukturierung sind auch hier wieder die Zeitungen, denn die sind zum einen oft auf billigem Papier gedruckt, das ist entsprechend schon oft in keinem besten Zustand mehr oder sie wurden eben dann auf Mikrofilme auch aufgenommen, schon dort digitalisiert.
25:04
Sie sind unheimlich eng bedruckt, weil eben auch man versucht hat, das möglichst günstig zu machen, möglichst viel Inhalt auf die Seite zu bringen. Und wenn es jetzt hier darum geht sozusagen die einzelnen Spalten voneinander abzutrennen und die einzelnen Absätze, dann kommt so mit aktuellen Verfahren ungefähr sowas raus und das führt dann zu Problemen,
25:23
denn selbst wenn Sie sich vorstellen jetzt hier, Sie gucken sich für die OCR sozusagen diese blau markierten Bereiche an und fangen an die Texte darin zu erkennen, selbst wenn jedes Wort in dem Text richtig erkannt ist, haben Sie das Problem, dass quasi die ersten beiden Spalten sozusagen vermischt werden und die OCR-Software liest dann sozusagen die erste Zeile der ersten Spalte, die erste Zeile der zweiten Spalte,
25:47
dann wieder die zweite Zeile der ersten Spalte und so kann sozusagen der Text zwar richtig erkannt sein, aber der Lesefluss und der Inhalt ist eigentlich kaputt und damit ist eine nachträgliche Auswertung maschinell, Text- und Data-Mining oder sowas eigentlich nicht mehr möglich.
26:03
Was wir wollen ist sowas hier, das ist sozusagen per Hand erstellt und ja, da ist der Weg sozusagen immer noch weit, da können durchaus noch einige Informatiker ihre PhDs dran abarbeiten. Genau, das sind so Probleme, die so auf der Bildebene und der Gestaltungsebene sind,
26:22
aber wir haben natürlich speziell im Deutschen auch noch die sprachliche Ebene und da natürlich braucht man gar nicht mal so weit zurückgehen, bis ins letzte Jahrhundert natürlich verschiedene Rechtschreibreformen und wenn wir dann noch weiter zurückgehen ins 19., 18. oder 17. Jahrhundert, dann gibt es natürlich überhaupt keine standardisierte Autografie.
26:43
Es gibt zum Teil eben parallel existierende, historisierende Schreibweisen, also sehr häufig findet man eben diese EI statt EI EY oder eben TH statt T heute und wir haben natürlich den Anspruch und den stellen auch die wissenschaftlichen Nutzer in uns,
27:02
dass wir hier die Dokumente tatsächlich elektronisch auch so wiedergeben, wie sie gedruckt stehen. Also genau diese historischen Schreibformen eben nicht modernisieren, normalisieren, sondern genauso wiedergeben, wie sie im Original sind. Und das Ganze wird eben durchaus auch auf der Ebene der einzelnen Zeichen tricky,
27:23
denn ja, da haben wir eben diese historischen Zeichen auch, wie zum Beispiel das lange S kennen Sie sicher alle, was dann oft für ein F gehalten wird von der Software oder hier eben Umlaute, die dann zum Teil eben nicht mit diesem Pünktchen, Doppelpünktchen dargestellt werden, sondern mit dem darübergestellten E und das gibt es auch in allen Varianten.
27:42
Also dieses E, das kann auch sozusagen noch verschieden rotiert sein um 45, um 90 Grad. Und hier geht es eben dann darum, für diese Sonderzeichen auch eine entsprechende digitale Kodierung zu finden, die dann auch möglichst standardisiert nachgenutzt werden kann. Da gibt es den Unicode-Standard, der eigentlich so für alle global verwendeten Zeichen
28:03
und Schriftsysteme eine normierte Kodierung zur Verfügung stellt. Aber selbst in diesem Unicode-Standard sind also nicht alle diese historischen Zeichen enthalten. Wir haben also geguckt und die Medieval Unicode-Fond Initiative gefunden. Das ist eine Community von MedievistInnen, die da eben auch viele dieser
28:23
historischen Zeichen aus Manuskripten, Handschriften extrahieren und für eine Standardisierung vorbereiten. Mit denen haben wir uns abgestimmt, aber auch da sozusagen sind nicht alle Zeichen enthalten gewesen, die wir in den historischen Drucken bisher gefunden haben. Wir mussten also zum Teil auch selbst noch eigene Kodierungen festlegen
28:43
und wollen die dann in die Medieval Unicode-Fond Initiative einbringen, die das dann sozusagen für die Standardisierung als Unicode vorbereiten. Das ist ein Prozess, der problemlos mal fünf bis zehn Jahre dauern kann. Also das sind dann so Dinge, die neben der Softwareentwicklung her auch noch passieren müssen,
29:02
damit das Ergebnis akkurat und qualitativ hochwertig ist. Damit komme ich so zum nächsten Block und möchte mal, das ist eigentlich so wahrscheinlich das Wichtigste, was ich Ihnen mitgeben will,
29:20
sagen, also eine OCR ist sozusagen kein einfacher in sich geschlossener Prozess, sondern, und darum geht es uns genau, in OCRD mit den Open Source Variationen auch mit der Modularität zu zeigen. Es gibt hier sozusagen verschiedene Verarbeitungsschritte. Ganz links kann man sagen alles, was Bildverarbeitung, Bildoptimierung ist.
29:43
Ich gebe gleich Beispiele. Dann in der Mitte eben dieser Prozess der Layouterkennung oder Segmentierung und dann erst die eigentliche Texterkennung. Und innerhalb jeder dieser Bereiche finden wieder einzelne Unterprozesse statt. Und sehr häufig ist es eigentlich die größte Herausforderung, da den richtigen Weg, die richtige Kette oder wir sprechen da eben den richtigen Workflow zu finden,
30:04
der dann für das jeweilige Dokument tatsächlich auch die besten Ergebnisse liefert. Und das ist eben auch alles andere als trivial, weil wie wir gesehen haben, eine Zeitung vielleicht eine ganz andere Verarbeitungskette von Algorithmen benötigt als jetzt eine Inkonabel zum Beispiel.
30:23
Genau, ich bin schon von der Zeit relativ vorgeschrieben. Ich gebe mal ein bisschen mehr Gas. Also eine Sache, die man machen kann, hier ist so eine Schriftarterkennung, um der OCR erstmal zu sagen, was hast du denn hier überhaupt vor dir? Ist das irgendwie griechisch, ist das Faktur oder was ist das, damit sich die OCR sozusagen auch nochmal besser darauf einstellen kann.
30:41
Was aber ganz wichtig ist, ist tatsächlich immer noch, ja bitte, das passiert auf der Basis des Scans. Also nach dem Scannen wird sozusagen der Algorithmus einfach auf die Scans losgelassen
31:00
und er kennt noch nicht wirklich den Text, aber er sagt okay, das ist diese Schrift. Und dann können wir der OCR sagen, das ist aber mittlerweile fast schon nicht mehr nötig, würde ich behaupten, hier handelt es sich um diese Schrift. Guck mal, hast du dafür, hast du diese Schrift schon gelernt, dann erinnere dich bitte daran, genau diese Schrift sozusagen zu erkennen.
31:20
Das kann man bei der Erkennungsleistung nochmal ein bisschen verbessern. Ist aber mittlerweile eigentlich so, dass zumindest im Bereich der Druckschriftenerkennung im Gegensatz zu den Handschriften dieser Schrift eigentlich weggefallen ist. Also die Systeme sind mittlerweile so gut generisch, dass es nicht mehr darauf ankommt, selbst ob es jetzt eine Antiquarschrift ist oder eine gebrochene Schrift,
31:40
man kann das einfach dem Algorithmus vorlegen und er kennt es gleich gut. Entschuldigung, Entschuldigung, bitte. Danke. Genau, dann mache ich mal gleich schnell weiter, dass wir auch fertig werden.
32:10
Was tatsächlich eben noch immer noch ein ganz elementarer Schritt ist, ist eben die Binarisierung. Das heißt erst mal das Vorbereiten des Bildes für die darauffolgenden Schritte
32:21
und in dem Fall eben Binarisierung meint wirklich das Umwandeln in ein Bild, was nur noch schwarze oder weiße Pixel enthält. Das dient eben dazu, dass dann später die OCR-Erkennung, die Texterkennung wirklich einen möglichst starken Kontrast hat und alles, was eigentlich für sie irrelevant ist, Hintergrund oder Schmutz oder Durchscheine der Text von der anderen Seite wird weiß und nur noch die Inhalte, die tatsächlich zu erkennen sind, bleiben schwarz.
32:44
Und das dient eben tatsächlich dazu, dann solche Probleme, wie wir sie vorher gesehen haben, hier zum Beispiel eben, wo das Papier so ein bisschen an ein paar Stellen verschmutzt ist, zu beheben. Und das funktioniert eben mittlerweile auch mit neueren nahen Verfahren so gut, dass wir sehen, hier dieser Fleck am linken Rand, der wurde also entfernt.
33:01
Trotzdem wurde aber der dahinterliegende Text oder sich damit überschneidende Text nicht entfernt, sodass der eben nach wie vor von der Texterkennung erkannt und gelesen werden kann. Genau, hier springe ich mal ein bisschen schneller. Das passiert eigentlich mittlerweile alles schon direkt beim Digitalisieren im Scanner. Man macht quasi von oben so eine Aufnahme und hat dann immer das Buch aufgeklappt,
33:22
also zwei Seiten, die müssen dann nochmal aufgetrennt werden, ist aber eine Geschichte, die eigentlich mittlerweile schon die meisten Scanner von Haus aus mitbringen oder man setzt dann eben, wie Sie links sehen, hier so einen Rahmen und damit ist das quasi erledigt. Manchmal muss man dann auch das Bild nochmal ein bisschen kroppen für die OCR-Verarbeitung,
33:42
weil irgendwie jetzt hier zum Beispiel von dem Scannertisch oder der Auflage sozusagen der Hintergrund zu sehen ist und vielleicht stört oder man hat irgendwie ein Denial oder so eine Farb- oder Color-Messung mitdigitalisiert und von der gegenüberliegenden Seite guckt vielleicht noch ein bisschen was mit rein. Das möchte man eben auch so möglichst ausschneiden, dass alles, was eben die OCR stören könnte, eigentlich entfernt wird.
34:07
Manchmal sind die Scans auch ein bisschen schief oder einfach durch das Aufklappen durch den Buchfalls ergibt sich so eine Krümmung oder Verzerrung im Inneren. Auch das kann man relativ leicht eigentlich mit relativ simplen Verfahren korrigieren, indem man hier den Winkel berechnet und das dann entsprechend gerade zieht.
34:25
Kompliziertere Fälle sind die, wie wir es eingangs gesehen haben, wo zum Beispiel das Papier eben wirklich so eine Wellenform hat, die dann auch an unterschiedlichen Stellen der Seite unterschiedlich ausgeprägt ist. Da kann man hier zum Beispiel so ein Netz dann drüber ziehen. Man versucht das dann die horizontalen Linien an der Grundlinie der einzelnen Zahlen auszurichten
34:46
und dann letztendlich aus diesen Vier-Ecken-Quadrate zu machen und dann dadurch sozusagen die Seite glatt zu ziehen. Frage war, ob das manuell oder automatisch ist. Das passiert tatsächlich automatisch.
35:04
Genau, dann komme ich so zu dem mir ganz wichtigen Bereich eben, der Layout-Analyse, also Segmentierung. Das heißt erst mal feststellen, was sind überhaupt für Inhalte auf der Seite und wie muss ich die gegebenenfalls spezifisch weiterverarbeiten. Ich sage mal hier erst kurz, der traditionelle Ansatz war eben so,
35:22
erst mal hier Textblöcke oder Regionen zu erkennen, die dann weiter zu unterteilen in einzelne Zeilen, die Zeilen in Wörter und die Wörter in Zeichen. Und das Ganze kann eben auch durchaus kompliziert werden, wenn wir hier zum Beispiel Bildinhalte auch haben, die sich dann mit dem Text so ein bisschen überschneiden oder einbetten.
35:44
Und dann braucht man eben hier schon relativ komplizierte polygonale Strukturen, also Vielecke, um die entsprechend zum Grenzen und voneinander auch abzutrennen. Heute funktioniert es eben so, dass mittlerweile auch neuronale Netze dafür eingesetzt werden.
36:00
Die gucken sich die Seite an und was das neuronale Netz sieht, sehen Sie jetzt auf der rechten Seite. Das ist eine sogenannte Pixel-Klassifizierung. Das heißt, es guckt jeden einzelnen Pixel an und ordnet diesen einen dieser sieben Klassen zu, die wir hier am rechten Bildrand sehen. Also Hintergrund, Haupttext, Überschrift etc. Und bildet dann aus diesen einzelnen Pixeln größere Haufen von Pixeln,
36:22
die dann immer einen dieser Strukturklassen oder Strukturtypen zugeordnet werden. Eine ähnliche Funktion gibt es dann eben auch bei der Textzeilensegmentierung. Also dann aus den Textblöcken und Paragrafen die einzelnen Zeilen zu extrahieren.
36:40
Da geht es dann letztendlich nur darum, eine binäre Klassifikation zu machen. Also gehört dieser Pixel zum Hintergrund oder gehört dieser Pixel zu einer Textzeile? Und dann kann man relativ gut feststellen über die Seite hinweg, indem man einfach die Dichte der Pixel misst. An welcher Stelle befinden sich Pixel? Da ist die Dichte relativ gering.
37:02
Und dort, wo sich viele Pixel befinden, ist die Dichte hoch. Dort habe ich es also wahrscheinlich mit der Textzeile zu tun. Und so gelingt es dann, die einzelnen Zeilen voneinander abzutrennen. Und diese werden dann sozusagen erst für die Texterkennung dem eigentlichen OCR-System vorgelegt.
37:21
Genau, das überspringe ich mal ein bisschen. Das ist also alles schon Vergangenheit. Wie gesagt, die einzelne Zeichenerkennung, die ist vorbei. Und damit auch viele Probleme, die es damals gab, sozusagen hier mit dem Unterscheiden der einzelnen Zeichen. Hier sind so typische Dinge. Hier sind zum Beispiel W, wurde für Rn gehalten.
37:40
Oder Rn für ein M, 2 Is für ein N. Und diese Probleme fallen eigentlich jetzt dadurch weg, dass nicht mehr einzelne Zeichen, sondern immer der ganze Kontext der Zeile betrachtet wird. Genau, traditionell gab es da eben so einen Mustervergleich auf Buchstabenebene. Nach verschiedenen Merkmalen, auch Merkmalen, die dazu dienen,
38:02
bestimmte Buchstaben auch voneinander zu unterscheiden. Und heute funktioniert das Ganze so. Guck mal, wie viel Zeit ich noch habe, nicht mehr viel. Ich versuche es mal trotzdem kurz darzustellen. Was Sie hier sehen, ist so eine ganz vereinfachte Form von so einem neuronalen Netz oder genau so einem Modell.
38:24
Und was jetzt hier passiert, wir haben jetzt hier links so ein Input. Das ist zum Beispiel dann eben das Bild einer Textzeile. Und rechts wollen wir dann den erkannten Text dieser Zeile rausbekommen. Und was wir dazu tun, ist, wir trainieren dieses neuronale Netz. Das heißt, wir erst einmal Daten durch Transkription, in dem Fall 300.000 Zeilen,
38:43
also schon relativ umfangreiche Mengen von Daten. Und dann wird diesem Netz sozusagen der Reihe nach werden diese Paare vorgelegt von einem Bild einer Textzeile. Das ist die Eingabe. Und dann wird das, so wie wir es am Anfang gesehen haben,
39:01
wird diese Textzeile eben zerteilt in einzelne Ausschnitte von Pixelhäufchen. Und jetzt jedes dieser Reise, das sind also Neuronen in diesem Netz, die hier in dem Fall drei Schichten. Tatsächlich in der Realität sind es hunderte oder tausende solcher Schichten.
39:20
Jede dieser Neuronen wird sozusagen eins dieser Pixelhäufchen gezeigt. Das rechnet darauf irgendwas und gibt dann die Information weiter an die nächste Schicht. Die rechnet weiter und gibt es an die nächste Schicht und so weiter, bis wir einmal durch dieses ganze Netz durchgelaufen sind, von rechts nach links. Und dann kommt zum Beispiel für die Textzeile Texterkennung rechts raus irgendwie Blasenentzündung.
39:46
Und wir stellen fest, wir haben da noch einen Error, also einen Fehler. Das heißt, das erkannte Ergebnis weicht von dem Ergebnis ab, das wir erkennen, durch die Transkription für diese Zeile. Dann wird dieser Fehler berechnet, also wie weit weicht es ab, um wie viele Buchstaben, um wie viele Wörter.
40:02
Und der Algorithmus fängt nochmal von vorne an. Jetzt allerdings passiert das, was hier oben steht, adjusting the weights. Also die Gewichtung, die quasi diese Kanten darstellen, also wo ein Neuron Informationen an das nächste Neuron weitergeht, die wird verändert.
40:21
Und dann läuft wieder die Information durch das komplette Netz durch. Und man vergleicht wieder, was am Ende rauskommt. Und jetzt ist der Fehler, also die Abweichung vom erwarteten Ergebnis, entweder kleiner geworden oder größer. Und je nachdem werden diese Gewichte wieder neu eingestellt. Und das Ganze passiert so lange, bis dieser Fehler einfach nicht mehr kleiner wird. Also man entweder tatsächlich den korrekten Text erkennt
40:43
oder vielleicht noch eine Abweichung in einem oder zwei Zeichen existiert. Und dann braucht man gegebenenfalls einfach zusätzliche weitere Trainingsdaten, um diesen Fehler noch mal weiter zu reduzieren. Und so lernt sozusagen dieses neuronale Netz selbstständig einen Weg,
41:01
um von der Eingabe, also dem Bildausschnitt der Textzeile, zu dem erkannten Text zu kommen. Und das, was letztendlich dann die KI ist oder das Modell, sind letztendlich diese Gewichte zwischen diesen einzelnen Schichten und Neuronen. Soviel an der Kürze. Glauben Sie mir, es funktioniert. Um es zu zeigen, hier ist mein Beispiel.
41:21
Das war also hier mal so ein Textausschnitt. Und links sehen wir also mit der Testeract-Software noch vor diesen neuronalen Netzen das Erkennungsergebnis. Es sind genau 100 Zeichen. Davon sind 15 hier im linken Beispiel falsch. Also 15 Prozent Zeichenfehlerrate, character error rate. Und rechts sehen wir das aktuelle Ergebnis mit der OCAD-Software, mit den aktuellen Verfahren.
41:45
Und hier haben wir also nur noch einen einzigen Fehler, dass dieses Komma hier eben als Slash erkannt wurde. Und wo ich auch schon mal darauf hinweisen möchte, Sie sehen hier zum Beispiel wie sonst nicht hier gewöhnlich. Hier wird also dieses lange S auch entsprechend als langes S erkannt
42:01
und auch digital in der Kodierung so wiedergegeben. Es steht also hier nicht das normale kleine S, wie wir es heute schreiben, sondern dieses dem F visuell sehr ähnliche lange S als entsprechendes Unicode-Zeichen. Das ist also wirklich korrekt und entspricht dem Originaldruck.
42:20
Das Ganze ist möglich, muss man sagen, auch wirklich aufgrund einer Community, die sich da sehr engagiert hat und einen Datensatz erstellt hat. Ground Truth GT for Historical OCR. Ein Datenkollege von der Bayerischen Staatsbibliothek hat sich einfach mal im Rahmen von so einem Hackathon hingesetzt, ein kleines Tool entwickelt, wo man so einzelne Textzeilen
42:42
aus Büchern angezeigt bekommen hat und die dann transkribieren konnte. Und so sind insgesamt eben 300.000 solcher Transkriptionen von Einzelzeilen zusammengekommen. Dieser Datensatz wurde veröffentlicht und hat uns dann eben und vielen anderen auch erlaubt, auf diesem Datensatz eben so ein neuronales Netz zu trainieren, was dann eine entsprechende Erkennungsleistung auch bietet.
43:05
Hier auch noch mal ein Beispiel von uns aus den Zeitungen. Also da sehen wir jetzt auch so ein typischer Scan von so einer Zeitung aus dem 19. Jahrhundert. Ist hier tatsächlich also fehlerfrei. Also wenn jemand einen Fehler findet, dem gebe ich gerne ein Getränk aus.
43:23
Aber ich habe das jetzt glaube ich auch schon drei, viermal irgendwie vorgestellt, das Beispiel. Und bisher, glaube ich, wurde noch keiner gefunden. Also tatsächlich kann man sagen, jetzt mit diesen neuen Verfahren ist es möglich, quasi fehlerfrei Texte, auch historische Dokumente zu erkennen.
43:41
Was damit mehr oder weniger auch wegfällt, ist noch eine Nachkorrektur. Manchmal gibt es trotzdem noch vielleicht ein paar Fehler. Da kann man sich überlegen, ob man das noch macht. Ich sage mal, so bei uns in der Bibliothek im Massenverfahren ist das eigentlich hinfällig. Wenn man wirklich jetzt an hundertprozentiger Genauigkeit interessiert ist, für eine digitale Edition oder so,
44:03
dann gibt es auch da noch Tools, die da ein bisschen unterstützen, zum Beispiel hier von der Uni München, in dem hier die Erkennungsergebnisse mit den entsprechenden Wortbildern kombiniert werden. Und dann, wie man das so kennt von Word oder sowas, besonders auffällige oder vermutlich Fehler werden rot unterringelt.
44:21
Dann kann man da draufklicken und es werden einem so Korrekturkandidaten angeboten, sodass man das möglichst effizient korrigieren kann. Ist aber in meiner Erfahrung eigentlich fast nicht mehr möglich und auch der Aufwand lohnt sich eigentlich nicht mehr. Dann würde ich eher daran investieren, die OCR-Engine nachzutrainieren, die automatische Erkennung zu verbessern, dass es meistens effizienter tatsächlich.
44:46
Genau, das ist ein kleiner Sprung, dann gehe ich mal so vor. Genau, wie stellt man jetzt die Qualität noch fest von so einem OCR-Ergebnis? Dazu bedient man sich einem ganz klassischen Algorithmus, den ein Herr Levenstein 1957 publiziert hat.
45:02
Und da geht es letztendlich darum, einfach zwei Zeichenketten miteinander zu vergleichen. Hier links sehen wir sozusagen aus einem Tool, das wir entwickelt haben, für die OCR-Evaluation wird sozusagen einmal links der Text dargestellt einer Transkription, von der wir ausgehen, dass die korrekt ist, also menschlich erzeugt.
45:22
Und rechts sehen wir das automatische OCR-Ergebnis und diese beiden Texte werden einfach verglichen. Und wir sehen hier eben Abweichungen im OCR-Ergebnis rot markiert und an der entsprechenden Stelle in der Transkription in der sogenannten Ground Truth Grün. Und dann kann man eine Berechnung anstellen, eben diese Levenstein-Distanz,
45:42
welche Editieroperationen müsste ich jetzt vornehmen, um von dem noch fehlerbehafteten Ergebnis rechts zu dem korrekten Ergebnis links zu kommen. Das ist jetzt hier mal an diesen beiden Zeichenketten dargestellt. Also Intention und Execution. Da gibt es letztendlich dann drei Schritte. Man kann entweder, dann hat man ein Zeichen zu viel erkannt und muss das wieder streichen.
46:02
Oder man hat eins nicht erkannt, muss es einfügen. Oder man hat eins falsch erkannt und muss es ersetzen. Das ist also die Kombination von löschen und einfügen und wird deswegen häufig auch doppelt gewertet. Und so kann man dann eben vor der Anzahl Zeichen, diese Anzahl dieser Editieroperationen berechnen.
46:20
Und daraus ergibt sich dann letztendlich die Zeichenfehlerrate. Also wie viele Zeichen sind falsch, wie viele Operationen sind notwendig, um den fehlerhaften Text in den Korrekten zu übertragen. Umgekehrt, statt Fehlerrate kann man natürlich auch das Ganze einfach invers berechnen. Dann ist es sozusagen nicht die Fehlerrate, sondern die Genauigkeit, wie jetzt hier.
46:42
Und da möchte ich nur sagen, üblicherweise benutzt man eben die Accuracy, also die Genauigkeit oder Fehlerrate auf Zeichenebene. Tatsächlich halte ich aber für eine aussagekräftigere Metrik die Fehlerrate oder die Genauigkeit auf der Wortebene. Denn übliche Use-Cases interessieren sich nicht für einzelne Buchstaben oder Kommata,
47:01
sondern für sinntragende Einheiten, also Wörter oder Tokens. Und dann kann man sich relativ einfach statistisch herleiten, dass die Wortfehlerrate häufig natürlich größer ist, bzw. die Genauigkeit der Worterkennung geringer als auf der Zeichenebene, weil sich diese einzelnen Zeichenfehler natürlich auf weniger Wörter verteilen.
47:22
Genau, ich komme so langsam zum Schluss. Aber wie gesagt, eigentlich spielt die Musik mittlerweile sehr viel mehr sogar auf der Ebene eben gar nicht mal der eigentlichen Texterkennung, sondern dieser Layout-Erkennung und Strukturierung. Und auch diese kann man evaluieren. Und hier können durchaus sehr viel unterschiedlichere und vielfältigere Fehler passieren.
47:43
Und das ist mir immer wichtig. Hier muss man tatsächlich ein bisschen in sich gehen bei der Digitalisierung oder bei der OCR und sich überlegen, wofür mache ich es? Was für Use-Cases will ich bedienen? Und was für Fehler sozusagen sind mir dann egal oder welche Fehler dürfen auf gar keinen Fall passieren.
48:00
Wir sehen jetzt also hier mal sozusagen auch eine Referenz, eine Ground Truth für so eine Layout-Erkennung. Das heißt, jemand hat manuell diese Rahmen gesetzt um die einzelnen Elemente und denen auch eine Klassifizierung zugewiesen, also die einen bestimmten Klasse oder Typ von Content zugewiesen. Da sehen wir eben hier eine Seitennummer, eine Überschrift, zwei Absätze, ein Bild und die Bildunterschrift.
48:27
Und was wir jetzt tun können, wir können das gleiche Bild sozusagen mit so einer Layout-Analyse oder Segmentierung verarbeiten. Da sehen wir jetzt hier das Ergebnis. Und wenn wir das jetzt überlagern, dann können wir doch eine Reihe von Abweichungen feststellen.
48:43
Nämlich zum einen diese Seitenzahl, die wurde also von der Layout-Analyse irgendwie komplett ignoriert. Das handelt sich also um einen Miss. Es gibt aber auch einen Partial-Miss. Also von der Überschrift zum Beispiel fehlt nur der Punkt am Ende. Ist auch sozusagen die Frage, wie gewichtet man das?
49:02
Die zwei Absätze, die wir sozusagen in der Referenz getrennt hatten, die wurden hier zusammengefasst. Das kann letztendlich, wenn man nur am Fluss des Inhalts interessiert ist, relativ egal sein. Für andere Use-Cases ist es vielleicht relevant. Genauso hier mit der Abbildung.
49:20
Die wurde also von der Layout-Erkennung in drei einzelne Elemente aufgespalten. Statt als ein Objekt. Und hier links haben wir dann noch eine Fehlklassifikation. Also dieser linke Bereich, der wurde zwar korrekt als Text erkannt. Aber ihm wurde die Klasse Abschnitt oder Absatz zugewiesen und nicht Bildunterschrift.
49:42
Dementsprechend kann es dazu führen, wenn ich das eben weiterverarbeiten will. Und ich habe ein System zum Beispiel, wo ich diese Bildunterschriften in Kombination mit den Bildern kombiniert weiterverarbeiten will. Dann würde dieser Abschnitt als Bildunterschrift da sozusagen nicht auftauchen. Genau und eine Sache, die dann eben noch gerade auch im Rahmen
50:03
von den Wissenschaftlichen Konferenzen im Bereich heftig diskutiert wird, ist die Reading Order. Also wenn man sich mal so anguckt, so kompliziertere Strukturen eben. Wie gibt man jetzt diese Inhalte in der richtigen Reihenfolge auch digital wieder? Und ja, da habe ich hier mal zwei Beispiele.
50:21
Ich hoffe, man kann diese roten Striche einigermaßen sehen. Ich frage sonst auch immer, wer so glaubt, welche der beiden Interpretationen korrekt ist hier links oder rechts? Wenn sich jemand traut, wer würde hier von den Anwesenden sagen links? Ein paar Hände gehen hoch und wer glaubt eher rechts?
50:44
Also ja, auch zögerliche Handmeldungen. Also meistens ist es auch so Hälfte, Hälfte und tatsächlich ist es so beide Interpretationen sind korrekt. Und da haben wir schon das Problem dann sozusagen auch für den Computer. Ich habe hier noch mal ein paar andere Beispiele. Also man kann sozusagen auch beim Lesen der Zeitung durchaus sich überlegen, fange ich jetzt mit dem
51:04
Leitartikel an, fange ich mit der Glosse rechts unten an und in welche Reihenfolge lese ich die Artikel? Das ist also letztendlich ungeordnet. Aber innerhalb der einzelnen Abschnitte und Artikel habe ich natürlich eine logische und semantische Reihenfolge. Und die möchte ich erhalten. Das heißt, ich habe also ungeordnete Gruppen von Elementen, die in sich geordnete Gruppen enthalten.
51:25
Und das dann sozusagen auch in der richtigen Reihenfolge wiederzugeben. Das ist momentan noch eine große Herausforderung, gerade eben vor solchen komplexen Layouts, die dann zum Teil auch noch durch Bildelemente unterbrochen sind. Was man dafür braucht, ist letztendlich so wie bei diesem GT-for-hist-OSCA-Datensatz wieder Ground Truth-Daten.
51:48
Und ich hatte es auch schon gesagt, von diesem IO-Projekt Impact, das ist das, was am Ende nach 20 Jahren noch steht. Und deshalb sage ich auch immer, wenn Sie OCR-Projekte planen, wenn Sie irgendwas in dem Bereich tun, die Mühe, den man sich macht, solche Ground Truth-Daten zu erstellen durch Transkription, die ist es immer wert.
52:04
Auch wenn das sehr mühsam ist. Das ist das, was meistens noch viel mehr wert ist, als die Software, die entsteht. Und dieser Begriff der Ground Truth, da gibt es eine schöne Definition hier von dem Kollegen Stefan Pletschacher, der da an einem der maßgeblichen Forschungsinstitute in UK arbeitet.
52:22
Und ich finde es schön, weil es so rekursiv ist für eine Informatik. Also Ground Truth ist das Ergebnis der idealen Methode. Und das ist quasi die Methode, wenn man die gefunden hat, dann ist das Problem gelöst. Also herrlich rekursiv. Was es dafür gibt, ist ein Tool, das können Sie vielleicht auch mal angucken.
52:41
Gibt es nur für Windows. Man muss sich per E-Mail registrieren, aber sonst nichts. Aletaya, griechisch für die Wahrheit, dass die Kollegen da in Manchester entwickeln. Und da kann man eben genau diese Rahmensetzung machen für das Layout. Man kann den Text transkribieren, hat da auch so ein virtuelles Keyboard, um diese Sonderzeichen eben eingeben zu können, die man auf der Tastatur nicht findet.
53:02
Und dann auch diese Lesereihenfolge festzulegen. Und man kann da mit so einer Seite ohne Probleme mal ein oder zwei Stunden verbringen, bis das alles richtig eingetragen ist. Aber wie gesagt, das ist es durchaus wert. Und man stellt auch fest, wo dann vielleicht selbst beim Transkribieren die Herausforderungen für die Maschine liegen.
53:20
Genau. Und ganz zum Schluss, wenn dieser Prozess also fertig durchlaufen ist und ich habe diese Layout-Analyse und OCR gemacht, dann werden die Ergebnisse eben wieder in der Datei festgehalten. Ich hatte anfangs schon gesagt, da gibt es diesen Altostandard, der sich da mittlerweile im Bibliotheksbereich durchgesetzt hat, von der Library of Congress gepflegt.
53:44
Es gibt aber auch Page, auch wieder von der Gruppe aus Manchester. Auch wieder ein Akronym, Rekursiv, Page Analysis and Ground Truth Elements, was noch ein bisschen reichere Informationen in dem XML kodieren kann und was eben zum Beispiel von diesem Tool benutzt wird, um diese Referenzdaten, diese Ground Truth Daten zu erstellen.
54:05
H-OCR gibt es in dem Bereich auch noch. Das ist das, was Google Books-Projekte üblicherweise mit sich bringen. Beruht auf HTML für OCR, weil Google einfach sagt, wenn die Datei von der OCR rauskommt, packen wir die auf den Server und fertig. Das ist gleichzeitig unsere digitale Präsentation.
54:24
Wer mal damit gearbeitet hat, weiß, dass HTML-Prasen manchmal nicht so schön ist. TI ist in dem Bereich auch noch zu nennen. In den digitalen Geisteswissenschaften sicherlich das am weitesten verbreitete Format, um Text digital zu encodieren.
54:41
Wir werden auch immer wieder gefragt, warum wir unsere OCR nicht in TI anbieten. Wir denken immer wieder mal darüber nach. Das Problem ist, dass TI nicht in der Form standardisiert ist, wie das diese anderen XML-Standards sind. Wir als Bibliothek wollen uns nicht fünf, sechs verschiedene TI-Dialekte anbieten.
55:00
Ganz einfach, Text ohne Formatierung gibt es natürlich auch noch manchmal. Das ist durchaus sinnvoll, zum Beispiel für Text- und Data-Mining-Zwecke. Wir kriegen so Anfragen, alle digitalisierte 200.000 Werke bitte, um Text- und Data-Mining zu machen, aber bloß kein XML. Der Nachteil ist dabei, dass diese ganzen Strukturinformationen wegfallen.
55:23
Also über die Spalten, über was ist eine Überschrift, was ist eine Fußnote etc. Man muss eben unbedingt darauf achten, dass man Unicode nutzt, weil sonst hat man statt diesen ganzen historischen Zeichen diese schönen weißen Kästchen und keiner weiß mehr, was da eigentlich stand. Zum Schluss noch ein paar Literatur-Empfehlungen.
55:45
Shameless Plug, die meisten kommen aus unserem Projekt-Kontext OCRD. Einmal so ein bisschen aus Anwender, Forscherinsicht dargestellt. Was ist der Beitrag des OCRD-Projekts und was wird damit möglich für die Arbeit mit den frühneuzeitlichen Drucken.
56:01
Wer sich ein bisschen mehr für die technischen Verfahren interessiert, der zweite Artikel. Und immer noch sehr zu empfehlen, muss ich sagen, aus bibliothekarischer Sicht der dritte Text, auch wenn schon ein bisschen älter von geschätzten Kollegen von uns, der wirklich mit sehr schönen Anschauungsbeispielen zeigt, was man so in den historischen Kollektionen, in den Bibliotheken so findet und wo eben die Technologie immer noch sich die Zähne dran ausbeißt.
56:25
Da kann ich übrigens nur sagen, auch ChatGPT 3, 4, 5 und Co. werden da sich noch die Zähne dran ausbeißen nach allem, was wir getestet haben. Und ja, genau, stöbern Sie da gerne mal rein. Folien werden wir irgendwie bereitstellen, gegebenenfalls auch auf der Homepage von mir, die auch verlinkt ist.
56:42
Da können Sie dann die Links nochmal nachverfolgen. Und ja, dann erstmal danke für die Aufmerksamkeit und bin gespannt auf die Fragen und Diskussionen.