We're sorry but this page doesn't work properly without JavaScript enabled. Please enable it to continue.
Feedback

Datenmanagement in der Chemie - InChI & SMILES

00:00

Formal Metadata

Title
Datenmanagement in der Chemie - InChI & SMILES
Title of Series
Number of Parts
5
Author
License
CC Attribution - NonCommercial 4.0 International:
You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor.
Identifiers
Publisher
Release Date
Language

Content Metadata

Subject Area
Genre
Keywords
Chemical structureBruttoformelStrukturbodenMoleculeMethylmalonyl-CoA mutaseAcetic acidPlatinValence (chemistry)Branch (computer science)MoleculeTaxolSauerstoffatomPropadieneDerivative (chemistry)BenzeneAspirinBinding energyDreifachbindungCisplatinBlock (periodic table)FiningsIronCheminformaticsAmmoniaBruttoformelCarbonGeneral chemistryPharmaceutical drugAtomKleines MolekülOrganische ChemieOrganisches MolekülDipolar bondInorganic chemistryChemical structureAcetic acidComputer animation
Transcript: German(auto-generated)
Guten Tag, sehr geehrte Damen und Herren. Herzlich willkommen zum fünften Video zum Thema Datenmanagement in der Chemie. Heute beschäftigen wir uns mit INSCHI und SMILES. Ganz wichtiger Punkt, wie funktioniert die Suche in Repositorien? Wahrscheinlich kennen Sie schon den SciFinder, Sie haben vielleicht auch schon mal Kristallstrukturen in der Cambridge Cholesterolographic database
gesucht und Sie haben aber nicht darüber nachgedacht, wie Sie eigentlich diese Strukturen intern suchen und finden, sondern Sie zeichnen die und dann werden auf magische Art und Weise Strukturen ausgespuckt. Man kann zum Beispiel mit der CAS-Nummer suchen, mit der Summenformel, mit dem JUPAC-Namen oder auch trivialen Namen, Aspirin zum Beispiel. Man
kann aber auch nach Strukturformeln suchen oder auch tatsächlich nach den CCDC-Nummern, da gibt es ganz viele Möglichkeiten. Aber eigentlich, wenn man eine Struktur so zeichnet, wie hier gezeigt, also ganz einfach Essigsäure, läuft das dahinter verborgen über die sogenannten INSCHI und SMILES-Codes, die ein strukturelles Diagramm, so wie wir es als ChemDraw zeichnen
würden, tatsächlich als eine 2D-Molekularrepräsentation betrachten. Das heißt also, wir zeichnen normalerweise Strukturen im ChemDraw, manchmal sind es ja auch 3D-Strukturen, das muss aber tatsächlich maschinenlesbar verpackt werden. Das geht tatsächlich über INSCHI und SMILES.
Was ist INSCHI? INSCHI ist tatsächlich von der JUPAC vor vielen Jahren eingeführt worden und ist der sogenannte International Chemical Identifier. Das ist ein chemischer standardisierter Strukturcode, der es ermöglicht, ein Molekül in eine standardisierte Zeichenkette zu übersetzen. Das heißt, dieser Identifikator wird in gedruckten und elektronischen Datenquellen verwendet und kann
tatsächlich Verknüpfungen von verschiedenen Datensammstellungen ermöglichen. Das heißt also, es ist von Mensch und Maschine lesbar und es ist ein eindeutiger Strukturcode, der die Datensuche in Datenbanken ermöglicht. Das heißt, man kann zum Beispiel nach Benzol suchen, man kann aber noch alle möglichen Derivaten von Benzol suchen. All das geht mit diesem Strukturcode. Ich habe
jetzt ein Beispiel mitgebracht, das ist der INSCHI-Code von Etan und Sie sehen schon, das ist ein wenig länglich und intuitiv nicht ganz sofort. Dann kann man das ein bisschen beleuchten. Da sind immer so Lächer dazwischen, die im Prinzip die verschiedenen Notationsebene oder Infoblöcke bezeichnen. Das heißt, Version 1 wird durch 1S ausgedruckt.
Hier steckt die Summenformel drin, da kann man also schon sehen, instinktiv da, das passt zusammen, die Konnektivität der C-Atome und noch die Information, wie viele Wasserstoffatome sind jeweils an den jeweiligen C-Atomen. Das ist jetzt schon einigermaßen kompliziert für ein kleines Molekül wie Etan, aber es funktioniert tatsächlich, indem man eben Strukturen durch
gewisse INSCHI-Algorithmen laufen lässt und dann automatisiert der jeweilige INSCHI-Code sozusagen berechnet wird. So funktionieren die Datenbanken, die wir im alltäglichen Leben in der Chemie benutzen. Jetzt haben wir aber das Problem, dass das natürlich beliebig kompliziert werden kann, zum Beispiel Essigsäure ist noch ein sehr kleines Molekül, aber der INSCHI-Code wird
schon ein wenig länger. Z.B. dieses 2 in Klamandral mit einer 4 zeigt uns, dass dieses Sauerstoffatom mit der Nummer 3 an dem C-Atom mit der Nummer 2 hängt als Verzweigung, aber auch O4 auch an der Nummer 2 hängt. Also dem kann man auch noch intuitiv einigermaßen folgen und dann
werden eben noch die dekorativen H-Atome hiermit auch sozusagen notiert, so kann man das begreifen. Wenn wir uns jetzt das Molekül hier unten anschauen, das ist Pachytaxel, auch Taxol genannt, ein berühmtes Therapeutikum, dann sehen Sie, dass für dieses etwas komplexe Molekül auch der INSCHI-Code
schon tatsächlich mehrere Zeilen lang ist und intuitiv eigentlich nicht mehr zu erfassen. Was wir vielleicht noch sehen ist, dass hier unten C47H51NO14, dass also hier die Summenformel irgendwie drinsteckt. Das mag ja schon beruhigend sein, aber den Rest müssen wir einfach auf den Algorithmus vertrauen, der aus der Strukturformel von Taxol den INSCHI-Code eben erstellt.
Problem ist jetzt aber, wie geht es vor, wenn wir mit koordinationschemischen Molekülen arbeiten? Ich meine, wir sind Koordinationschemiker, sie sind ein Praktikum der anorganischen Chemie und da ist es ganz wichtig, dass auch anorganische Moleküle mit INSCHI gut abgedeckt werden. Und hier sehen Sie jetzt den INSCHI-Code von Cisplatin. Auch Cisplatin ist ein wichtiges Krebstherapeutikum.
Auch hier erkennt man an dieser Stelle schon die Summenformel. Der Rest, da sind viele wilde Semikolons drin. Das wird schon ein bisschen unverständlich und es wird noch viel schlimmer, wenn wir uns anschauen, dass z.B. Transplatin, das ist kein Medikament, das hat überhaupt keine Wirksamkeit, den gleichen INSCHI-Code hat. Das ist nicht gerade beruhigend zu sehen, dass Cisplatin
und Transplatin den gleichen INSCHI-Code haben. Das ist momentan aber nicht gut lösbar. Das hängt damit zusammen, dass eben koordinative Bindungen von INSCHI formal, also von den Algorithmen dahinter, gebrochen werden. An diesem Problem arbeitet die Chemoinformatiker. Noch schwieriger wird es bei Ferrozenen. Das ist ja das Molekül, was Sie im Praktikum auch synthetisieren. Dann
haben wir die Möglichkeit, Ferrozenen so hinzumalen. Sie haben in der Vorlesung bestimmt auch schon mitbekommen, dass man es auch als Eisen 2 z.B. betrachten kann mit C5H5-Ringen und Eisen 2. Das wäre sozusagen etwas näher an dieser Notation, wobei man ja im Grunde wissen muss, dass diese
schönen CP-Ringe HAPTO5 gebunden sind. Insofern ist diese Schreibweise nicht so schön und diese Schreibweise ist auch nicht schön. Auch diese macht den Anorganiker eigentlich nicht richtig glücklich und auch diese ist noch etwas krumm. Als INSCHI sieht das dann so aus. Hier durch diesen Block versucht man die Ladung abzufangen, aber man weiß mittlerweile in der Literatur, dass es für
die verschiedenen möglichen Schreibweisen von Ferrozenen drei INSCHI-Codes und auch mehrere SMILES-Codes gibt. Also eigentlich ist das INSCHI-System oder der Algorithmus mit sehr vielen anorganischen Substanzen etwas überfordert. Das heißt Ladung, Oxidationszustände, Valenzatome, Delokalisation. All das ist eine Herausforderung. Im Prinzip wurde INSCHI auch
eher an organischen Molekülen entwickelt, wo man saubere Ein-Verbindungen hat, Zweifachbindungen, Dreifachbindungen. Da ist die Welt noch etwas übersichtlicher, aber sobald man in der metalloorganischen Chemie landet oder dative Bindungen hat, allgemein in der Koordination Chemie, wird es ein wenig schwierig. Es ist aber nur mal der
Algorithmus, nachdem fast alle Datenwanken funktionieren. Deswegen müssen wir uns damit abfinden. Wenn wir jetzt weitergehen, habe ich ja schon SMILES erwähnt. SMILES ist ein Akronym, das heißt Besimplified Molecular Input Line Entry Specification. Das heißt also,
es versucht eine Molekülspezifikation in einer einzigen Zeile zu notieren. Wenn wir also sagen, wir haben ein Molekül, zum Beispiel mal wieder die schöne Essigsäure, auch die hat ja eine Verzweigung, dann ist das tatsächlich intuitiv leichter zu erfassen, indem man sagt, ich habe einen Kohlenstoffatom am nächsten Kohlenstoffatom, das Sauerstoffatom hängt an diesem Kohlenstoffatom
und das nächste Sauerstoffatom hängt auch da dran. Also intuitiv recht gut zu erfassen. Wichtig, die ganzen Hs muss man sich einfach mitdenken. Das heißt, die SMILES-Notation weiß einfach, dass an einem solchen endständigen C, wo nicht zwei Tristan hängt, einfach noch drei Wasserstoffatome dran hängen sollten. Das ist so in der organischen Chemie mal wieder
einigermaßen intelligent und funktioniert auch. Für andere Orangenmoleküle kann es auch da wieder gehen. Noch einmal in bunt. Man kann es auch so zeichnen. Das heißt, es ist ein nicht ganz eindeutiger Strukturcode und deswegen wird normalerweise mit Canonical SMILES gearbeitet. Also wenn man komplizierte Moleküle hat, sei es zum Beispiel Aspirin, kann man tatsächlich
verschiedene SMILES bauen, je nachdem, bei welchem Atom man als sogenannten C1 anfängt. Und auch dafür gibt es mittlerweile Algorithmen, die dann tatsächlich zu den Canonical SMILES kommen, also zu den kanonischen SMILES-Codes, nach denen wieder in Datenbanken gesucht werden kann. Aber ich glaube, anhand dieses kleinen Bildchen versteht man noch einigermaßen intuitiv, wie man eigentlich von
einem Molekül als Chemnrohr zu einer Zeilennotation eines Moleküls gelangen kann. Kommen wir wieder mal zu unserem Cisplatin, eben unserem Medikament oder dem Transplatin. Ja, da ist die ionische Form eben nur n.n.cl, PET2 plus CL, für beide mal wieder. Das heißt, die ionische Form unterscheidet
auch wieder nicht zwischen Cisplatin und Transplatin. Und die ganzen Hs, die eigentlich am Ammoniak dran sind, die denkt sich diese Notation einfach mit. Das heißt aber, man könnte nach dieser Notation nur schwierig zwischen einem Amitligand und einem Aminligand unterscheiden. Das würde
eigentlich nur gelingen, wenn man wirklich sauber auch alle Ladungen mitnotiert. Da ist jetzt tatsächlich die koordinierte Form des SMILES in der Notation etwas besser. Hier kann man tatsächlich zwischen Cisplatin und Transplatin etwas besser unterscheiden. Aber dafür ist dieses NH3 plus und PET-2 auch für den Koordinationschemiker ein wenig verwirrend. Das ist aber nun mal hier der
Standard, wie SMILES das notiert. Das verlangt der chemischen Intuition schon eine gewisse Überdehnung ab, würde ich mal formulieren. Auch beim Ferro-10 hilft SMILES nicht unbedingt weiter. Hier sieht man zum Beispiel 1 cccc1. Da fällt es auf. Was sollen diese Kleinbuchstaben und
Großbuchstaben sein? Das ist etwas Besonderes im SMILES. Aliphatische Atome werden kleinnotiert und aromatische Atome normalerweise groß, was aber in der koordinierten Form auch schon wieder nicht eingehalten wird. Da gibt es auch so die Tücken. Sie ahnen es schon, auch SMILES ist für die
Beschreibung von organometallischen Molekülen mit komplizierten Bindungsmodellen. Es gibt ja auch zum Beispiel Moleküle mit 3,5-fach Bindungen oder auch wieder die Unterschiede zwischen HAPTO1, HAPTO2 oder HAPTO5, wie hier im Ferro-10. Auch das kann hier nicht geleistet werden durch diese Notation. Den Unterschied, die ionische Form beschreibt das, die koordinierte Form beschreibt
das. Eigentlich liegt die Wahrheit dazwischen. Das heißt, wenn man jetzt zum Beispiel in einer Datenbank nach Ferro-10-Dirivaten suchen müsste und würde das wirklich manuell in SMILES Form tun, müsste man eigentlich beide Formen nutzen. Zum Glück sind die Datenbanken so semi-intelligent,
deswegen fällt uns das meist nicht auf. Wenn wir also in Ferro-10 hinzeichnen und mal wegen an bestimmte Positionen ein X machen, wir haben in der CCDC-Suche, das haben Sie bestimmt in der Vorlesung schon mal gehört, dann suchen die Datenbanken uns möglichst viele Hits über den INSCHI-Weg und den SMILES-Weg und in Summe erwischen sie dann auch die meisten Ferro-10-Dirivate, auch wenn dahinter
in den Algorithmen eigentlich ein paar Dinge verborgen sind, die noch nicht so ganz glatt definiert sind. Aber das sollten Sie eben kennen, wie INSCHI und SMILES funktionieren. In diesem Video haben Sie also gelernt, wie funktioniert die Suche in Repository, was ist der INSCHI, was ist SMILES, wie wendet man das Ganze in der organischen und anorganischen Diebe an. Sie haben
auch gelernt, dass es dort Probleme gibt. Wir arbeiten jetzt seit drei Jahren daran. Mittlerweile habe ich zwei Programmierer in Aachen, die am INSCHI mitprogrammieren und wir werden es im nächsten Jahr in der neuen Revision gelöst haben. Das werden wir Ihnen dann erzählen in kommenden Videos. Vielen Dank.