Datenmanagement in der Chemie - InChI & SMILES
This is a modal window.
The media could not be loaded, either because the server or network failed or because the format is not supported.
Formal Metadata
Title |
| |
Title of Series | ||
Number of Parts | 5 | |
Author | ||
License | CC Attribution - NonCommercial 4.0 International: You are free to use, adapt and copy, distribute and transmit the work or content in adapted or unchanged form for any legal and non-commercial purpose as long as the work is attributed to the author in the manner specified by the author or licensor. | |
Identifiers | 10.5446/63195 (DOI) | |
Publisher | ||
Release Date | ||
Language |
Content Metadata
Subject Area | ||
Genre | ||
Keywords |
00:00
Chemical structureBruttoformelStrukturbodenMoleculeMethylmalonyl-CoA mutaseAcetic acidPlatinValence (chemistry)Branch (computer science)MoleculeTaxolSauerstoffatomPropadieneDerivative (chemistry)BenzeneAspirinBinding energyDreifachbindungCisplatinBlock (periodic table)FiningsIronCheminformaticsAmmoniaBruttoformelCarbonGeneral chemistryPharmaceutical drugAtomKleines MolekülOrganische ChemieOrganisches MolekülDipolar bondInorganic chemistryChemical structureAcetic acidComputer animation
Transcript: German(auto-generated)
00:00
Guten Tag, sehr geehrte Damen und Herren. Herzlich willkommen zum fünften Video zum Thema Datenmanagement in der Chemie. Heute beschäftigen wir uns mit INSCHI und SMILES. Ganz wichtiger Punkt, wie funktioniert die Suche in Repositorien? Wahrscheinlich kennen Sie schon den SciFinder, Sie haben vielleicht auch schon mal Kristallstrukturen in der Cambridge Cholesterolographic database
00:21
gesucht und Sie haben aber nicht darüber nachgedacht, wie Sie eigentlich diese Strukturen intern suchen und finden, sondern Sie zeichnen die und dann werden auf magische Art und Weise Strukturen ausgespuckt. Man kann zum Beispiel mit der CAS-Nummer suchen, mit der Summenformel, mit dem JUPAC-Namen oder auch trivialen Namen, Aspirin zum Beispiel. Man
00:40
kann aber auch nach Strukturformeln suchen oder auch tatsächlich nach den CCDC-Nummern, da gibt es ganz viele Möglichkeiten. Aber eigentlich, wenn man eine Struktur so zeichnet, wie hier gezeigt, also ganz einfach Essigsäure, läuft das dahinter verborgen über die sogenannten INSCHI und SMILES-Codes, die ein strukturelles Diagramm, so wie wir es als ChemDraw zeichnen
01:02
würden, tatsächlich als eine 2D-Molekularrepräsentation betrachten. Das heißt also, wir zeichnen normalerweise Strukturen im ChemDraw, manchmal sind es ja auch 3D-Strukturen, das muss aber tatsächlich maschinenlesbar verpackt werden. Das geht tatsächlich über INSCHI und SMILES.
01:21
Was ist INSCHI? INSCHI ist tatsächlich von der JUPAC vor vielen Jahren eingeführt worden und ist der sogenannte International Chemical Identifier. Das ist ein chemischer standardisierter Strukturcode, der es ermöglicht, ein Molekül in eine standardisierte Zeichenkette zu übersetzen. Das heißt, dieser Identifikator wird in gedruckten und elektronischen Datenquellen verwendet und kann
01:41
tatsächlich Verknüpfungen von verschiedenen Datensammstellungen ermöglichen. Das heißt also, es ist von Mensch und Maschine lesbar und es ist ein eindeutiger Strukturcode, der die Datensuche in Datenbanken ermöglicht. Das heißt, man kann zum Beispiel nach Benzol suchen, man kann aber noch alle möglichen Derivaten von Benzol suchen. All das geht mit diesem Strukturcode. Ich habe
02:03
jetzt ein Beispiel mitgebracht, das ist der INSCHI-Code von Etan und Sie sehen schon, das ist ein wenig länglich und intuitiv nicht ganz sofort. Dann kann man das ein bisschen beleuchten. Da sind immer so Lächer dazwischen, die im Prinzip die verschiedenen Notationsebene oder Infoblöcke bezeichnen. Das heißt, Version 1 wird durch 1S ausgedruckt.
02:25
Hier steckt die Summenformel drin, da kann man also schon sehen, instinktiv da, das passt zusammen, die Konnektivität der C-Atome und noch die Information, wie viele Wasserstoffatome sind jeweils an den jeweiligen C-Atomen. Das ist jetzt schon einigermaßen kompliziert für ein kleines Molekül wie Etan, aber es funktioniert tatsächlich, indem man eben Strukturen durch
02:44
gewisse INSCHI-Algorithmen laufen lässt und dann automatisiert der jeweilige INSCHI-Code sozusagen berechnet wird. So funktionieren die Datenbanken, die wir im alltäglichen Leben in der Chemie benutzen. Jetzt haben wir aber das Problem, dass das natürlich beliebig kompliziert werden kann, zum Beispiel Essigsäure ist noch ein sehr kleines Molekül, aber der INSCHI-Code wird
03:04
schon ein wenig länger. Z.B. dieses 2 in Klamandral mit einer 4 zeigt uns, dass dieses Sauerstoffatom mit der Nummer 3 an dem C-Atom mit der Nummer 2 hängt als Verzweigung, aber auch O4 auch an der Nummer 2 hängt. Also dem kann man auch noch intuitiv einigermaßen folgen und dann
03:24
werden eben noch die dekorativen H-Atome hiermit auch sozusagen notiert, so kann man das begreifen. Wenn wir uns jetzt das Molekül hier unten anschauen, das ist Pachytaxel, auch Taxol genannt, ein berühmtes Therapeutikum, dann sehen Sie, dass für dieses etwas komplexe Molekül auch der INSCHI-Code
03:41
schon tatsächlich mehrere Zeilen lang ist und intuitiv eigentlich nicht mehr zu erfassen. Was wir vielleicht noch sehen ist, dass hier unten C47H51NO14, dass also hier die Summenformel irgendwie drinsteckt. Das mag ja schon beruhigend sein, aber den Rest müssen wir einfach auf den Algorithmus vertrauen, der aus der Strukturformel von Taxol den INSCHI-Code eben erstellt.
04:06
Problem ist jetzt aber, wie geht es vor, wenn wir mit koordinationschemischen Molekülen arbeiten? Ich meine, wir sind Koordinationschemiker, sie sind ein Praktikum der anorganischen Chemie und da ist es ganz wichtig, dass auch anorganische Moleküle mit INSCHI gut abgedeckt werden. Und hier sehen Sie jetzt den INSCHI-Code von Cisplatin. Auch Cisplatin ist ein wichtiges Krebstherapeutikum.
04:25
Auch hier erkennt man an dieser Stelle schon die Summenformel. Der Rest, da sind viele wilde Semikolons drin. Das wird schon ein bisschen unverständlich und es wird noch viel schlimmer, wenn wir uns anschauen, dass z.B. Transplatin, das ist kein Medikament, das hat überhaupt keine Wirksamkeit, den gleichen INSCHI-Code hat. Das ist nicht gerade beruhigend zu sehen, dass Cisplatin
04:45
und Transplatin den gleichen INSCHI-Code haben. Das ist momentan aber nicht gut lösbar. Das hängt damit zusammen, dass eben koordinative Bindungen von INSCHI formal, also von den Algorithmen dahinter, gebrochen werden. An diesem Problem arbeitet die Chemoinformatiker. Noch schwieriger wird es bei Ferrozenen. Das ist ja das Molekül, was Sie im Praktikum auch synthetisieren. Dann
05:04
haben wir die Möglichkeit, Ferrozenen so hinzumalen. Sie haben in der Vorlesung bestimmt auch schon mitbekommen, dass man es auch als Eisen 2 z.B. betrachten kann mit C5H5-Ringen und Eisen 2. Das wäre sozusagen etwas näher an dieser Notation, wobei man ja im Grunde wissen muss, dass diese
05:21
schönen CP-Ringe HAPTO5 gebunden sind. Insofern ist diese Schreibweise nicht so schön und diese Schreibweise ist auch nicht schön. Auch diese macht den Anorganiker eigentlich nicht richtig glücklich und auch diese ist noch etwas krumm. Als INSCHI sieht das dann so aus. Hier durch diesen Block versucht man die Ladung abzufangen, aber man weiß mittlerweile in der Literatur, dass es für
05:41
die verschiedenen möglichen Schreibweisen von Ferrozenen drei INSCHI-Codes und auch mehrere SMILES-Codes gibt. Also eigentlich ist das INSCHI-System oder der Algorithmus mit sehr vielen anorganischen Substanzen etwas überfordert. Das heißt Ladung, Oxidationszustände, Valenzatome, Delokalisation. All das ist eine Herausforderung. Im Prinzip wurde INSCHI auch
06:05
eher an organischen Molekülen entwickelt, wo man saubere Ein-Verbindungen hat, Zweifachbindungen, Dreifachbindungen. Da ist die Welt noch etwas übersichtlicher, aber sobald man in der metalloorganischen Chemie landet oder dative Bindungen hat, allgemein in der Koordination Chemie, wird es ein wenig schwierig. Es ist aber nur mal der
06:21
Algorithmus, nachdem fast alle Datenwanken funktionieren. Deswegen müssen wir uns damit abfinden. Wenn wir jetzt weitergehen, habe ich ja schon SMILES erwähnt. SMILES ist ein Akronym, das heißt Besimplified Molecular Input Line Entry Specification. Das heißt also,
06:43
es versucht eine Molekülspezifikation in einer einzigen Zeile zu notieren. Wenn wir also sagen, wir haben ein Molekül, zum Beispiel mal wieder die schöne Essigsäure, auch die hat ja eine Verzweigung, dann ist das tatsächlich intuitiv leichter zu erfassen, indem man sagt, ich habe einen Kohlenstoffatom am nächsten Kohlenstoffatom, das Sauerstoffatom hängt an diesem Kohlenstoffatom
07:02
und das nächste Sauerstoffatom hängt auch da dran. Also intuitiv recht gut zu erfassen. Wichtig, die ganzen Hs muss man sich einfach mitdenken. Das heißt, die SMILES-Notation weiß einfach, dass an einem solchen endständigen C, wo nicht zwei Tristan hängt, einfach noch drei Wasserstoffatome dran hängen sollten. Das ist so in der organischen Chemie mal wieder
07:21
einigermaßen intelligent und funktioniert auch. Für andere Orangenmoleküle kann es auch da wieder gehen. Noch einmal in bunt. Man kann es auch so zeichnen. Das heißt, es ist ein nicht ganz eindeutiger Strukturcode und deswegen wird normalerweise mit Canonical SMILES gearbeitet. Also wenn man komplizierte Moleküle hat, sei es zum Beispiel Aspirin, kann man tatsächlich
07:43
verschiedene SMILES bauen, je nachdem, bei welchem Atom man als sogenannten C1 anfängt. Und auch dafür gibt es mittlerweile Algorithmen, die dann tatsächlich zu den Canonical SMILES kommen, also zu den kanonischen SMILES-Codes, nach denen wieder in Datenbanken gesucht werden kann. Aber ich glaube, anhand dieses kleinen Bildchen versteht man noch einigermaßen intuitiv, wie man eigentlich von
08:04
einem Molekül als Chemnrohr zu einer Zeilennotation eines Moleküls gelangen kann. Kommen wir wieder mal zu unserem Cisplatin, eben unserem Medikament oder dem Transplatin. Ja, da ist die ionische Form eben nur n.n.cl, PET2 plus CL, für beide mal wieder. Das heißt, die ionische Form unterscheidet
08:27
auch wieder nicht zwischen Cisplatin und Transplatin. Und die ganzen Hs, die eigentlich am Ammoniak dran sind, die denkt sich diese Notation einfach mit. Das heißt aber, man könnte nach dieser Notation nur schwierig zwischen einem Amitligand und einem Aminligand unterscheiden. Das würde
08:43
eigentlich nur gelingen, wenn man wirklich sauber auch alle Ladungen mitnotiert. Da ist jetzt tatsächlich die koordinierte Form des SMILES in der Notation etwas besser. Hier kann man tatsächlich zwischen Cisplatin und Transplatin etwas besser unterscheiden. Aber dafür ist dieses NH3 plus und PET-2 auch für den Koordinationschemiker ein wenig verwirrend. Das ist aber nun mal hier der
09:07
Standard, wie SMILES das notiert. Das verlangt der chemischen Intuition schon eine gewisse Überdehnung ab, würde ich mal formulieren. Auch beim Ferro-10 hilft SMILES nicht unbedingt weiter. Hier sieht man zum Beispiel 1 cccc1. Da fällt es auf. Was sollen diese Kleinbuchstaben und
09:25
Großbuchstaben sein? Das ist etwas Besonderes im SMILES. Aliphatische Atome werden kleinnotiert und aromatische Atome normalerweise groß, was aber in der koordinierten Form auch schon wieder nicht eingehalten wird. Da gibt es auch so die Tücken. Sie ahnen es schon, auch SMILES ist für die
09:42
Beschreibung von organometallischen Molekülen mit komplizierten Bindungsmodellen. Es gibt ja auch zum Beispiel Moleküle mit 3,5-fach Bindungen oder auch wieder die Unterschiede zwischen HAPTO1, HAPTO2 oder HAPTO5, wie hier im Ferro-10. Auch das kann hier nicht geleistet werden durch diese Notation. Den Unterschied, die ionische Form beschreibt das, die koordinierte Form beschreibt
10:05
das. Eigentlich liegt die Wahrheit dazwischen. Das heißt, wenn man jetzt zum Beispiel in einer Datenbank nach Ferro-10-Dirivaten suchen müsste und würde das wirklich manuell in SMILES Form tun, müsste man eigentlich beide Formen nutzen. Zum Glück sind die Datenbanken so semi-intelligent,
10:21
deswegen fällt uns das meist nicht auf. Wenn wir also in Ferro-10 hinzeichnen und mal wegen an bestimmte Positionen ein X machen, wir haben in der CCDC-Suche, das haben Sie bestimmt in der Vorlesung schon mal gehört, dann suchen die Datenbanken uns möglichst viele Hits über den INSCHI-Weg und den SMILES-Weg und in Summe erwischen sie dann auch die meisten Ferro-10-Dirivate, auch wenn dahinter
10:41
in den Algorithmen eigentlich ein paar Dinge verborgen sind, die noch nicht so ganz glatt definiert sind. Aber das sollten Sie eben kennen, wie INSCHI und SMILES funktionieren. In diesem Video haben Sie also gelernt, wie funktioniert die Suche in Repository, was ist der INSCHI, was ist SMILES, wie wendet man das Ganze in der organischen und anorganischen Diebe an. Sie haben
11:02
auch gelernt, dass es dort Probleme gibt. Wir arbeiten jetzt seit drei Jahren daran. Mittlerweile habe ich zwei Programmierer in Aachen, die am INSCHI mitprogrammieren und wir werden es im nächsten Jahr in der neuen Revision gelöst haben. Das werden wir Ihnen dann erzählen in kommenden Videos. Vielen Dank.