Zum Hauptinhalt springen

SMILES

SMILES (Simplified Molecular Input Line Entry System)

SMILES (Simplified Molecular Input Line Entry System) ist eine kompakte, textbasierte Notation zur Darstellung chemischer Strukturen. Es kodiert Moleküle als lineare Zeichenketten mit ASCII-Zeichen und wird in der Chemieinformatik häufig für den Datenaustausch, die Speicherung in Datenbanken und die rechnerische Modellierung verwendet. SMILES wurde in den späten 1980er Jahren eingeführt und hat sich seitdem in vielen chemischen Softwareumgebungen als De-facto-Standard für die Moleküllinien-Notation durchgesetzt.

Grundlegende Syntax und Beispiele

In SMILES werden Atome durch ihre Atomsymbole bezeichnet (z. B. C, O, N), und Bindungen werden entweder implizit oder explizit durch Zeichen wie "=", "#" oder ":" angegeben. Einfachbindungen werden in der Regel weggelassen. Verzweigungen werden durch Klammern ausgedrückt, und Ringschlüsse werden durch übereinstimmende Ziffern angezeigt. Zum Beispiel kann Ethanol als CCO geschrieben werden, während Cyclohexan als C1CCCCC1 dargestellt wird. Aromatische Atome werden üblicherweise in Kleinbuchstaben geschrieben (z. B. c1ccccc1 für Benzol). SMILES ermöglicht auch die Angabe der Stereochemie durch chirale Flaggen (wie das @-Symbol für tetraedrische Stereozentren) und Doppelbindungsgeometrie-Marker (/, ), die definierten Konventionen folgen, so dass die relative dreidimensionale Anordnung der Substituenten aus der linearen Zeichenkette rekonstruiert werden kann.

Canonical und Isomeric SMILES

Zwei verwandte Konzepte sind in der Praxis wichtig: Canonical SMILES und Isomeric SMILES. Canonical SMILES bietet eine einzigartige String-Repräsentation für eine gegebene Molekularverbindung nach einem definierten Algorithmus, die das Indizieren und Vergleichen von Datenbanken erleichtert. Isomeric SMILES kodieren zusätzlich isotopische Substitution und stereochemische Informationen, so dass verschiedene Isomere derselben Verbindung unterschieden werden können. Die explizite Angabe der Ladung ist jedoch ein allgemeines Merkmal von SMILES und ist nicht auf isomere Formen beschränkt, so dass die Ladung sowohl in kanonischen und nicht-kanonischen als auch in isomeren und nicht-isomeren SMILES angegeben werden kann.

Einzigartigkeit und Grenzen

Trotz seiner weiten Verbreitung ist SMILES an sich nicht eindeutig, es sei denn, es wird kanonisiert, und die erzeugte kanonische Form kann von der Implementierung und dem verwendeten Algorithmus abhängen. Dennoch machen die Einfachheit, die menschliche Lesbarkeit und die Kompatibilität mit textbasierten Workflows SMILES zu einem grundlegenden Format in der modernen Computerchemie und dem chemischen Datenmanagement. und ein natürlicher Partner für andere Identifikatorsysteme.

Tool-Support und InChI

Mehrere Chemoinformatik-Toolkits, darunter RDKit und Open Babel, unterstützen SMILES-Parsing, -Generierung und -Kanonisierung. Erweiterungen wie SMARTS (für die Substruktursuche) und SMIRKS (für Reaktionstransformationen) bauen auf der SMILES-Syntax auf. Zur dauerhaften und standardisierten Identifizierung wurde später der IUPAC International Chemical Identifier (InChI) als ergänzendes Konzept entwickelt.