Chemical Table File Formats
Einführung
Chemische Tabellendateien (CTfiles) sind eine Gruppe textbasierter chemischer Dateiformate zur Beschreibung von Ansammlungen von Atomen wie Molekülen, intermetallischen Verbindungen, Gemischen, Formulierungen, Polymeren oder unverbundenen Atomen. Bindungen in einem Bindungsblock und Atome mit ihren x-y-z-Koordinaten in einem Atomblock werden in einer Verbindungstabelle (Ctab) aufgeführt. CTfiles können auch verwendet werden, um zusätzliche Informationen zu speichern. Der folgende Abschnitt fasst die wichtigsten Details zu diesen Formaten zusammen.
Molfies, rxnfile, SDfiles und RDfiles
Die Strukturen und Beziehungen der wichtigsten CTfiles sind in Abbildung 1 dargestellt. Die Molfile ist die einfachste CT-Datei und enthält die Atomkoordinaten sowie eine Ctab einer einzelnen Ansammlung von Atomen. Die Reaktionsdatei (rxnfile) umfasst mehrere Molfiles von Reaktanten und Produkten, während die Spezifikation keine Agenzien wie Lösungsmittel, Reagenzien oder Katalysatoren enthält, die normalerweise über oder unter einem Reaktionspfeil eingezeichnet sind. Die SD-Datei (Strukturdatendatei) enthält ein oder mehrere Molfiles und einen Datenblock für zusätzliche Informationen, während die RD-Datei (Reaktionsdatendatei) auch rxnfiles enthalten kann.
Abbildung 1: Beziehung zwischen den Formaten molfile, rxnfile, SDfile und RDfile gemäß der Spezifikation. RGfiles und RDfiles, die molfiles enthalten, wurden aus Gründen der Übersichtlichkeit weggelassen.
Der Datenblock kann aus mehreren Datenelementen bestehen, die jeweils mit einem Datenkopf in einer Zeile beginnen, gefolgt von den Daten, die sich über mehrere Zeilen erstrecken können. Jedes Datenelement wird durch eine Leerzeile abgeschlossen.
Nicht alle CTfiles verwenden kontrollierte Vokabulare oder Ontologien im Datenblock, aber diese können aufgrund der textbasierten Natur der CTfile-Formate leicht hinzugefügt oder verknüpft werden. Ein Beispiel ist das kontrollierte Vokabular für SDtags des offenen analytischen Datenformats NMReDATA. Der Datenblock kann auch zur Speicherung zusätzlicher Daten verwendet werden, um die Maschinenlesbarkeit chemischer Strukturen zu verbessern.
Es sind zwei Varianten dieser Formate in Gebrauch. Aufgrund von Einschränkungen im V2000-Format wurde das erweiterte V3000-Format veröffentlicht. Dieses V3000-Format enthält auch einen Sammlungsblock, einen Vorlagenblock, eine erweiterte Verbindungstabelle (erweiterte CTAB) und erweiterte Funktionen zur Stereochemie. Das V2000-Format ist in der Größe der Moleküle begrenzt, da es nur bis zu 999 Atome unterstützt und daher nicht für große Moleküle geeignet ist. Außerdem unterstützt das V2000-Format keine R-Gruppen. Die V3000-Variante wird jedoch derzeit nicht von allen Werkzeugen und Anwendungen unterstützt. Das V2000-Format sollte verwendet werden, um die Interoperabilität zu maximieren, insbesondere für die Chemie, die sich mit kleinen Molekülen befasst.
CTfiles wurden von MDL Information Systems entwickelt, das später von Symyx Technologies übernommen, mit Accelrys Corp. fusioniert und in BIOVIA umbenannt wurde, das heute zur Dassault-Gruppe gehört. Diese Formate können ohne Einschränkungen durch Lizenzen gemäß der Richtlinie der Europäischen Union 2009/24/EG und dem EuGH-Urteil C-406/10 verwendet werden.
Quellen und weitere Informationen
Hauptautor: ORCID:0000-0003-4480-8661