SMILES

SMILES (ang. Simplified Molecular Input Line Entry Specification) – sposób jednoznacznego zapisu struktury cząsteczek związków chemicznych z wykorzystaniem ciągu znaków ASCII.

SMILES jest na tyle jednoznaczny, że można na jego bazie tworzyć oprogramowanie automatycznie przekształcające go w pełne, płaskie wzory strukturalne związków chemicznych i jednocześnie na tyle prosty, że mogą się nim posługiwać bezpośrednio ludzie. SMILES służy do prostej wymiany i zapisu informacji o strukturze związków chemicznych w wielu różnych sytuacjach – od programów rysujących pełne wzory strukturalne po tworzenie baz danych. SMILES nie ma jednak możliwości zapisu pełnej, trójwymiarowej struktury związków oraz nie można w nim zapisywać struktur z nietypowymi wiązaniami chemicznymi spotykanymi w chemii związków koordynacyjnych.

Oryginalna specyfikacja SMILES została stworzona przez Arthura Weiningera i Davida Weiningera pod koniec lat 80. XX wieku. Została ona później zmodyfikowania i rozszerzona głównie przez firmę Daylight Chemical Information Systems Inc., która objęła ją swoimi prawami autorskimi.

Inne, konkurencyjne liniowe techniki zapisu struktury związków chemicznych to Wiswesser Line Notation (WLN), ROSDAL i SLN (Tripos Inc). Na początku XXI wieku IUPAC wprowadziła swój własny standard liniowego zapisu struktur chemicznych o nazwie InChI, który jest bardziej uniwersalny od SMILES, ale trudniejszy do stosowania bezpośrednio przez ludzi i mniej intuicyjny. Istnieje także, zgodny ze standardem XML język znaczników do zapisu struktury związków chemicznych i przebiegu reakcji o nazwie Chemical Markup Language (CML), który w odróżnieniu od SMILES jest dostępny na wolnej licencji.

Kanoniczny SMILES i Izomeryczny SMILES

Termin kanoniczny SMILES odnosi się do wersji SMILES, którego reguły gwarantują, że każdemu związkowi chemicznemu można przypisać jednoznaczny i unikatowy zapis. Kanoniczny SMILES jest stosowany do indeksowania związków chemicznych w bazach danych.

Termin Izomeryczny SMILES odnosi się do wersji SMILES, która umożliwia zapis izotopów oraz izomerów optycznych. Izomeryczny SMILES pozwala zatem na rozróżnienie w zapisie dwóch enancjomerów oraz związków znakowanych izotopowo.

Obie wersje SMILES są funkcjonalnie zbliżone do zwykłych wzorów strukturalnych – nie można w nim jednak zapisywać konformacji cząsteczek, czy ich rzeczywistej struktury przestrzennej uwzględniającej długości i kąty wiązań. Nie jest też do końca rozwiązany problem zapisu wiązań wodorowych i wiązań koordynacyjnych.

SMILES został zaprojektowany głównie do przedstawiania związków organicznych, ale umożliwia też przedstawianie większości związków nieorganicznych. Nie można jednak za jego pomocą przedstawić wielu związków metaloorganicznych, kompleksowych i struktur supramolekularnych.

SMARTS

SMARTS to SMILES poszerzony o definicję wieloznaczników kodujących określone grupy atomów i wiązań chemicznych. SMARTS jest użytecznym narzędziem do wyszukiwania związków chemicznych po ich uogólnionych strukturach w bazach danych. Większość programów używających SMARTS nie stosuje prostego porównywania samych zapisów SMILES ze wzorcem wyszukiwania, lecz stosuje złożone przekształcenia zapisów w matematyczne zapisy grafów i następnie wyszukuje struktury pasujące do wzorca z wykorzystaniem narzędzi porównujących bezpośrednio grafy.

Struktura zapisu

Tworzenie zapisu SMILES na przykładzie cyprofloksacyny

Teoria

Z matematycznego punktu widzenia każdy wzór strukturalny związku chemicznego można uznać za graf nieskierowany, którego wierzchołki reprezentują atomy, a krawędzie między nimi reprezentują wiązania chemiczne. Specyfikacja SMILES jest funkcją jednoznacznie przekształcającą graf struktury chemicznej w ciąg znaków ASCII.

Pierwszy etap tego przekształcenia polega na usunięciu z grafu wierzchołków odpowiadających atomom wodoru, gdyż prawie zawsze można je domyślnie uzupełnić. W drugim etapie układy cykliczne występujące w strukturze są przekształcane w graf acykliczny poprzez ścisłe reguły ich symbolicznego „rozrywania” i przypisywanie atomom, które były połączone przed rozerwaniem wspólnych oznaczeń liczbowych. W trzecim etapie rozpoznawane są węzły wiązań wielokrotnych i rozgałęzień struktury, które są zapisywane później poprzez stosowanie nawiasów i znaków symbolizujących wielokrotność wiązań.

Przykłady SMILES

Atomy w zapisie SMILES są reprezentowane przez standardowe symbole pierwiastków stosowane w układzie okresowym i wzorach sumarycznych. Symbole te są zapisywane w nawiasach kwadratowych. Np. [Au] to atom złota. Dla uproszczenia zapisu tzw. pierwiastki organiczne (B, C, N, O, P, S, F, Cl, Br, I) mogą być zapisywane bez kwadratowych nawiasów. Oprócz tego specyfikacja SMILES umożliwia uproszczony zapis najbardziej popularnych jonów i grup funkcyjnych. Np. anion hydroksylowy można zapisać jako [OH-]. Dla pierwiastków, które wolno zapisywać bez nawiasów kwadratowych pomija się atomy wodoru przyjmując, że należy je uzupełnić tak aby pierwiastek miał typową dla siebie w związkach organicznych wartościowość (jeżeli użyje się nawiasu, atomy wodoru nie są dodawane). Gdy między symbolami pierwiastków nie ma żadnych dodatkowych znaków oznacza to, że są one połączone pojedynczymi wiązaniami chemicznymi.

Np.:

C – oznacza domyślnie metan (CH4)
O – oznacza domyślnie wodę (H2O)
CCO – oznacza domyślnie etanol (CH3CH2OH)
CO – oznacza domyślnie metanol (CH3OH)

Wiązania podwójne oznacza się przy pomocy znaku „=”, zaś potrójne przy pomocy znaku „#”. SMILES nie pozwala na zapisywanie wiązań czterokrotnych, które jednak są rzadko spotykane.

Np.:

O=C=O – oznacza dwutlenek węgla (CO2)
C#C – oznacza acetylen (HC≡CH)
C=O – oznacza aldehyd mrówkowy (H2CO)
[C]=O – oznacza tlenek węgla (CO)

Rozgałęzienia struktury oznacza się przy pomocy nawiasów.

Np.:

CC(=O)O – oznacza kwas octowy (CH3COOH)
CC(C)C – oznacza 2-metylopropan (CH3CH(CH3)CH3)

Układy cykliczne przedstawia się za pomocą symbolicznego „rozerwania” jednego, wybranego wiązania tworzącego cykl i przypisania połączonym tym wiązaniem atomom tej samej liczby, przy czym liczbę numerującą atomy połączone tym samym wiązaniem, które zostało myślowo „rozerwane” pisze się zawsze po, a nie przed jego symbolem.

Np.:

C1CC1 – oznacza cyklopropan
Cyclopropane.svg

Pierścienie związków aromatycznych zapisuje się często z kółkiem symbolizującym zdelokalizowane wiązania π. W zapisie SMILES oddaje się to stosując małe litery jako symbole pierwiastków, np. „c” i „n” zamiast „C” i „N” dla atomów węgla i azotu. Dwuliterowe symbole pierwiastków ujmuje się w takiej sytuacji w nawiasy kwadratowe, np. „[as]” zamiast „As” dla arsenu.

Np.:

c1ccccc1 – oznacza benzen z kółkiem:
Benzene circle.svg
a C1=CC=CC=C1 ze sprzężonymi wiązaniami podwójnymi:
Benzene 200.svg

Przykłady izomerycznego SMILES

Konfiguracja izomerów E-Z (cis-trans) jest zapisywana z użyciem znaków „/” i „\”. Zapis „A/X=X/B” oznacza izomer trans, a „A/X=X\B” izomer cis.

Np.:

C/C=C/C – oznacza (E)-but-2-en (trans-but-2-en)
Trans-2-butene.svg
C/C=C\C – oznacza (Z)-but-2-en (cis-but-2-en)
Cis-2-butene.svg

Konfiguracja absolutna dla związków chiralnych jest zapisywana za pomocą znaku „@” i „@@”. „@” – znaczy skierowanie występującego za tym znakiem atomu lub podstawnika w stronę do tyłu płaszczyzny głównej wzoru, zaś „@@” – oznacza skierowanie występującego za tym znakiem atomu lub podstawnika przed płaszczyznę główną wzoru, przy czym oznaczenie to powinno odnosić się do podstawnika lub atomu o najmniejszej wadze zgodnie z regułami ważności Cahna-Ingolda-Preloga, a zatem bardzo często odnosi się to do atomu wodoru, który jest w tej sytuacji wyjątkowo jednak nie pomijany.

Np.:

N[C@]([H])(C)C(=O)O – oznacza (S)-alaninę
N[C@@]([H])(C)C(=O)O – oznacza (R)-alaninę
Projekcja stereochemiczna R i S alaniny


Bibliografia

  • Anderson, E., G.D. Veith, and D. Weininger. 1987. SMILES: A line notation and computerized interpreter for chemical structures. Report No. EPA/600/M-87/021. U.S. EPA, Environmental Research Laboratory-Duluth, Duluth, MN 55804
  • David Weininger, SMILES, a chemical language and information system. 1. Introduction to methodology and encoding rules, „Journal of Chemical Information and Modeling”, 28 (1), 1988, s. 31–36, DOI10.1021/ci00057a005 [dostęp 2022-04-20] (ang.).
  • Harold E. Helson, Structure Diagram Generation, [w:] Kenny B. Lipkowitz, Donald B. Boyd (red.), Reviews in Computational Chemistry. Volume 13, New York, N.Y.: John Wiley & Sons, 1999, s. 313–398, DOI10.1002/9780470125908.ch6, ISBN 978-0-470-12617-2, OCLC 86222077 (ang.).

Linki zewnętrzne

Media użyte na tej stronie

Cis-2-butene.svg
Skeletal diagram of cis-2-butene.
Cyclopropane.svg
Compressed structural formula of cyclopropane
Benzene 200.svg
Structure of benzene
Benzene circle.svg
chemical structure of benzene using aromatic layout
SMILES.png
Autor: Original by Fdardel, slight edit by DMacks, Licencja: CC-BY-SA-3.0
deriving the SMILES representation of a chemical molecule, Shown example: ciprofloxacin, a fluoroquinolone antibiotic.
Trans-2-butene.svg
Skeletal diagram of trans-2-butene.
Alanine enantiomers.svg
Chemical diagram showing the relationship between the two enantiomers of alanine