El código genético es el conjunto de reglas que permiten traducir la información contenida en el genoma de las células vivas para sintetizar proteínas . En sentido amplio, establece la correspondencia entre el genotipo y el fenotipo de un organismo . Este código se basa en particular en la correspondencia entre, por un lado, tripletes de nucleótidos , llamados codones , en el ARN mensajero y, por otro lado, los aminoácidos proteinogénicos incorporados en las proteínas sintetizadas durante la fase de traducción del ARN mensajero. por ribosomas .
Con algunas excepciones, cada codón corresponde a un único aminoácido proteinogénico. Dado que la información genética se codifica exactamente de la misma manera en los genes de la gran mayoría de las diferentes especies vivientes , este código genético específico se conoce generalmente como el código genético estándar, o canónico, o incluso simplemente como "El" código genético; sin embargo, hay un cierto número de variantes de este código genético, pero que generalmente se limitan a unos pocos codones. Tales variantes existen, por ejemplo, dentro de las propias células humanas, entre su citosol y sus mitocondrias .
La correspondencia entre los codones del ARN mensajero y los aminoácidos proteinogénicos se presenta generalmente en forma de tablas que asocian cada uno de los 64 codones, o tripletes de cuatro posibles bases nucleicas ( 4 3 = 64 ), con uno de los 22 aminoácidos proteinogénicos.
Por extensión, e indebidamente, el público en general llama a veces "código genético" a lo que de hecho es el genotipo de una célula, es decir, todos sus genes .
Durante la expresión de proteínas del genoma , los segmentos de ADN genómico se transcriben en ARN mensajero . Este ARN mensajero (o ARNm) contiene regiones no codificantes, que no se traducen en proteínas, y una o más regiones codificantes, que son traducidas por los ribosomas para producir una o más proteínas . El ARNm está formado por la secuencia de cuatro tipos de bases nucleicas , A , C , G y U , que constituyen las " letras " con las que se escribe el código genético. Este último está formado por " palabras " de 3 letras (nucleótidos) llamadas codones . En las regiones codificantes del ARN mensajero, cada codón se traduce en uno de los 22 aminoácidos proteinogénicos de la proteína que se va a sintetizar.
El número de palabras de tres letras tomadas de un alfabeto de cuatro letras es 4 3 , el código genético comprende 64 codones diferentes, que codifican directamente 20 aminoácidos llamados "estándar", así como la señal de fin de traducción, siendo este último codificada por uno de los 3 parada codones o codones de terminación. Dos aminoácidos raros, selenocisteína y pirrolisina , se insertan al nivel de ciertos codones de terminación, la recodificación de los cuales en codones de aminoácidos ocurre en presencia de estructuras particulares de tipo tallo-bucle o horquilla, inducidas por secuencias de inserción específicas en el mensajero. ARN.
Un codón se define por el primer nucleótido a partir del cual comienza la traducción . Por tanto, la cadena GGGAAACCC se puede leer de acuerdo con los codones GGG · AAA · CCC, GGA · AAC y GAA · ACC dependiendo de si la lectura del codón se inicia desde el primer, segundo o tercer nucleótido, respectivamente. Por tanto, cualquier secuencia de nucleótidos puede leerse de acuerdo con tres marcos de lectura distintos, que dan como resultado traducciones en aminoácidos completamente diferentes: en nuestro ejemplo, tendríamos respectivamente los aminoácidos Gly - Lys - Pro , Gly - Asn y Glu - Thr .
En los genes, el marco de lectura generalmente comienza con un codón AUG que codifica la metionina , o N -formilmétionina en bacterias y en las mitocondrias y cloroplastos de eucariotas .
La traducción genética del ribosoma comienza con un codón de inicio , a veces llamado codón de inicio. A diferencia de los codones de terminación, el codón de inicio solo no es suficiente para iniciar la traducción. El sitio de unión al ribosoma ( RBS ) en procariotas y los factores de iniciación en procariotas y eucariotas son esenciales para el inicio de la traducción. El codón de iniciación más común es AUG, correspondiente a metionina o, en bacterias , a N -formilmetionina . GUG y UUG, que corresponden respectivamente a valina y leucina en el código genético estándar, también pueden ser codones de iniciación en ciertos organismos, interpretándose en este caso como codones para metionina o N -formilmetionina .
Los tres codones de terminación UAG, UGA y UAA, recibieron nombres durante su descubrimiento, respectivamente ámbar , ópalo y ocre . También se denominan codones de terminación o codones de terminación. Hacen que el ribosoma se detenga y la liberación de la cadena polipeptídica recién formada por la ausencia de ARN de transferencia que tenga anticodones adecuados (no hay aminoácidos correspondientes a los tripletes UAG, UGA y UAA), lo que provoca la unión de un factor de terminación .
Tras la replicación del ADN , pueden ocurrir errores de transcripción durante la polimerización de la segunda hebra de ADN por la ADN polimerasa . Estos errores, llamados mutaciones , pueden tener consecuencias sobre el fenotipo de un ser vivo , especialmente si ocurren en las regiones codificantes de un gen . La tasa de error es generalmente muy baja, del orden de un error de replicación en diezcientos millones de bases replicadas mediante la función de corrección de pruebas y corrección de pruebas ( corrección de pruebas ) ADN polimerasas.
Las mutaciones sin sentido y las mutaciones sin sentido son ejemplos de mutaciones puntuales , que pueden causar enfermedades genéticas como la anemia de células falciformes y la talasemia, respectivamente . Las mutaciones sin sentido que tienen un impacto fisiológico significativo son aquellas que conducen a cambiar la naturaleza fisicoquímica - por ejemplo, el impedimento estérico , la naturaleza hidrofílica o hidrofóbica , la carga eléctrica , la naturaleza ácida o básica - de un residuo de aminoácido importante para la función de la proteína modificada. Las mutaciones sin sentido conducen a la introducción prematura de un codón de terminación en la secuencia de la proteína a transcribir, que por lo tanto se trunca y, por lo tanto , se altera en general la función fisiológica en los tejidos .
Las mutaciones que afectan la transcripción por indeles - inserciones y deleciones - de un número de nucleótidos que no es múltiplo de 3 corresponden a un desplazamiento del marco de lectura . Tales mutaciones generalmente dan como resultado un polipéptido que es totalmente diferente del original, tanto en la secuencia de los residuos de aminoácidos traducidos como en la longitud de la cadena polipeptídica producida, ya que la posición de los codones de terminación generalmente se altera durante dicha mutación. Es probable que estas mutaciones hagan que las proteínas resultantes no funcionen, lo que las hace muy raras en las secuencias que codifican proteínas porque a menudo son incompatibles con la supervivencia del organismo afectado. Cuando ocurren, pueden causar enfermedades genéticas graves como la enfermedad de Tay-Sachs .
Si bien la gran mayoría de las mutaciones que afectan la secuencia de proteínas son perjudiciales o intrascendentes, algunas pueden tener efectos beneficiosos. Algunas de estas mutaciones pueden, por ejemplo, permitir que los organismos en los que se encuentran resistan las condiciones de estrés ambiental mejor que la forma salvaje o se multipliquen más rápidamente. Estas mutaciones se ven favorecidas por la selección natural . Los virus de ARN tienen una alta tasa de mutación, lo que es una ventaja para ellos, ya que les permite evolucionar continuamente y evadir el sistema inmunológico de su anfitrión . En grandes poblaciones de organismos que se reproducen asexualmente, por ejemplo en E. coli , pueden ocurrir varias mutaciones beneficiosas al mismo tiempo; este fenómeno se denomina interferencia clonal y se manifiesta en la competencia entre estas diferentes mutaciones, lo que a menudo conduce a la generalización de una de ellas en detrimento de las otras.
El hecho de que los 64 codones codifiquen sólo 22 aminoácidos proteinogénicos , más los codones de terminación, conduce a muchas redundancias. Esto hace que un aminoácido estándar sea codificado en promedio por tres codones distintos, hasta seis codones diferentes. Estamos hablando de codones sinónimos. De los 20 aminoácidos estándar, solo se codifican la metionina y el triptófano , mientras que la asparagina , el aspartato , la cisteína , el glutamato , la glutamina , la histidina , la lisina , la fenilalanina y la tirosina están codificados por dos codones distintos, la isoleucina y la terminación de la traducción están codificadas por tres codones distintos, la treonina , la prolina , la alanina , una glicina y una valina están codificados por cuatro codones diferentes, y la arginina , leucina y serina están codificados por seis codones. Por lo tanto, a menudo hay varios ARN de transferencia asociados con el mismo aminoácido, capaces de unirse a los diferentes tripletes degenerados de nucleótidos en el ARN. Entonces hablamos de isoaceptores de ARNt, porque aceptan el mismo aminoácido.
El uso por un organismo dado de los diferentes codones sinónimos de un aminoácido no es aleatorio. Generalmente observamos lo que se llama sesgo de uso de código . La célula en general expresa preferencias bastante marcadas en la elección de codones sinónimos, por ejemplo, el codón AUA que codifica isoleucina se evita en gran medida en humanos como en Escherichia coli , en comparación con los otros dos codones sinónimos AUU y AUC. Esta preferencia por el uso de codones varía mucho según el organismo y depende, dentro del mismo genoma , de la fracción considerada ( nuclear , mitocondrial , cloroplástica ). Por otro lado, es bastante general para todos los genes transportados por la misma fracción del genoma.
Sin embargo, si el código genético está degenerado, no es ambiguo: cada codón normalmente especifica solo un aminoácido y uno. Cada aminoácido estándar está codificado en promedio por tres codones diferentes, de modo que, estadísticamente, una mutación de cada tres no conduce a ninguna modificación de la proteína traducida: entonces se dice que tal mutación es silenciosa. Una consecuencia práctica de esta degeneración es que una mutación en el tercer nucleótido de un codón provoca generalmente sólo una mutación silenciosa o la sustitución de un residuo por otro que tiene las mismas propiedades hidrófilas o hidrófobas , ácidas o básicas , y también impedimento estérico .
Uno esperaría que las frecuencias de codones sinónimos para un aminoácido dado fueran equivalentes, pero por el contrario, los estudios encuentran una prevalencia de codones (en inglés: codon bias) que tiende a afectar la estructura final de las proteínas. Esta prevalencia también experimentaría una cierta variabilidad entre líneas.
Es en el código genético en el que se basa la biosíntesis de proteínas . El ADN se transcribe en ARN mensajero (ARN m ). Esto es traducido por ribosomas que ensamblan los aminoácidos presentes en el ARN de transferencia (ARN t ). El ARN t contiene un " anti-codón ", complementario a un codón, y lleva el codón de aminoácido correspondiente. La esterificación específica del aminoácido correspondiente a un ARNt dado se lleva a cabo mediante aminoacil-ARNt sintetasas , una familia de enzimas cada una específica para un aminoácido dado. Durante la traducción, el lecho m de ARN del ribosoma codón por codón, conecta un codón ARN m con el anti-codón de un ARN t y agrega el aminoácido transportado por este último a la proteína que se sintetiza.
La siguiente tabla proporciona el significado estándar de cada codón de tres nucleobases de ARN mensajero . Las principales codificaciones alternativas se indican después de una barra :
1 st base de |
2 nd base de |
3 rd de base |
|||||||
---|---|---|---|---|---|---|---|---|---|
U | VS | A | GRAMO | ||||||
U | UUU | F Phe | UCU | S Ser | UAU | Y Tyr | UGU | C Cys | U |
UUC | F Phe | UCC | S Ser | UAC | Y Tyr | UGC | C Cys | VS | |
UUA | L Leu | UCA | S Ser | UAA | Detener ocre | UGA | Detener ópalo /U Sec /W Trp | A | |
UUG | L Leu / iniciación | UCG | S Ser | UAG | Detener ámbar /O Pyl | UGG | W Trp | GRAMO | |
VS | CUU | L Leu | CCU | P Pro | CAU | H Su | CGU | R Arg | U |
CUC | L Leu | CCC | P Pro | CAC | H Su | CGC | R Arg | VS | |
AUC | L Leu | CCA | P Pro | ESO TIENE | Q Gln | CGA | R Arg | A | |
CUG | L Leu / iniciación | CCG | P Pro | CAG | Q Gln | CGG | R Arg | GRAMO | |
A | AUU | I Isla | ACU | T Thr | AAU | N Asn | AGU | S Ser | U |
AUC | I Isla | ACC | T Thr | CAA | N Asn | AGC | S Ser | VS | |
AUA | I Isla | A ESE | T Thr | AAA | K Lirios | AGM | R Arg | A | |
AGO | M Met & iniciación | ACG | T Thr | AAG | K Lirios | AGG | R Arg | GRAMO | |
GRAMO | GUU | V Val | GCU | A A la | GAU | D Áspid | GGU | G Gly | U |
GUC | V Val | GCC | A A la | GAC | D Áspid | GGC | G Gly | VS | |
GUA | V Val | GCA | A A la | GAA | E Pegamento | GGA | G Gly | A | |
GUG | V Val | GCG | A A la | MORDAZA | E Pegamento | GGG | G Gly | GRAMO |
Una forma compacta de representar la misma información utiliza los símbolos de aminoácidos de una letra:
Acide aminé : FFLLSSSSYY**CC*WLLLLPPPPHHQQRRRRIIIMTTTTNNKKSSRRVVVVAAAADDEEGGGG Initiation : ···M···············M···············M···························· 1re base : UUUUUUUUUUUUUUUUCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG 2e base : UUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGG 3e base : UCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAG Mesa inversaComo cada aminoácido de una proteína está codificado por uno o más codones, a veces es útil consultar la siguiente tabla; las principales codificaciones alternativas se indican en pequeños caracteres entre paréntesis.
Aminoácidos | Codones | Comprimido | |||
---|---|---|---|---|---|
Alanina | A | A la | GCU, GCC, GCA, GCG. | GCN | |
Arginina | R | Arg | CGU, CGC, CGA, CGG; AGA, AGG. | CGN, MGR | |
Asparagina | NO | Asn | AAU, AAC. | AAY | |
Ácido aspártico | D | Áspid | GAU, GAC. | Gay | |
Cisteína | VS | Cys | UGU, UGC. | UGY | |
Glutamina | Q | Gln | CAA, CAG. | PORQUE | |
Ácido glutamico | mi | Pegamento | GAA, GAG. | GAR | |
Glicina | GRAMO | Gly | GGU, GGC, GGA, GGG. | GGN | |
Histidina | H | Su | CAU, CAC. | ISLA PEQUEÑA | |
Isoleucina | I | Isla | AUU, AUC, AUA. | AUH | |
Leucina | L | Leu | UUA, UUG; CUU, CUC, CUA, CUG. | YUR, CUN | |
Lisina | K | Lirios | AAA, AAG. | AAR | |
Metionina | METRO | Pone | AGO. | ||
Fenilalanina | F | Phe | UUU, UUC. | UUY | |
Prolina | PAG | Pro | CCU, CCC, CCA, CCG. | CCN | |
Pirrolisina | O | Pyl | UAG, antes del elemento PYLIS . | ||
Selenocisteína | U | Seco | UGA, con secuencia SECIS . | ||
Serina | S | Ser | UCU, UCC, UCA, UCG; AGU, AGC. | UCN, EDAD | |
Treonina | T | Thr | ACU, ACC, ACA, ACG. | ACN | |
Triptófano | W | Trp | UGG. (UGA) | ||
Tirosina | Y | Tyr | UAU, UAC. | UAY | |
Valina | V | Val | GUU, GUC, GUA, GUG. | PISTOLA | |
Iniciación | AGO. (UUG, CUG) | ||||
Terminación | * | UAG, UAA; UGA. | UAR, URA |
La región codificante de un ARNm termina con un codón de terminación . Hay tres codones de parada (UAG, UAA y UGA) que desencadenan la detención de la traducción por parte del ribosoma y la liberación de la proteína completa.
La existencia de variantes del código genético se demostró en 1979 con el código genético de las mitocondrias humanas y, más en general, el de las mitocondrias de vertebrados :
Acide aminé : FFLLSSSSYY**CCWWLLLLPPPPHHQQRRRRIIMMTTTTNNKKSS**VVVVAAAADDEEGGGG Initiation : ································MMMM···············M············ 1re base : UUUUUUUUUUUUUUUUCCCCCCCCCCCCCCCCAAAAAAAAAAAAAAAAGGGGGGGGGGGGGGGG 2e base : UUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGGUUUUCCCCAAAAGGGG 3e base : UCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGUCAGDesde entonces se han observado muchas otras variantes del código genético, incluidas varias variantes mitocondriales y variantes leves como la traducción del codón UGA por triptófano en lugar de un codón de parada en Mycoplasma y la traducción del codón CUG por serina en lugar de leucina en ciertos levaduras como Candida albicans . La siguiente tabla resume algunas variantes importantes del código genético:
Codones de ARN mensajero | UGA | CUU | CUC | AUC | CUG | GUG | CGA | CGC | AUU | AUC | AUA | AGM | AGG |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Código genético estándar | Término | Leu | Leu | Leu | Leu | Val | Arg | Arg | Isla | Isla | Isla | Arg | Arg |
Mitocondrias de vertebrados | Trp | En eso | En eso | En eso | Término | Término | |||||||
Mitocondrias de ascidias | Trp | En eso | En eso | En eso | Gly | Gly | |||||||
Mitocondrias de levadura | Trp | Thr | Thr | Thr | Thr | Abdominales | Abdominales | En eso | |||||
Mitocondrias de invertebrados | Trp | En eso | En eso | En eso | Ser | Ser | |||||||
Bacterias , arqueas y plastidios de plantas. | En eso | En eso | En eso | En eso |
En la medida en que los virus se reproduzcan utilizando los recursos metabólicos - y por lo tanto el código genético - de sus anfitriones , es probable que una variación en el código genético afecte las proteínas sintetizadas y, por lo tanto, su capacidad para reproducirse; ciertos virus, como los del género Totivirus (en) , se han adaptado así a variaciones en el código genético de su hospedador. En bacterias y arqueas , GUG y UUG son codones de iniciación comunes, pero en algunos casos raros algunas proteínas usan codones de iniciación que normalmente no son los de estas especies.
Ciertas proteínas usan aminoácidos no estándar codificados por codones de terminación en presencia de secuencias particulares en el ARN mensajero . Por tanto, el codón de terminación UGA se puede codificar en selenocisteína en presencia de un elemento SECIS mientras que el codón de terminación UAG se puede codificar en pirrolisina en presencia de un elemento PYLIS . A diferencia de la selenocisteína, la pirrolisina está ligada a su ARN de transferencia mediante una aminoacil-ARNt sintetasa dedicada. Estos dos aminoácidos no estándar pueden estar presentes en el mismo organismo pero utilizan diferentes modos de expresión. Una arquea como Acetohalobium arabaticum es capaz, dependiendo de las condiciones de su entorno, de extender su código genético de 20 a 21 aminoácidos al incluir pirrolisina.
Todas estas diferencias siguen siendo marginales a pesar de todo, y los códigos genéticos de todos los organismos siguen siendo esencialmente muy similares: se basan en codones adyacentes de tres nucleótidos de ARN mensajero , siempre leídos en la misma dirección por los ribosomas que ensamblan proteínas de ' amino proteinogénico ácidos en una secuencia determinada haciendo coincidir el anticodón del ARNt con los codones del ARNm.
No hay menos de 1,5 × 10 84 posibilidades de codificar 21 piezas de información (los 20 aminoácidos estándar + el final de la traducción) por 64 codones , un número que corresponde al número de combinaciones posibles que permiten asociar 64 codones a 21 elementos de información tales que cualquier codón y cualquier elemento de información esté asociado con al menos una combinación. A pesar de este número astronómicamente grande, todos los códigos genéticos de todas las formas de vida conocidas son casi idénticos, limitándose a un pequeño número de variaciones menores. Las razones de tal homogeneidad observada universalmente siguen siendo fundamentalmente desconocidas, aunque se han formulado varias hipótesis para explicar esta situación. Son esencialmente de cuatro tipos:
Además, la distribución de codones asignados a los aminoácidos no es aleatoria. Esto se ve por la agrupación de aminoácidos en codones adyacentes. Además, los aminoácidos que comparten una vía metabólica de biosíntesis común también tienden a tener la misma primera base de ácido nucleico en sus codones, mientras que aquellos cuya cadena lateral tiene propiedades fisicoquímicas similares tienden a tener también codones similares, por lo que el efecto de limitar las consecuencias de mutaciones puntuales y errores de traducción . Finalmente, una teoría que explique el origen del código genético también debería reflejar las siguientes observaciones: