La expresión de un gen es la transcripción y traducción de un gen en ARN mensajero y, por tanto, en proteínas (excepto en el caso de micro ARN ). La coexpresión se produce cuando varios genes se expresan en condiciones similares. Una red de coexpresión de genes (GCN) es un gráfico, donde cada nodo corresponde a un gen y un par de nodos están conectados por un arco si existe una relación significativa de coexpresión entre ellos. Se puede construir una red de coexpresión génica, si se dispone de suficientes perfiles de expresión génica, a partir de múltiples muestras o de experimentos, buscando pares de genes que tengan un patrón de expresión similar. Es decir, un modelo de expresión donde los niveles de transcripción de dos genes expresados de forma conjunta suben y bajan simultáneamente en las diferentes muestras. Las redes de coexpresión de genes (GCN) son biológicamente interesantes porque revelan genes que están controlados por el mismo programa de regulación transcripcional , o que están funcionalmente vinculados, o incluso que son miembros del gen, la misma red de regulación genética.
La dirección y el tipo de relación de coexpresión no está definido en las redes de coexpresión de genes, a diferencia de una red de regulación de genes (GRN), donde un arco orientado que conecta dos genes representa un proceso bioquímico. Como reacción, transformación, interacción, activación. o inhibición. Comparado con un GRN, un GCN no permite deducir las relaciones causales entre los genes y en un GCN los arcos solo indican una correlación de expresión de estos diferentes genes. Los módulos o subgrafos altamente interconectados en redes de coexpresión de genes (GCN) corresponden a grupos de genes que tienen una función similar o que participan en un proceso biológico común.
Las redes para la coexpresión de genes se construyen típicamente utilizando conjuntos de datos generados por la expresión de genes utilizando tecnologías de alto rendimiento como microarrays o RNA-Seq.
Butte y Kohane introdujeron el concepto de redes de coexpresión de genes en 1999 como " redes de relevancia" . Bute y Kohane integraron posteriormente este enfoque con datos de expresión génica para construir la primera red de coexpresión génica.
Para construir una red de coexpresión de genes, es necesario seguir un enfoque de dos pasos: primero calcular el grado de coexpresión, luego seleccionar el umbral a partir del cual se considera que esta expresión se vuelve significativa.
Primero, se selecciona una medida de coexpresión y se calcula una puntuación de similitud para cada par de genes utilizando este valor. Luego, se determina un umbral y se considera que los pares de genes que tienen una puntuación de similitud superior al umbral seleccionado tienen una coexpresión significativa y están vinculados por un arco en la red.Los datos de entrada para la construcción de una red de coexpresión genética a menudo se representan mediante una matriz. Si tenemos los valores de expresión génica de m genes para n muestras (condiciones), los datos de entrada serían una matriz m × n, llamada matriz de expresión. Por ejemplo, en un experimento de microarrays, se miden los valores de expresión de miles de genes para varias muestras. En el primer paso, se calcula una puntuación de similitud (medida de coexpresión) para cada par de filas de la matriz de expresión. La matriz resultante sería una matriz m × m, llamada matriz de similitud. Cada elemento de esta matriz muestra cuán similar es el nivel de expresión de dos genes. En el segundo paso, los elementos de la matriz de similitud que exceden un cierto umbral (es decir, coexpresiones significativas) se reemplazan con 1 y los elementos restantes se reemplazan con 0. La matriz resultante, llamada matriz adyacente, representa el gráfico de red. En esta matriz, cada elemento muestra si dos genes están conectados en la red (elementos 1) o no (elementos 0).
El coeficiente de correlación de Pearson (en) , la información mutua , la correlación de Spearman y la distancia euclidiana son los cuatro métodos más utilizados para construir la coexpresión de redes de genes. También se utilizaron varias otras medidas, como la correlación parcial , la regresión y una combinación de correlación parcial e intercambio de información.