hetero_fdr

Autor/a

Guillermo Correa-Londoño

Descripción

Realiza inferencias simultáneas sobre comparaciones por pares y contrastes en escenarios de varianzas heterogéneas, controlando la tasa de falsos descubrimientos.

Uso

hetero_fdr(anova, tto = NULL, pairs = TRUE, coef = NULL, coef.simp = FALSE, UW = TRUE, method = c("BH", "BY"))

Argumentos

anova Objeto de la clase aov o lm que contiene el modelo de ANOVA ajustado
tto Nombre del factor de tratamiento cuyas medias se desean comparar
pairs Realización de todas las posibles comparaciones por pares (def: TRUE)
coef Vector de coeficientes o matriz con cada fila definiendo un contraste
coef.simp Coeficientes simplificados (def: FALSE)
UW Corrección de Ury y Wiggins para los grados de libertad (def: TRUE)
method

Método de control de la tasa de falsos descubrimientos:

  • "BH": Benjamini y Hochberg (por defecto)
  • "BY": Benjamini y Yekutieli

Detalles

El objeto anova debe corresponder a un modelo ajustado de análisis de varianza de una vía o a un modelo lineal equivalente.

En los modelos de análisis de varianza de una vía en DCA, en los que el único término explicativo corresponde a los tratamientos, no es necesario especificar el argumento tto. En modelos más complejos (por ejemplo, con estructuras factoriales o efectos adicionales), es necesario indicar explícitamente el factor de tratamiento cuyas medias se desean comparar.

El argumento pairs, cuyo valor por defecto es TRUE produce todas las posibles comparaciones por pares.

El argumento coef se usa para ingresar los coeficientes que definen los contrastes entre grupos de medias. Se admiten dos clases de objetos de entrada para alimentar los coeficientes: a través de un vector y mediante una matriz.

Para ingresar los coeficientes de un único contraste puede usarse una matriz de una fila o un vector. Para ingresar simultáneamente los coeficientes de varios contrastes, debe usarse una matriz en la que cada fila contenga el conjunto de coeficientes de un contraste particular. En este caso, la matriz tendrá tantas filas como contrastes se evalúen y un número de columnas igual al número de tratamientos.

Los nombres de los contrastes se toman de los nombres de las filas de la matriz.


Considérese un experimento con 4 tratamientos: \(\text{A},\) \(\text{B},\) \(\text{C}\) y \(\text{D}.\) Y supóngase que se desean comparar las medias de los tratamientos \(\text{A}\) y \(\text{D}\) contra la media del tratamiento \(\text{C}\).

Esta comparación puede plantearse mediante un juego de hipótesis:

\[ \begin{align} H_0:&\frac{\mu_\text{A}+\mu_\text{D}}{2}=\mu_\text{C}\\[1.4em] \Rightarrow&\frac{\mu_\text{A}+\mu_\text{D}}{2}-\mu_\text{C}=0\\[1.4em] \Rightarrow&0.5\mu_\text{A}+0.5\mu_\text{D}-\mu_\text{C}=0 \end{align} \]

Luego, el vector de coeficientes correspondientes a los tratamientos \(\text{A},\) \(\text{B},\) \(\text{C}\) y \(\text{D}\) (en ese orden) que define esta comparación es: c(0.5, 0, -1, 0.5).

El orden de los coeficientes debe coincidir con el orden interno de los niveles del factor que define los tratamientos, el cual puede verificarse mediante la instrucción levels.

Para obtener los coeficientes de contrastes que involucren tratamientos con diferente número de réplicas es necesario partir de los promedios ponderados de los tratamientos dentro de cada grupo (cf. Métodos Estadísticos para la Investigación).

Mediante el argumento lógico coef.simp = TRUE se indica que los coeficientes no se introdujeron en el formato estándar1, sino que se usó un formato simplificado consistente en asignarle \(+1\) a todos los tratamientos que conforman el grupo de la izquierda (minuendo); \(-1\) a todos los tratamientos que conforman el grupo de la derecha (sustraendo), y \(0\) a los tratamientos que no participen en el contraste2. En tales casos, se aplica internamente una corrección a tales coeficientes para convertirlos al formato estándar antes de realizar la prueba.

Cuando UW = TRUE, los grados de libertad se corrigen con base en la propuesta de Ury y Wiggins (1971) (cf. Métodos Estadísticos para la Investigación).

La función hetero_fdr realiza todas las posibles comparaciones por pares —si pairs = TRUE— y los contrastes específicos definidos por el usuario mediante el argumento coef.

La corrección de los valores p se realiza por defecto mediante el método de Benjamini y Hochberg (cf. Benjamini y Hochberg). También puede aplicarse la corrección de Benjamini y Yekutieli (cf. Benjamini y Yekutieli). Para ello se usa el argumento method, con valores "BH" (por defecto) o "BY", respectivamente.

Salidas

La función produce una tabla que contiene:

  • Contrastes estimados
  • Estadísticos de prueba \(t_\text{c}\)
  • Grados de libertad aproximados
  • Valores p ajustados para controlar la tasa de falsos descubrimientos
  • Símbolos de significancia

Adicionalmente, al asignar los resultados de la función a un objeto, se obtiene:

  • Nombre del método
  • Coeficientes en formato estándar

Ejemplos

Ejemplo 1.

1data <- readxl::read_excel("Ejemplo.xlsx")
data$tto <- factor(data$tto)
anova <- aov(y ~ tto, data)
2coef <- matrix(c(1, 1, -1, -1, 1), nrow = 1)
rownames(coef) <- c("A, B, E - C, D")
3source("hetero_fdr.R")
4hetero_fdr(anova, coef = coef, coef.simp = TRUE)
1
Importación y preparación de la base de datos y ajuste del modelo ANOVA.
2
Especificación de los coeficientes que definen el contraste, usando formato simplificado.
3
Carga de la función hetero_fdr.
4
Llamado de la función, especificando el uso de coeficientes simplificados. La función transforma automáticamente los coeficientes simplificados en coeficientes ponderados acordes con el número de réplicas de cada tratamiento.

Contrastes mediante el método de Benjamini y Hochberg 
 
               estimado       tc   gl  p_adj sig.
A - B           -4.6000  -2.6997 4.91 0.0959    .
A - C           -7.4000 -12.6291 2.25 0.0138    *
A - D           -1.9000  -1.5344 1.55 0.2979     
A - E            2.4000   2.3080 5.97 0.1112     
B - C           -2.8000  -1.7365 4.06 0.1911     
B - D            2.7000   1.3869 4.59 0.2519     
B - E            7.0000   3.8314 8.00 0.0138    *
C - D            5.5000   4.9592 1.03 0.1661     
C - E            9.8000  11.1106 4.21 0.0029   **
D - E            4.3000   3.0652 2.41 0.1144     
A, B, E - C, D  -4.7205  -5.8356 7.41 0.0029   **

Este método controla la tasa de falsos descubrimientos (TFD)

Referencias Bibliográficas

Benjamini, Y. y Hochberg, Y. 1995. Controlling the false discovery rate: a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society. Series B (Methodological), 57(1), 289-300.

Benjamini, Y. y Yekutieli, D. (2001). The control of the false discovery rate in multiple testing under dependency. The annals of statistics, 29(4), 1165-1188.

Ury, H. K. y Wiggins, A. D. (1971). Large sample and other multiple comparisons among means. British Journal of Mathematical and Statistical Psychology, 24(2), 174-191. doi: 10.1111/j.2044-8317.1971.tb00465.x

Notas

  1. el formato estándar exige que la suma de los coeficientes del grupo de la izquierda sea +1, y la suma de los coeficientes del grupo de la derecha sea -1, de tal manera que la suma de los coeficientes de izquierda y derecha sea 0.↩︎

  2. este formato simplificado aplica únicamente para la función hetero_fdr, no siendo válido para evaluar contrastes por fuera de este contexto.↩︎