1 CONCEPTOS BÁSICOS

1.1 Métodos estadísticos

Los métodos estadísticos conllevan la aplicación de la estadística a un conjunto de datos. En tal sentido, aunque usan las herramientas elaboradas a partir de la teoría estadística, se diferencian de esta en su objetivo final. Teniendo en cuenta lo anterior, pueden definirse los métodos estadísticos como las técnicas enfocadas en facilitar las labores de recolectar, resumir, resaltar, comparar, modelar, generalizar y analizar datos provenientes de procesos que involucren algún grado de incertidumbre.

La anterior definición es bastante general y recoge aspectos, que, precisados en cierta medida, constituyen la definición de métodos específicos tales como muestreo, métodos descriptivos, regresión, pruebas de hipótesis y diseño de experimentos. Algunos de estos métodos se desarrollan en este libro.

En concreto…

Las técnicas de regresión, el análisis de varianza y las pruebas de hipótesis —cuando son aplicados sobre conjuntos de datos particulares— sirven de ejemplo de lo que son los métodos estadísticos.

1.2 Variable

Es una característica que, tal y como su nombre lo indica, varía o cambia entre las diferentes unidades evaluadas. Cuando todas las unidades observadas son homogéneas para una característica, tal característica no es una variable, sino una constante. En general, se denomina variable a cada una de las características observada, medida o registrada sobre las unidades de estudio.

1.2.1 Tipos de variables

En términos amplios suele hablarse de variables cualitativas y cuantitativas. Las variables cualitativas son atributos no numéricos, mientras que las variables cuantitativas sí se miden numéricamente.

Como ejemplo de variables cualitativas pueden mencionarse la raza, el color, el sexo, el sustrato y el uso del suelo. En contraste, el peso, el diámetro, la longitud, el número de esporas, la temperatura y la mortalidad son variables cuantitativas.

Ayuda nemotécnica

Es bastante fácil establecer una relación nemotécnica entre este sistema de clasificación y las características de las variables, dado que las cualitativas reflejan cualidades, mientras que las cuantitativas reflejan cantidades.

¡Depende de la manera en que se registre!

La clasificación de una variable no es absoluta, pues depende de la cantidad de información que se considere. Así, por ejemplo, si para el color, se registraran las longitudes de onda, en lugar del tradicional sistema de nombres (amarillo, azul, rojo, etc.), esta sería una variable cuantitativa.

Por el contrario, si al evaluar la altura de una planta no se utilizara algún instrumento de medición, sino que estas se expresaran como altas, medianas y bajas, se tendría una variable cualitativa.

1.2.2 Escalas de medición

Las escalas de medición configuran un sistema de clasificación de variables más detallado que el sistema cualitativo-cuantitativo. Cuando se habla de una escala de medición, se tiene en cuenta la forma en que se registra la información de una variable. La escala de medición de una variable indica la naturaleza de la información que esta conlleva.

¿Y para qué sirven?

La escala de medición de una variable, más allá de ser un mero sistema de clasificación, brinda pautas sobre las posibilidades y restricciones de los métodos estadísticos con base en los cuales se puede operar sobre esta.

1.2.2.1 Escala nominal

Es la escala de medición más débil, es decir, la que contiene menos información. Está conformada por un conjunto de categorías no ordenadas, por lo que también se le conoce como escala categórica. Las variables color, sexo, especie, raza, nombre y procedencia se registran en esta escala.

El valor asociado con cada una de las categorías de la variable no es más que una etiqueta de identificación, sin otro valor de comparación con otros niveles de la escala que el de igualdad o diferencia.

¡Siguen siendo nominales!

Aunque se utilizaran etiquetas numéricas para la identificación de las diferentes categorías (1: rojo, 2: azul, 3: amarillo, etc.), su única función sería la de señalar la membresía de una unidad a una categoría determinada; estas etiquetas no conllevarían ningún tipo de información numérica, pudiendo intercambiarse arbitrariamente entre categorías o remplazarse por cualquier otro símbolo no numérico.

¡Las binarias también son nominales!

Un caso particular de variables nominales es el de aquellas con solo dos categorías exhaustivas y mutuamente excluyentes, esto es, las variables binarias o dicotómicas (vivo-muerto, macho-hembra, éxito-fracaso, etc.).

Al generar representaciones gráficas de variables nominales (cf. secciones 2.3.4 y 2.3.5), no existe una posición u orden predeterminado para cada categoría, siendo posible ubicar las categorías indistintamente en cualquier posición, sin que se altere la información contenida en la representación.

1.2.2.2 Escala ordinal

Existe un orden natural entre los diferentes niveles de esta escala, siendo posible establecer cuál es el primero, el segundo, etc., en relación con una característica particular. En tal sentido, las variables medidas en esta escala contienen más información que las variables medidas en una escala nominal.

Se miden en esta escala características como estrato socioeconómico, estado sanitario de un cultivo (sano, levemente afectado, medianamente afectado, fuertemente afectado) y velocidad de crecimiento de un microorganismo (lento, moderado, rápido).

¡Las valoraciones subjetivas son ordinales!

Los puntajes o valoraciones establecidas por jueces o panelistas —aunque suelen denotarse con números— también forman parte de esta escala.

El valor asociado con cada uno de los niveles de esta escala representa un rango (1: lento, 2: moderado, 3: rápido), lo que permite establecer comparaciones de orden entre los diferentes niveles (mayor que, menor que, igual que).

¿Y qué hay de la distancia entre niveles?

No puede asumirse que la distancia o diferencia entre todos los pares de categorías adyacentes sea la misma.

Así, en general, no resulta correcto afirmar que la distancia entre los niveles 1 y 2 de una escala ordinal sea igual a la distancia existente entre los niveles 4 y 5.

1.2.2.3 Escala numérica

El valor asociado con cada nivel de esta escala indica la cantidad o intensidad de la característica medida.

La distancia entre cualquier par de niveles adyacentes de una variable medida en esta escala es la misma. Esta propiedad permite establecer comparaciones entre cualquier par de intervalos en la escala.

Si, además, la escala posee un valor de referencia cero que se corresponda con la ausencia de la característica medida, también será posible establecer relaciones de razón.

Esta es la escala de medición más fuerte, por cuanto contiene mayor cantidad de información. En general, existen mayores posibilidades de análisis cuando se tienen variables numéricas que cuando se tienen variables medidas en cualquiera de las otras dos escalas.

Aunque las tres escalas expuestas bastan para establecer pautas de uso de diferentes métodos estadísticos, se discutirán algunos aspectos adicionales relativos a las escalas de medición y a la clasificación de variables, con el fin de ampliar el panorama y evitar posibles confusiones.

¿¡Y las escalas de intervalo y de razón!?

La definición de escala numérica presentada anteriormente integra la escala de intervalo y la escala de razón. Estas dos escalas numéricas se diferencian únicamente por la existencia de un punto cero verdadero que corresponda con la ausencia de la característica medida.

En caso de que exista tal punto cero de referencia, se tendrá una escala de razón, siendo posible establecer cualquier tipo de comparación entre niveles de dicha escala, incluso, comparaciones de razón. Para una variable medida en dicha escala es válido afirmar, por ejemplo, que 10 es el doble de 5.

En contraste, las escalas de intervalo no poseen un punto cero verdadero que corresponda con la ausencia de la característica medida, lo que impide realizar comparaciones de razón.

El ejemplo más típico de las escalas de intervalo es el de las escalas usualmente utilizadas para medir temperatura: cero grados Celsius es un valor relativamente arbitrario de la escala, que no representa ausencia de calor. Al usar otra escala, por ejemplo, Fahrenheit, se toma otro valor cero de referencia, que tampoco representa ausencia de calor. Esto implica que los ceros arbitrarios de diferentes escalas no coinciden, impidiendo afirmar, por ejemplo, que 10 grados es el doble de 5 grados.

¿!No!?

Aunque tal afirmación podría parecer natural dentro de una escala, por ejemplo, Celsius, cuando tales valores se pasan a otra escala, por ejemplo, Fahrenheit, tal afirmación ya no parece tan natural: ¿50 °F es el doble de 41 °F?¹

Las únicas comparaciones válidas al usar una escala de intervalos son las comparaciones por intervalos: la distancia entre 5 y 10 grados es la misma que entre 15 y 20 grados. Esta afirmación es válida, sin importar si se está considerando la escala Celsius, la Fahrenheit o cualquier otra.

¿¡Y qué hay de las discretas y las continuas!?

Otro sistema clasifica las variables numéricas en discretas y continuas. Una variable es discreta si entre dos valores contiguos no existe ningún otro valor posible. Esto implica que haya “saltos” entre los valores que toma la variable. En contraste, para las variables continuas existen infinitos valores entre cualquier par de valores de la escala, sin importar lo cercanos que se encuentren entre sí.

Si bien es cierto que las variables discretas usualmente corresponden a conteos que guardan correspondencia con la serie de los números naturales incluyendo el cero y no involucran cifras decimales, esto no es necesariamente así.

Considérese un taxímetro calibrado para incrementar 3.5 USD cada cierta cantidad de metros recorridos o de tiempo transcurrido. Los valores marcados serán: 3.5, 7, 10.5… O considérese la relación de respuestas correctas respecto al total de preguntas formuladas en un examen de 5 puntos: 0, 0.2, 0.4, 0.6… A pesar de no guardar correspondencia con la serie de números naturales, las variables de ambos ejemplos son discretas.

Debido a las unidades utilizadas para expresar algunas variables, estas pueden parecer discretas. Por ejemplo, el tiempo expresado en segundos o el peso expresado en gramos. No obstante, estas variables son continuas. Nótese que, independientemente de la precisión que pueda tener un instrumento de medición, entre 4 y 5 g existen infinitos pesos.

Tanto las variables continuas como las discretas son numéricas.

Nota 1.1: Correspondencia entre sistemas

La categoría de variables cualitativas integra las escalas nominal y ordinal, mientras que la categoría de variables cuantitativas corresponde a la escala numérica.

1.3 Población

Desde el punto de vista aplicado, suele conceptualizarse como el conjunto de todas las unidades que poseen una o más características comunes. Tales características pueden ser de muy diversa índole: genéticas, físicas, químicas, funcionales, espaciales o temporales, entre otras.

La población no es un concepto cerrado y estático que se le “entregue” al investigador; por el contrario, se trata de un concepto abierto y dinámico que debe ser definido, ampliado o restringido por el investigador, acorde con sus necesidades.

En tal sentido, un investigador de las ciencias sociales, por ejemplo, podría definir su población objetivo como el grupo de mujeres afrodescendientes, menores de 18 años, que estuvieron inscritas en cátedras de contexto en la Universidad Nacional de Colombia, durante los periodos en los que se ofrecieron cursos virtuales por causa del covid-19.

¡Habrá que redefinirla!

Sin desconocer el valor de esta conceptualización en el ámbito aplicado para demarcar el objeto de una investigación, es importante señalar que la estadística matemática, que sirve de fundamento a los métodos estadísticos, define una población como el conjunto de todos los valores que puede tomar una variable (una población de pesos, una población de longitudes, etc.).

En tal sentido, en una población como la definida anteriormente existirán tantas poblaciones como variables se registren (cf. sección 3.9).

1.4 Muestra

Es cualquier subconjunto de elementos seleccionados de una población. Lo ideal es que dicho subconjunto represente a la población (muestra representativa), o sea, que refleje las características esenciales de la misma, de manera que a partir del análisis de la muestra puedan realizarse generalizaciones no sesgadas sobre la población.

1.5 Parámetros

Los parámetros son constantes —usualmente desconocidas— que caracterizan las poblaciones. Se requeriría conocer toda la población para calcular su valor exacto.

1.6 Estadísticos

Son medidas calculadas con base en información muestral, que se usan para su caracterización, así como para la estimación de los parámetros poblacionales.

1.7 Estadística descriptiva

Es la rama de la estadística que se dedica a la presentación, organización y resumen de los datos, usando tablas, gráficos y medidas numéricas de resumen, que representan y resaltan las características esenciales de la muestra o de la población.

1.8 Estadística inferencial

Es la parte de la estadística que proporciona las herramientas para generalizar los resultados observados en una o más muestras a la población o poblaciones de origen. Sus herramientas genéricas son la estimación y las pruebas de hipótesis.

Aunque la definición de las herramientas en cuestión forma parte de la teoría estadística, y está basada en constructos matemáticos, estos son usados como modelos distribucionales de poblaciones reales —acorde con la definición presentada en la sección 1.3— para concluir sobre estas.

\(\text{°F}=\frac{9}{5}\text{°C}+32\)↩︎