10 CLASIFICACIÓN DE OBJETOS

En R los objetos pueden clasificarse con base en tres criterios:

Clase (class)
Tipo (typeof)
Modo (mode)

10.1 Clase

La clase indica, en sentido amplio, la naturaleza del objeto. En R, todos los objetos son de una clase determinada (en ocasiones pueden pertenecer a dos o más clases).

Para averiguar la clase de un objeto, se usa la función class. Las clases más comunes de los objetos contenedores de datos que se presentan en el capítulo 8 son:

entera (integer)
numérica (numeric)
compleja (complex)
lógica (logical)
carácter (character)
matriz (matrix)
arreglo (array)
data frame (data.frame)
lista (list)

Aunque los nombres de las clases coinciden con los de los contendedores de información para las matrices, los arreglos, los data frames y las listas, en el caso de los vectores esta correspondencia no exite, pues no existe una una clase denominada vector.

Los vectores pueden ser de alguna de las cinco primeras clases, según la naturaleza de sus elementos.

¡Ayuda nemotécnica!

Para establecer la relación entre clases y contenedores, puede pensarse cada una de las primeras cinco clases enumeradas anteriormente como si llevaran antepuesta la palabra vector, así: vector numérico, vector complejo, vector lógico, etc.

¡Hay que tener clase!

Como parte de la programación orientada a objetos, R maneja funciones genéricas, que derivan a funciones particulares, tomando en consideración la clase del argumento principal de la función.

Es posible —con ciertas restricciones— modificar la clase de un objeto, mediante el uso de funciones tales como as.matrix, as.data.frame, as.list, as.numeric y as.character, que permiten guardar objetos como matrices, data frames, listas, vectores numéricos y vectores de caracteres, respectivamente. Este proceso se denomina coerción y se explora en mayor detalle en la sección 10.7.

¡No descuide la clase!

La clase de un objeto es especialmente importante, pues cada función exige que sus argumentos sean de una clase particular.

Así, por ejemplo, las operaciones matriciales exigen objetos de la clase matriz (eventualmente, también vectores; cf. sección 8.2.1).

10.2 Tipo

Aunque la clase define la naturaleza de los elementos que conforman un vector, no informa sobre los elementos que conforman los demás objetos atómicos. Para conocer la naturaleza de tales elementos en matrices y arreglos, debe evaluarse su tipo, mediante la función typeof.

Los tipos son cuasicoincidentes con las clases de vectores:

entero (integer)
doble (double)
complejo (complex)
lógico (logical)
carácter (character)

¿doble?

Se habrá notado que con excepción de double, los tipos coinciden con las clases de los vectores.

El nombre double es herencia de la computación de bajo nivel, donde surgió de la necesidad de representar números reales con mayor precisión que la de los flotantes de precisión simple (single-precision), que usaban 32 bits para el almacenamiento y permitían almacenar cada número con aproximadamente 7 u 8 dígitos de precisión.

En contraste, el almacenamiento de doble precisión (double-precision) usaba 64 bits y permitía entre 15 y 16 dígitos.

Al evaluar el tipo de datos que conforman un objeto atómico se obtiene información inequívoca (entero, lógico, carácter, etc.), puesto que todos sus elementos son del mismo tipo.

Sin embargo, cuando se pretende evaluar el tipo de datos que conforman un objeto recursivo, esto es, un data frame o una lista (cf. nota 8.1), el resultado obtenido es list, como un recordatorio de que los elementos alojados en dichos contenedores pueden ser de diferentes tipos. Este resultado es siempre el mismo, aun si se evalúan data frames o listas conformados por elementos del mismo tipo.

No obstante, de ser necesario, puede evaluarse el tipo de cada uno de los objetos que conforman un contenedor recursivo, mediante el uso de los descriptores de acceso apropiados (sección 13.1.3.1).

Naturaleza atómica

A nivel de usuario, la naturaleza de los elementos constituyentes de un objeto atómico (vector, matriz o arreglo) se evalúa a través de su tipo (typeof).

10.3 Modo

El modo, que se verifica con la función mode, tiene que ver con la manera en la que los objetos son almacenados en memoria, siendo cuasicoincidente con el tipo.

El concepto de modo es una herencia de las versiones antiguas de R. En la actualidad es poco usado, prefiriéndose el tipo.

No obstante, el modo cobraría relevancia si se importara o exportara código desde o hacia otros lenguajes tales como S, C, C++ o Fortran. Asimismo, si se requiriera compatibilidad con funciones antiguas.

10.4 Clase factor

En adición a las clases que se presentan en la sección 10.1 como las más comunes entre los vectores atómicos (integer, numeric, logical, character y complex), existe la clase factor.

Los vectores de la clase factor están conformados por los diferentes niveles de una variable categórica.

Considérese el siguiente vector:

a <- c("j", "m", "f", "m", "m", "f")

Aunque el vector a aparentemente está conformado por una serie de niveles de una variable categórica, esto no lo convierte automáticamente en un miembro de la clase factor. El vector a es de la clase character¹. Para que el vector a sea de la clase factor, es necesario definirlo explícitamente como tal, usando la función factor (o también as.factor), así:

a2 <- factor(a)

Aunque el contenido de los vectores a y a2 es en esencia el mismo, la definición de a2 como un vector de la clase factor, le agrega un atributo de niveles (levels) que lo hace apto como insumo de ciertos procesos.

La función levels permite recuperar los niveles de un vector de la clase factor:

levels(a2)

[1] "f" "j" "m"

Nótese que el anterior resultado no enumera todos los elementos del vector a2, sino únicamente los que son diferentes. Estos son los niveles del factor a2.

El resultado de la función levels es un vector con cada una de las categorías o niveles ordenados del factor. El orden por defecto es alfabético; no el orden de aparición en el factor.

Por otra parte, la función nlevels da como resultado el número de niveles de un vector de la clase factor. En este caso, no se enumeran los niveles; simplemente se obtiene su número.

nlevels(a2)

[1] 3

¿Porque aparece un número ineseperado de niveles?

Si al evaluar el número de niveles de un factor aparece un número mayor de niveles que el esperado, puede deberse a un uso descuidado de las mayúsculas y minúsculas.

Recuerde que R es case-sensitive. Consecuentemente, “enero” y “Enero” se registrarían como dos niveles diferentes.

No solamente los vectores de la clase character pueden convertirse a la clase factor. Cualquier vector, sin importar su clase original, puede convertirse en un factor, usando la función factor.

Considérense los siguientes vectores:

b <- c(9, 5, 3, 6, 10, 5, 5, 3)
b2 <- factor(b)

b es un vector de la clase numeric, mientras que b2 es un vector de la clase factor. Estos son sus niveles:

levels(b2)

[1] "3"  "5"  "6"  "9"  "10"

Aunque siguen usándose los mismos símbolos para identificar los niveles del vector b2, estos pierden su concepto como valores numéricos, no siendo posible usarlos, por ejemplo, en una operación aritmética. En un vector de la clase factor, “3”, “5”, “6”, “9” y “10” son símbolos de la misma naturaleza que “f”, “j” y “m”.

Nótese que cuando el factor proviene de un vector numérico, el orden de los niveles respeta el orden numérico original.

¡Suelen sobreescribirse!

Puesto que la definición de un vector como miembro de la clase factor únicamente conlleva un cambio en sus atributos, sin que se altere el contenido del vector, lo que usualmente se hace es sobreescribir el vector original, en lugar de generar un nuevo vector. Con esto se evita la acumulación innecesaria de objetos en el entorno de trabajo.

Acorde con esto, en lugar de los vectores a y a2 del ejemplo anterior² se sobreescribiría el vector a —usándolo como argumento y sobreescribiendo su valor con el resultado de la función factor— así:

a <- c("j", "m", "f", "m", "m", "f")
a <- factor(a)
class(a)

[1] "factor"

Al final se tiene un único vector a de la clase factor.

10.4.1 Redefinición del orden de los niveles de un factor

En ocasiones, puede requerirse cambiar el orden que por defecto se les asigna a los niveles de un factor.

Considérese el siguiente vector.

mes <- c("mar", "feb", "ene", "abr")
mes <- factor(mes)
levels(mes)

[1] "abr" "ene" "feb" "mar"

El orden alfabético que se obtiene por defecto para los niveles del factor mes podría no ser el más conveniente si se quisiera, por ejemplo, construir un gráfico en el que los meses aparezcan ordenados cronológicamente en el eje horizontal.

Para generar un orden personalizado, acorde con su secuencia temporal de aparición durante el año, se incorpora un vector con los niveles en el orden deseado, a través del argumento levels, así:

mes <- c("mar", "feb", "ene", "abr")
mes <- factor(mes, levels = c("ene", "feb", "mar", "abr"))
levels(mes)

[1] "ene" "feb" "mar" "abr"

Igualmente, podría obtenerse un orden personalizado, usando la función levels en una línea aparte, en lugar de hacerlo como argumento de la función factor, así:

mes <- c("mar", "feb", "ene", "abr")
mes <- factor(mes)
levels(mes) <-  c("ene", "feb", "mar", "abr")
levels(mes)

[1] "ene" "feb" "mar" "abr"

La línea 1 genera el vector mes, de la clase character.

En la línea 2 se sobreescribe el vector mes con otro vector del mismo nombre, pero de la clase factor. El orden de los niveles del factor mes es el alfabético.

Mediante la instrucción de la línea 3 se redefine el orden de los niveles del factor mes.

¡Tienen que ser los mismos niveles!

Las estrategias anteriores permiten reordenar los niveles del factor, pero no permiten modificar sus nombres. Consecuentemente, el siguiente fragmento de código genera un resultado inesperado:

mes <- c("mar", "feb", "ene", "abr")
mes <- factor(mes, levels = c("enero", "febrero", "marzo", "abril"))
levels(mes)

[1] "enero"   "febrero" "marzo"   "abril"

Hasta aquí todo pareciera ir bien. El factor mes reconoció los nuevos nombres para las etiquetas de sus niveles.

Obsérvese, sin embargo, lo que sucede con el vector mes.

print(mes)

[1] <NA> <NA> <NA> <NA>
Levels: enero febrero marzo abril

En la sección 11.3 se detalla el significado de la etiqueta NA.

De manera breve podemos decir que cuando se auscultan los elementos del vector mes y no se encuentra correspondencia entre estos y los niveles del factor, se interpretan como información faltante.

10.4.2 Redefinición del primer nivel

Un caso particular de reordenamiento de los niveles de un factor surge cuando se necesita definir un nivel determinado como nivel de referencia.

Teniendo en cuenta que algunas funciones toman el primer nivel del factor como nivel de referencia, bastaría con ubicar el nivel deseado en la primera posición antes de aplicar tales funciones.

Para tal efecto se usa la función relevel (reference level).

Considérese nuevamente el factor a definido anteriormente y supóngase que se usará como argumento de una función, mediante la cual se pretende comparar los niveles de "j" contra los demás niveles.

Para tal efecto, se define “j” como el nivel de referencia, ubicándolo en la primera posición.

a <- factor(c("j", "m", "f", "m", "m", "f"))
levels(a)

[1] "f" "j" "m"

Hasta aquí todo lo que se ha hecho es definir el vector a como factor (¡en una sola instrucción!). Tal y como era de esperarse el orden de los niveles queda definido por el orden alfabético.

La siguiente instrucción redefine el orden, ubicando el nivel “j” en la primera posición:

a <- relevel(a, ref = "j")
levels(a)

[1] "j" "f" "m"

Tal y como se observa, “j” queda definido como el nivel de referencia (primer nivel). Los demás niveles se reacomodan a partir de este, manteniendo el orden alfabético o cualquier otro orden personalizado que se hubiera definido.

¿Cómo se define la clase por defecto para un vector dentro de un data frame?

Cuando se importan datos, mediante cualquiera de las estrategias presentadas en el capítulo 6, el objeto resultante es un data frame, en el que la clase de cada uno de sus vectores queda definida automáticamente por su correspondiente contenido.

Las columnas que solo contienen información numérica se importan como vectores de la clase numeric, mientras que las que contienen caracteres o una combinación de números y caracteres se importan como objetos de la clase character.

Hay un aspecto particular de los vectores de la clase factor que podría generar desconcierto: su tipo.

b <- factor(c(9, 5, 3, 6, 10, 5, 5, 3))
typeof(b)

[1] "integer"

¡No parece tan desconcertante!

Pero veamos ahora el tipo del vector a:

a <- factor(c("j", "m", "f", "m", "m", "f"))
typeof(a)

[1] "integer"

Esto sí resulta bastante sorprendente ¿Cómo puede ser que un vector cuyos elementos son “j”, “m” y “f” sea de tipo integer?

Aunque parezca extraño, así es: el tipo de todos los vectores de la clase factor —sin importar su tipo original— es integer.

Si no quiere quedarse con la intriga, puede averiguar el porqué de este comportamiento.

¿Por qué los vectores de la clase factor son del tipo integer?

A continuación se discute el proceso interno involucrado en la definición de factores.

Aunque se trata de un tecnicismo, este permite resolver un par de aspectos desconcertantes relativos a los objetos de la clase factor.

En primera instancia, que los factores no son vectores simples³, y en segunda instancia, que, sin importar cuál sea su contenido, siempre son de tipo entero.

La transformación de un vector a la clase factor se realiza en cinco pasos, tal y como se ilustra en la figura 10.1:

Figura 10.1: Proceso de generación de un factor

El sistema determina los niveles, evaluando el conjunto de elementos únicos, mediante la función unique, o tomándolos del argumento levels, en caso de que este haya sido suministrado por el usuario.
Mediante la función match, se genera un vector de índices enteros que guardan correspondencia con los niveles ordenados del vector.
Se le asigna el atributo levels al objeto que contiene los índices.
Se clasifica dicho objeto como factor.
Se remplaza el vector original con el objeto creado.

El tercer paso, es decir, la asignación del atributo levels al vector de índices enteros hace que este deje de ser reconocido como vector mediante la función is.vector. Esta función —más allá de lo que su nombre pueda sugerir— solo reconoce como vector a una estructura cuyos elementos sean de un único tipo y que no tenga ningún atributo adicional al nombre de los elementos. Luego, aunque, en realidad, el objeto en cuestión sí sigue siendo un vector, no es reconocido como tal mediante la función is.vector, por el hecho de habérsele agregado el atributo levels.

Cuando, mediante el paso 4, a este “vector” de enteros se le asigna la clase factor, se establece una asociación entre su contenido y los correspondientes niveles, siendo estos últimos los que se muestran, pareciendo que el objeto original no se hubiera modificado. No obstante, lo que realmente queda almacenado internamente es el vector de índices enteros.

Esto explica por qué el tipo de cualquier objeto de la clase factor es integer.

Para recuperar el contenido del vector de índices enteros, basta con desclasificarlo o retirarle el atributo de clase, mediante la función unclass.

a <- factor(c("j", "m", "f", "m", "m", "f"))
unclass(a)

[1] 2 3 1 3 3 1
attr(,"levels")
[1] "f" "j" "m"

10.5 Tipo lógico

En programación, los booleanos son variables que solo pueden tomar dos posibles valores: falso y verdadero.

En R, los booleanos son objetos de tipo lógico (logical), en los que TRUE o T representa el valor verdadero, mientras que FALSE o F representa el valor falso. Estas constantes se escriben siempre con letras mayúsculas y no van entrecomilladas.

Las constantes lógicas aparecen frecuentemente como argumentos de funciones, para discernir entre dos líneas de acción. También es común que se obtengan como resultado de evaluaciones lógicas o funciones de comparación.

Cuando se realizan operaciones aritméticas propias de variables numéricas, TRUE toma el valor de 1 y FALSE, de 0. Esto puede ser de utilidad para contabilizar el número de elementos que satisfacen una condición.

Considérese el siguiente vector.

x <- c(7, 23, 11, 8, 45, 90, 16, 21, 34, 57, 69)

Si se quisiera averiguar, por ejemplo, cuáles elementos son mayores que 20, se escribiría:

x > 20

 [1] FALSE  TRUE FALSE FALSE  TRUE  TRUE FALSE  TRUE  TRUE  TRUE  TRUE

Para contabilizar el número de elementos que satisfacen esa condición, basta con sumar los valores verdaderos obtenidos, escribiendo sum(x > 20).

Internamente, esto equivale a la siguiente suma: sum(c(0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1)).

sum(x > 20)

[1] 7

¡Una sola vía!

Debe tenerse presente que la relación entre los valores lógicos y las constante numéricas 0 y 1 solamente aplica en una vía; es decir que, las constantes lógicas pueden convertirse a valores numéricos cuando sea requerido.

Sin embargo, no es válido usar 1 en lugar de TRUE, ni 0 en lugar de FALSE.

Las funciones isTRUE e isFALSE permiten verificar si sus argumentos son verdaderos o falsos, correspondientemente.

10.6 Resumen de objetos contendores de información

Cuando se habla de contenedores de información en R, se hace referencia a los objetos detallados en el capítulo 8, sin considerar objetos de otra índole que cumplen diferentes roles en R, tales como las funciones, los entornos, las expresiones y las fórmulas.

En R no existe el concepto de escalares aislados por fuera de una estructura contenedora; incluso los valores unitarios están contenidos en un vector. Los vectores son las estructuras contenedoras básicas. Todas las estructuras contenedoras complejas están conformadas en última instancia por vectores.

Todos los elementos de un vector tienen que ser de la misma naturaleza. Esto define el tipo de vector (typeof), siendo los más comunes integer, double, logical, character y complex.

Aunque en algunos casos los vectores pueden relacionarse con el concepto de vector del álgebra lineal (cf. sección 8.2.1), en principio son independientes de tal concepto, por lo que no se habla ni de vectores fila ni de vectores columna; simplemente, de vectores.

Los vectores son unidimensionales. No obstante, son susceptibles de conformar arreglos rectangulares o hiperrectangulares.

La matriz es el más básico de los arreglos multidimensionales conformados por vectores. La matriz tiene dos dimensiones: filas y columnas. Para la conformación de tales estructuras basta con ligar un atributo de dimensionalidad al vector. Tales arreglos seguirán conteniendo elementos de la misma naturaleza, por lo cual siguen siendo del mismo tipo del vector base.

A estos objetos que solamente permiten alojar elementos de naturaleza común se les denomina atómicos.

La figura 10.2 se representan una serie de objetos atómicos. El panel de la izquierda representa una serie de vectores de diferentes tipos y de diferentes tamaños. No obstante, cada vector contiene elementos de un tipo común.

El panel de la derecha representa un arreglo rectangular en dos dimensiones (una matriz), cuyos elementos son todos del mismo tipo.

Cada uno de los vectores del panel izquierdo es un objeto atómico. La matriz que aparece representada en el panel derecho también es un objeto atómico.

Figura 10.2: Representación de objetos atómicos

Cualquier estructura contenedora que permita alojar elementos de diversa naturaleza se denomina recursiva.

La forma más general de las estructuras recursivas es la lista. Esta estructura permite alojar objetos de diferente tipo, sin importar el tamaño ni la dimensionalidad de los mismos, ni que estos tengan o no tengan nombres (Ver figura 10.3 (a)).

Un caso particular de lista es el data frame. Esta estructura recursiva está diseñada para alojar vectores de diferentes tipos. Los vectores son los elementos básicos de esta lista. Adicionalmente, todos los vectores deben tener nombre y el mismo tamaño (Ver figura 10.3 (b)).

La figura 10.3 (a) ilustra una lista con 6 elementos: dos matrices, un data frame y tres vectores, uno de los cuales es de tamaño 1.

Nótese que las dos matrices contenidas en esta lista son de diferente tipo y de diferente tamaño, no obstante, cada matriz, al ser un objeto atómico, está conformada por elementos del mismo tipo.

Asimismo, los vectores pueden ser de diferente tipo y de diferente tamaño, pero, al tratarse también de objetos atómicos, cada vector está conformado por elementos del mismo tipo. Vale la pena llamar la atención sobre el tercer elemento de la lista: un vector de tamaño 1.

El cuarto elemento de esta lista es un data frame, el cual tiene las mismas restricciones del que se presenta en la figura 10.3 (b): está conformado por vectores del mismo tamaño, cada uno de los cuales tiene un nombre.

10.7 Coerción de objetos en R

En R, cada objeto tiene un tipo claramente definido que determina las operaciones en las que puede participar, lo que impide realizar operaciones de manera directa entre tipos incompatibles.

En ocasiones es posible resolver este conflicto mediante la coerción, es decir, el cambio del tipo o la clase de un objeto para adaptarlo al contexto en el que se emplea.

La coerción puede ser implícita o explícita:

Coerción implícita. Es aplicada automáticamente por las funciones o los operadores de R, sin intervención del usuario. Ocurre, por ejemplo, al combinar objetos de distinto tipo en un vector o al aplicar ciertas funciones como apply (cf. sección 18.1).
Coerción explícita. Es la que el usuario realiza intencionalmente, mediante funciones de conversión como as.numeric, as.data.frame y as.list.

10.7.1 Coerción implícita

Cuando se combinan elementos de diferentes tipos dentro de un objeto atómico (vector, matriz o arreglo), R realiza coerción implícita siguiendo una jerarquía de tipos, de menor a mayor nivel de generalidad, así:

logical < integer < double (numeric) < complex < character

Considérense los siguientes objetos:

typeof(TRUE)

[1] "logical"

typeof(5L)

[1] "integer"

Observemos ahora lo que sucede cuando se combinan en un vector atómico:

a <- c(TRUE, 5L)  # logical, integer
typeof(a)

[1] "integer"

Cuando se combinan objetos de tipo logical con objetos de tipo integer, la función c —que construye vectores atómicos— realiza de manera implícita las coerciones necesarias para que todos sus elementos sean del mismo tipo.

Las coerciones siempre se aplican convirtiendo los objetos de tipos con menor nivel de generalidad en objetos más generales. En el presente ejemplo, puesto que el tipo logical es menos general que integer, el objeto TRUE se coerciona implícitamente a tipo integer (convirtiéndose en 1 en el presente ejemplo (cf. sección 10.5)), con lo cual, el objeto a resulta ser de tipo integer.

Obsérvese el efecto que esta coerción tiene en el elemento TRUE cuando entra a formar parte del vector atómico a:

a <- c(TRUE, 5L)
a

[1] 1 5

Consideremos ahora la adición de un objeto con un tipo de mayor nivel de generalidad.

typeof(7.3)

[1] "double"

b <- c(TRUE, 5L, 7.3) # logical, integer, double
typeof(b)

[1] "double"

En este caso, todos los objetos se coercionan implícitamente al tipo de mayor nivel de generalidad: double.

Obsérvese el efecto que tiene esta coerción sobre los diferentes elementos de b:

b <- c(TRUE, 5L, 7.3)
b

[1] 1.0 5.0 7.3

Ilustremos ahora cómo se aplica la coerción implícita cuando se incluye un objeto con el máximo nivel de generalización (character):

typeof("delta")

[1] "character"

En estos casos —por la naturaleza atómica de los vectores— todos los elementos se coercionan al nivel de mayor generalidad: character.

d <-  c(TRUE, 5L, 7.3, "delta")  # logical, integer, double, character
typeof(d)

[1] "character"

Y observemos finalmente el aspecto de los diferentes elementos de d:

[1] "TRUE"  "5"     "7.3"   "delta"

La apariencia de estos elementos permite entender cómo se realiza el proceso de coerción. No se realiza paulatinamente, pasando por los diferentes tipos, sino que se aplica en un único paso con base en el tipo de mayor generalidad, lo cual, desde luego, es más eficiente. Esto explica por qué TRUE aparece como "TRUE", en lugar de aparecer como "1" o como "1.0".

¡Cuidado con la coerción implícita!

La coerción implícita le permite al usuario despreocuparse por el manejo explícito de los tipos de objetos, bastándole con combinarlos en un objeto atómico, para que estos se conviertan al mismo tipo (el más general).

Esta característica —que suele ser útil—, en ocasiones puede generar conversiones inconvenientes.

Uno de tales casos sucede cuando se importan datos “numéricos” con algún tipo de contaminación, es decir, datos que en principio deberían ser tratados como numéricos, pero que incluyen elementos no numéricos.

Esto se da, por ejemplo, cuando se intenta separar decimales con un carácter que no corresponda con el definido en el sistema⁴. También se da cuando cualquiera de los elementos incluye caracteres no numéricos. Cualquiera de estas situaciones hace que el elemento o elementos con tales particularidades sean tratados como character y, en consecuencia, todo el vector se importe con ese tipo.

10.7.2 Coerción explícita

La coerción explícita es la que el usuario realiza intencionalmente para cambiar el tipo o la clase de un objeto, usando para tal efecto funciones como as.numeric, as.character, as.logical, as.matrix, as.data.frame y as.list.

Debe tenerse presente que, cuando se realiza un cambio de clase —particularmente cuando se realiza coerción hacia un objeto atómico—, esta puede implicar una coerción implícita del tipo.

Considérese el siguiente data frame:

df <- data.frame(a = 1:2, b = c("x", "y"))

Los vectores a (tipo integer) y b (tipo character) pueden cohabitar en el data frame df, dada su naturaleza recursiva.

Considérese ahora la coerción del data frame df a un objeto de la clase matrix:

df <- as.matrix(df)
print(df)

     a   b  
[1,] "1" "x"
[2,] "2" "y"

No obstante que la única instrucción explícita fue la de convertir la clase del objeto df de data.frame a matrix, todos los elementos del objeto resultante se convierten al tipo más general (en este caso, character), dada la naturaleza atómica del nuevo objeto.

¡Puede perderse información!

La conversión de un tipo general a uno con menor nivel de generalidad, aunque no genera error, puede implicar pérdida de información.

a <- c("alfa", 25, FALSE)
typeof(a)

[1] "character"

Debido al tipo mixto de los elementos que conforma el vector a, todos se coercionan al tipo más general: character.

Obsérvese su apariencia:

Código 10.1

print(a)

[1] "alfa"  "25"    "FALSE"

Considérese ahora la coerción a un tipo más específico:

b <- as.numeric(a)

Warning: NAs introducidos por coerción

Aunque se genera un mensaje de advertencia, no se lanza un error, y la coerción parece haberse completado exitosamente, como puede verificarse al evaluar el tipo del vector b:

typeof(b)

[1] "double"

¿Qué indica entonces el mensaje de advertencia?

Está advirtiendo que aquellos elementos que no pudieron convertirse al tipo numérico fueron remplazados por valores faltantes (cf. sección 11.3). Esto puede constatarse al desplegar los elementos de b:

print(b)

[1] NA 25 NA

¿Y por qué FALSE no se convirtió en 0?

Porque ya había sido convertido implícitamente en la cadena de caracteres "FALSE", perdiendo, por tanto, su valor como marcador lógico, tal y como se observa en la salida del código 10.1.

Esto es debido a que, al usar la función c para combinar los elementos "alfa", 25 y FALSE en un vector atómico, todos se coercionan implícitamente al tipo más general (character).

Puede verificarse usando la instrucción class(a).↩︎
Lo mismo aplica para el ejemplo con los vectores b y b2.↩︎
Según la definición de is.vector.↩︎
Coma en lugar de punto o punto en lugar de coma.↩︎