Bases de datos

Esta sección del curso tomó un camino específico para cada estudiante; cada uno trae una base de datos que le interesa trabajar y explorar. Considerando que hay pocos estudiantes en el curso fue posible el hacer un análisis más profundo de cada base de datos.

Generalidades (checklist)

  1. En qué formato está, qué tipo de archivo es?
  2. Esta en uno o varios archivos?
  3. La base de datos es tuya? o es de alguien más?
  4. Tienes metadatos o diccionarios que te indiquen que mide cada variable?
  5. Temporalidad, los datos se refieren a un solo año? o tenemos repeticiones de obsevaciones para varios años?
  6. Hay alguna referencia geográfica para las observaciones.
  7. Qué te interesa saber? Cuáles son las preguntas que tienes?
  1. Cuáles son las variables que responden estas preguntas?

Recomendaciones para crear nombres

Uno de los errores comunes en todo aquellos que se quieren adentrar en la ciencia de los datos es que no saben como crear nombres de variables, objetos o archivos que no dificulten después el proceso de análisis. A continuación algunas recomendaciones:

  1. Evita el uso de caracteres especiales tales como: acentos de cualquier tipo, letra “ñ”, símbolos matemáticos u operadores lógicos.
  2. No dejes espacios vacíos, por ejemplo: “hermosillo PTARS”; mejor usa “hmo_ptars”.
  3. Mantén nombres cortos y que tengan a su vez un significado; haz un diccionario de variables donde expliques que significa cada variable y que tipo de variable es: Categórica, continua (numérica), entera, texto, fecha, etcétera.
  4. No empieces el nombre de una variable con un número.
  5. Evita usar nombres de funciones que existen en R o snippets que ya hayas creado.
  6. Aunque a veces usar el estilo de camello (camelCase) que combina minúsculas y mayúsculas es atractivo, es más práctico usar solo minúsculas siempre, R es sensitivo a minúsculas y mayúsculas; no es lo mismo: “HmoPtars” a “hmoPtars”, esto puede traer confusiones.
  7. Los nombres deben ser informativos en el sentido que te recuerden de qué es la variables; pero no se deben de usar para almacenar información (ver figura 1).
Figura 1: En este ejemplo los nombres de las columnas se usa para 
                       guardar el año de la observación; abajo es como debería de ser.

Figura 1: En este ejemplo los nombres de las columnas se usa para guardar el año de la observación; abajo es como debería de ser.

DataFrame

La forma más común para almacenar información es el formato de tabla u hoja de cálculo de programas como: Google Sheets, Excel o Numbers. Echa un vistazo a la tabla usando uno de estos programas y fíjate si:

  1. Solo tenemos una pestaña o varias por archivo.
  2. La primera línea debe de ser el encabezado con el nombre de las variables.
Figura 2: Ejemplo de una hoja de Excel con una primera línea que es el 
                     encabezado, la segunda línea ya son los nombres de las variables. Los nombres
                     tienen acentos y espacios vacíos.

Figura 2: Ejemplo de una hoja de Excel con una primera línea que es el encabezado, la segunda línea ya son los nombres de las variables. Los nombres tienen acentos y espacios vacíos.


Figura 3: Ejemplo de una hoja de Excel con las primeras hileras estructuradas para el 
                 mejor manejo y visualización de ésta; sin embargo así no se puede cargar a R.

Figura 3: Ejemplo de una hoja de Excel con las primeras hileras estructuradas para el mejor manejo y visualización de ésta; sin embargo así no se puede cargar a R.

  1. Debe de ser continua, esto no debe haber hileras vacías o con subtítulos u algún otro diseño; lo mismo para las columnas.
  2. No debe tener logotipos, figuras o gráficas.
    Figura 4: Ejemplo de una hoja de Excel con las primeras hileras estructuradas
                  como encabezado; con un logotipo; además las columnas almacenan información.

    Figura 4: Ejemplo de una hoja de Excel con las primeras hileras estructuradas como encabezado; con un logotipo; además las columnas almacenan información.

Lenguaje en Español

Hay que exportar desde Excel el archivo con codificación UTF-8; desde Mac o PC.