Esta sección del curso tomó un camino específico para cada estudiante; cada uno trae una base de datos que le interesa trabajar y explorar. Considerando que hay pocos estudiantes en el curso fue posible el hacer un análisis más profundo de cada base de datos.
Uno de los errores comunes en todo aquellos que se quieren adentrar en la ciencia de los datos es que no saben como crear nombres de variables, objetos o archivos que no dificulten después el proceso de análisis. A continuación algunas recomendaciones:
Figura 1: En este ejemplo los nombres de las columnas se usa para guardar el año de la observación; abajo es como debería de ser.
La forma más común para almacenar información es el formato de tabla u hoja de cálculo de programas como: Google Sheets, Excel o Numbers. Echa un vistazo a la tabla usando uno de estos programas y fíjate si:
Figura 2: Ejemplo de una hoja de Excel con una primera línea que es el encabezado, la segunda línea ya son los nombres de las variables. Los nombres tienen acentos y espacios vacíos.
Figura 3: Ejemplo de una hoja de Excel con las primeras hileras estructuradas para el mejor manejo y visualización de ésta; sin embargo así no se puede cargar a R.
Figura 4: Ejemplo de una hoja de Excel con las primeras hileras estructuradas como encabezado; con un logotipo; además las columnas almacenan información.
Hay que exportar desde Excel el archivo con codificación UTF-8; desde Mac o PC.