Mesa 30: La era de la información. Sociología de las tecnologías digitales e Internet

Explorando el big data. El ejemplo de datificación de la encuesta de hogares de Chile.

  • Benítez Paulina (Investigadora independiente).
Resumen

La enorme cantidad de datos (texto, imágenes, sonido, números, videos) del ciberespacio, que se duplica cada tres años siguiendo su propia Ley de Moore (Ford, 2016), ha sido creada por empresas, organizaciones públicas (aportan datos de encuestas, actas, informes, documentos oficiales, leyes, etc.) y por personas comunes y corrientes.

El abundante corpus de datos públicos de Chile se ampara en disposiciones legales y regulaciones. La Ley de Transparencia (2008) regula el acceso de los usuarios a la información pública. La Ley de datos públicos (open data) de 2010, aquel formato donde las especificaciones del software están disponibles para cualquier persona de forma gratuita (…) pudiendo usar las especificaciones en su propio software sin ninguna limitación en su reutilización que fuere impuesta por derechos de propiedad intelectual (Open Data Handbook).

El enorme esfuerzo público parece ser insuficiente. Aun cuando los datos públicos están almacenados en repositorios para que los usuarios dispongan de ellos son muchas las dificultades que presentan esos datos a consecuencia de la dinámica que experimentan. Sus transformaciones temporales dan cuenta que nacen, mueren y permanecen dejando una huella digital (Hilbert, 2013). El impulso de la transformación digital (datos+ nubes nuevas herramientas de productividad y de colaboración) que hubo durante la pandemia contribuyó a darnos cuenta de la necesidad de optimizar el trabajo con datos masivos (big data), esto es, hacer más con los datos disponibles.

La ponencia presenta los primeros resultados del estudio exploratorio con datos masivos en el ámbito especifico de la data de la encuesta de hogares de Chile,1990-2020 y su datificación.

Objetivos. Realizar el análisis temporal del contenido de la Encuesta de Caracterización Socioeconómica Nacional (CASEN) a través de la variación histórica de las preguntas, variables e indicadores; mediante el apoyo de la datificación de libros de códigos y el análisis del contenido del conjunto de preguntas.

Metodología. La ponencia presenta un ámbito de la datificación de CASEN, 1990-2020. Enseña cómo a partir de la datificación de datos originales se obtienen nuevas categorías y variables. La datificación le otorga un nuevo valor y facilita el acceso y uso a un conjunto de usuarios sin conocimiento experto, pero interesados en ellos. Así se amplía el acceso y uso de datos específicos y podría permitir generar nuevas soluciones a necesidades colectivas: innovar. No hay un término adecuado para nombrar la transformación del dato desde el registro, análisis y reorganización. No obstante, Mayer-Schonberger y Cukier (2013, p.100) le denominan datificación. Datificar un fenómeno es plasmarlo en un formato cuantificado para que pueda ser tabulado y analizado.

Los resultados ilustran la dinámica de la política pública en la secuencia de encuestas CASEN. Muestran cómo se datificó, las categorías tipo (cuestionarios y cálculo) que se adicionaron a los datos. El análisis básico desde la perspectiva de la calidad de los datos: nombre de variables y de la descripción, tipos de datos. El aumento de la cantidad de variables: la cantidad total de variables y por módulo. La dinámica de las preguntas: las que nacen, mueren, y permanecen.