El uso de una lente macro para hacer esta fotografía difumina las ramas más lejanas del cerezo, obteniendo únicamente el detalle de la más próxima. Imagen de Rebecca Tregear en Pixabay

Estás de visita en una ciudad desconocida, digamos New York, y consultas un mapa para no perderte. Este mapa contiene el detalle de las calles de la ciudad, a un tamaño adecuado para hacerlo manejable quizá con el detalle de un único barrio, por lo que resulta ideal para guiar tus pasos. ¿Te imaginas hacer lo mismo con una hoja DIN-A4 con el mapa de todos los EEUU? New York no sería más que un punto sobre el papel, sería imposible distinguir una simple avenida. A la hora de analizar datos, puede darse un problema similar a causa de una mala elección de escala.

La operadora ferroviaria Renfe pone a disposición de los usuarios un conjunto de datos abiertos con la información del número de pasajeros en las estaciones de los núcleos de Cercanías de distintas ciudades españolas. Los datos más recientes de que dispone, según consulta en octubre de 2023, son del año 2018.

La información proporcionada incluye el número medio de pasajeros subidos y bajados en las estaciones de cada núcleo de Cercanías, dividido en periodos de 30 minutos, en el año 2018. A modo de ejemplo, se muestra una fila del fichero disponible para el núcleo de Barcelona:

La agregación de datos facilitada no permite diferenciar las tendencias de los flujos de viajeros en días laborables de fines de semana y festivos, ni tampoco permite identificar diferencias en función de la época del año o en períodos no lectivos, por citar algunos casos. Sí que es posible, no obstante, analizar la evolución a lo largo del día e inferir los horarios de máxima afluencia, sin embargo esta información puede resultar engañosa ya que, por lo general, la población se desplaza más tarde los fines de semana que los días laborables.

Otro caso que me he encontrado en el que la falta de precisión temporal puede dar lugar a resultados imprecisos, es el de los datos de accidentabilidad del portal de datos abiertos de la ciudad de Barcelona. El dataset proporciona la hora en la que se produjo el accidente, sin especificar el minuto concreto (por ejemplo, las 11h en lugar de las 11:26h). En esta ocasión la falta de precisión a causa de la falta de granularidad es más sutil: imaginemos que se desea analizar la influencia de la falta de luz solar en la accidentabilidad de VMPs, si el accidente ha tenido lugar a las 11h o a las 23h no hay problema, pero si ha tenido lugar a las 18h en el mes de febrero, no hay la misma luz solar a las 18:05h que a las 18:55h.

Así pues a mayor detalle en los datos proporcionados mayor precisión en el análisis, lo que a su vez da lugar a un conocimiento más profundo de aquellos aspectos que se está analizando.