Biblioteca como furente de información
Seleccionar la información adecuada para obtener el conocimiento necesario, ya sea con colecciones de datos o colecciones de libros. Imagen de StockSnap en Pixabay

Uno de los conjuntos de datos abiertos más completo y que mejor conozco, así como uno de los más usados para análisis de datos genéricos, es la información de la accidentabilidad en la ciudad de Barcelona elaborado a partir de los expedientes de los accidentes de tráfico reportados por la Guàrdia Urbana de Barcelona (GUB) desde el año 2010.

En uno de mis proyectos personales he querido hacer un pequeño análisis de la accidentabilidad de patinetes y otros vehículos de movilidad personal (VMP) en Barcelona durante el año 2022. Para ello he descargado el conjunto de datos completo de accidentabilidad correspondiente a dicho año, publicado en cinco ficheros csv distintos: accidentes gestionados, vehículos implicados, personas involucradas, accidentes según tipología y accidentes según causa mediata.

Para llevar a cabo este análisis he creado un único dataframe maestro, con la información que he considerado necesaria para responder las cuestiones que me he planteado, a partir de combinar la información de los cinco ficheros csv proporcionados. Estos cinco ficheros contienen 19 atributos comunes, un número que considero muy elevado, y que tras una primera inspección visual en un editor de texto plano veo que es possible reducir.

A continuación, y a modo de ejemplo, me gustaría explicar cómo he hecho la selección de los atributos comunes que usaré en el dataframe maestro y qué criterios he seguido en este proceso para elegir unos u otros. Debajo destaco los atributos comunes a los cinco ficheros csv originales y mi decisión acerca de ellos.

Finalmente, me gustaría enumerar los atributos que he incluído en el dataframe maestro y que he exportado a un fichero csv para usarlo en el análisis, especificando cuáles son los derivados del proceso de selección y adecuación de atributos y cuáles son derivados de la transformación de la información de los accidentes reportados para adecuarlos a las necesidades del análisis.

Podéis acceder al detalle del proceso de selección y adecuación de atributos en la Biblioteca de Proyectos de mi portfolio personal: Accidentabilidad de VMPs en Barcelona e incidencia sobre peatones. Parte I. Limpieza y adecuación de los datos.

En este artículo he presentado un ejemplo de selección de atributos, en el que a partir de la información proporcionada en un portal de datos abiertos, he determinado cuál es la información que me aporta valor para el análisis que quiero llevar a cabo y he hecho alguna pequeña transformación para obtener el formato más adecuado para su uso posterior. En este punto me gustaría dejar claro que esta selección de atributos es la adecuada para este caso, en función de las respuestas que se busquen podría requerirse otra selección diferente. Espero que este pequeño ejemplo os haya sido de interés.