{"id":30,"date":"2024-03-19T19:03:59","date_gmt":"2024-03-19T18:03:59","guid":{"rendered":"https:\/\/blog.magenta-dataportfolio.eu\/?p=30"},"modified":"2024-09-13T14:02:53","modified_gmt":"2024-09-13T12:02:53","slug":"ejemplo-practico-seleccion-de-atributos-para-el-analisis-de-la-accidentabilidad-de-vmps-en-barcelona","status":"publish","type":"post","link":"https:\/\/blog.magenta-dataportfolio.eu\/index.php\/2024\/03\/19\/ejemplo-practico-seleccion-de-atributos-para-el-analisis-de-la-accidentabilidad-de-vmps-en-barcelona\/","title":{"rendered":"Ejemplo pr\u00e1ctico. Selecci\u00f3n de atributos para el an\u00e1lisis de la accidentabilidad de VMPs en Barcelona"},"content":{"rendered":"\n<figure class=\"wp-block-image size-full\"><img loading=\"lazy\" decoding=\"async\" width=\"638\" height=\"461\" src=\"https:\/\/blog.magenta-dataportfolio.eu\/wp-content\/uploads\/2024\/03\/books-2596809_640_cut.jpg\" alt=\"Biblioteca como furente de informaci\u00f3n\" class=\"wp-image-56\" srcset=\"https:\/\/blog.magenta-dataportfolio.eu\/wp-content\/uploads\/2024\/03\/books-2596809_640_cut.jpg 638w, https:\/\/blog.magenta-dataportfolio.eu\/wp-content\/uploads\/2024\/03\/books-2596809_640_cut-300x217.jpg 300w, https:\/\/blog.magenta-dataportfolio.eu\/wp-content\/uploads\/2024\/03\/books-2596809_640_cut-600x434.jpg 600w\" sizes=\"(max-width: 638px) 100vw, 638px\" \/><figcaption class=\"wp-element-caption\">Seleccionar la informaci\u00f3n adecuada para obtener el conocimiento necesario, ya sea con colecciones de datos o colecciones de libros. Imagen de <a href=\"https:\/\/pixabay.com\/es\/users\/stocksnap-894430\/?utm_source=link-attribution&amp;utm_medium=referral&amp;utm_campaign=image&amp;utm_content=2596809\">StockSnap<\/a> en <a href=\"https:\/\/pixabay.com\/es\/\/?utm_source=link-attribution&amp;utm_medium=referral&amp;utm_campaign=image&amp;utm_content=2596809\">Pixabay<\/a><\/figcaption><\/figure>\n\n\n\n<p>Uno de los conjuntos de datos abiertos m\u00e1s completo y que mejor conozco, as\u00ed como uno de los m\u00e1s usados para an\u00e1lisis de datos gen\u00e9ricos, es la informaci\u00f3n de la <a href=\"https:\/\/opendata-ajuntament.barcelona.cat\/data\/es\/organization\/seguretat\">accidentabilidad en la ciudad de Barcelona<\/a> elaborado a partir de los expedientes de los accidentes de tr\u00e1fico reportados por la Gu\u00e0rdia Urbana de Barcelona (GUB) desde el a\u00f1o 2010.<\/p>\n\n\n\n<p>En uno de mis proyectos personales he querido hacer un peque\u00f1o an\u00e1lisis de la accidentabilidad de patinetes y otros veh\u00edculos de movilidad personal (VMP) en Barcelona durante el a\u00f1o 2022. Para ello he descargado el conjunto de datos completo de accidentabilidad correspondiente a dicho a\u00f1o, publicado en cinco ficheros csv distintos: accidentes gestionados, veh\u00edculos implicados, personas involucradas, accidentes seg\u00fan tipolog\u00eda y accidentes seg\u00fan causa mediata.<\/p>\n\n\n\n<p>Para llevar a cabo este an\u00e1lisis he creado un \u00fanico dataframe maestro, con la informaci\u00f3n que he considerado necesaria para responder las cuestiones que me he planteado, a partir de combinar la informaci\u00f3n de los cinco ficheros csv proporcionados. Estos cinco ficheros contienen 19 atributos comunes, un n\u00famero que considero muy elevado, y que tras una primera inspecci\u00f3n visual en un editor de texto plano veo que es possible reducir.<\/p>\n\n\n\n<p>A continuaci\u00f3n, y a modo de ejemplo, me gustar\u00eda explicar c\u00f3mo he hecho la selecci\u00f3n de los atributos comunes que usar\u00e9 en el dataframe maestro y qu\u00e9 criterios he seguido en este proceso para elegir unos u otros. Debajo destaco los atributos comunes a los cinco ficheros csv originales y mi decisi\u00f3n acerca de ellos.<\/p>\n\n\n\n<ul class=\"has-white-color has-dark-gray-background-color has-text-color has-background has-link-color wp-elements-b7d164184a1a765d08aa997673182e4a\">\n<li style=\"font-style:normal;font-weight:500\"><strong>Numero_expedient<\/strong>. C\u00f3digo \u00fanico identificador del informe del accidente. Lo mantengo.<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>Codi_districte<\/strong>. C\u00f3digo del distrito donde ha ocurrido el accidente. Lo mantengo.<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>Nom_districte<\/strong>. Nombre del distrito, redundante con el anterior. Lo elimino despu\u00e9s de crear un csv auxiliar con la correspondencia entre nombre y c\u00f3digo de cada distrito.<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>Codi_barri<\/strong>. C\u00f3digo del barrio donde ha ocurrido el accidente, nivel de granularidad m\u00e1s preciso que el distrito. Lo mantengo<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>Nom_barri<\/strong>. Nombre del barrio, redundante con el anterior. Lo elimino despu\u00e9s de crear un csv auxiliar con la correspondencia entre nombre y c\u00f3digo de cada barrio.<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>Codi_carrer.<\/strong> C\u00f3digo de la calle donde ha ocurrido el accidente. Lo elimino, ya que he decidido no tener en cuenta esta informaci\u00f3n en mi an\u00e1lisis.<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>Nom_carrer<\/strong>. Nombre de la calle, redundante con el anterior, y por tanto tambi\u00e9n lo elimino.<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>Num_postal.<\/strong> N\u00famero de la calle a la altura en la que ha ocurrido el accidente. Lo elimino por el mismo motivo que los dos anteriores.<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>NK_Any, Mes_any, Dia_mes, Hora_dia.<\/strong> Atributos que combinar\u00e9 para obtener en un \u00fanico atributo de tipo datetime la fecha y la hora en la que ha ocurrido el accidente. El atributo Hora_dia proporcionado no tiene en cuenta el minuto, por lo tanto la precisi\u00f3n es de una hora.<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>Descripcio_dia_setmana.<\/strong> Nombre del d\u00eda de la semana en el que se ha producido el accidente. Lo elimino, ya que considero que es una informaci\u00f3n redundante que se puede obtener f\u00e1cilmente a posteriori a partir de la fecha con funciones de librer\u00edas espec\u00edficas de python o R.<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>Nom_mes.<\/strong> Nombre del mes en el que se ha producido el accidente. Lo elimino por el mismo motivo que el atributo anterior, considero que es una informaci\u00f3n redundante que se puede obtener f\u00e1cilmente a posteriori a partir de la fecha.<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>Descripcio_torn.<\/strong> Turno de servicio de la GUB en el momento de producirse el accidente. Lo descarto porque considero que no es relevante en mi an\u00e1lisis.<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>Coordenada_UTM_X_ED50, Coordenada_UTM_Y_ED50.<\/strong> Coordenadas geogr\u00e1ficas del punto en el que se ha producido el accidente en formato UTM50, un formato sustituido por el ETRS89 en el a\u00f1o 2015. Los elimino ya que considero que son datos obsoletos adem\u00e1s de redundantes con los atributos longitud y latitud.<\/li>\n\n\n\n<li style=\"font-style:normal;font-weight:500\"><strong>Longitud, Latitud.<\/strong> Coordenadas geogr\u00e1ficas del punto en el que se ha producido el accidente en formato WGS84, un formato usado por muchos SIG y otras herramientas de visualizaci\u00f3n de datos georeferenciados. Los mantengo.<\/li>\n<\/ul>\n\n\n\n<p>Finalmente, me gustar\u00eda enumerar los atributos que he inclu\u00eddo en el dataframe maestro y que he exportado a un fichero csv para usarlo en el an\u00e1lisis, especificando cu\u00e1les son los derivados del proceso de selecci\u00f3n y adecuaci\u00f3n de atributos y cu\u00e1les son derivados de la transformaci\u00f3n de la informaci\u00f3n de los accidentes reportados para adecuarlos a las necesidades del an\u00e1lisis.<\/p>\n\n\n\n<ul class=\"has-white-color has-accent-background-color has-text-color has-background has-link-color wp-elements-393ad692c18ea9c29db6e1babe70c60b\">\n<li><strong>Numero_expedient.<\/strong> Com\u00fan. C\u00f3digo \u00fanico identificador del informe del accidente.<\/li>\n\n\n\n<li><strong>Codi_districte.<\/strong> Com\u00fan. C\u00f3digo del distrito donde ha ocurrido el accidente.<\/li>\n\n\n\n<li><strong>Codi_barri.<\/strong> Com\u00fan. C\u00f3digo del barrio donde ha ocurrido el accidente.<\/li>\n\n\n\n<li><strong>Dia_Hora.<\/strong> Com\u00fan. D\u00eda y hora en que se ha producido el accidente.<\/li>\n\n\n\n<li><strong>Latitud.<\/strong> Com\u00fan. Coordenada geogr\u00e1fica de la ubicaci\u00f3n en la que se ha producido el accidente.<\/li>\n\n\n\n<li><strong>Longitud.<\/strong> Com\u00fan. Coordenada geogr\u00e1fica de la ubicaci\u00f3n en la que se ha producido el accidente.<\/li>\n\n\n\n<li><strong>TipusVeh_Bicicleta.<\/strong> Transformado. N\u00famero de bicicletas implicadas en el accidente.<\/li>\n\n\n\n<li><strong>TipusVeh_Otros_veh.<\/strong> Transformado. N\u00famero de veh\u00edculos distintos a bicicletas y VMPs implicados en el accidente.<\/li>\n\n\n\n<li><strong>TipusVeh_VMP.<\/strong> Transformado. N\u00famero de VMPs implicados en el accidente.<\/li>\n\n\n\n<li><strong>Pers_Conductor.<\/strong> Transformado. N\u00famero de conductores de veh\u00edculos lesionados en el accidente.<\/li>\n\n\n\n<li><strong>Pers_Passatger.<\/strong> Transformado. N\u00famero de pasajeros lesionados en el accidente.<\/li>\n\n\n\n<li><strong>Pers_Vianant.<\/strong> Transformado. N\u00famero de peatones lesionados en el accidente.<\/li>\n\n\n\n<li><strong>Es_causa_peaton.<\/strong> Transformado. Responsabilidad del peat\u00f3n en el accidente seg\u00fan el informe de la Gu\u00e0rdia Urbana de Barcelona.<\/li>\n\n\n\n<li><strong>Ubicacion_peaton.<\/strong> Transformado. Ubicaci\u00f3n del peat\u00f3n dentro del espacio viario urbano en el momento del accidente.<\/li>\n<\/ul>\n\n\n\n<p>Pod\u00e9is acceder al detalle del proceso de selecci\u00f3n y adecuaci\u00f3n de atributos en la Biblioteca de Proyectos de mi portfolio personal: <a href=\"https:\/\/library.magenta-dataportfolio.eu\/report_vmp22_1.html\">Accidentabilidad de VMPs en Barcelona e incidencia sobre peatones. Parte I. Limpieza y adecuaci\u00f3n de los datos.<\/a><\/p>\n\n\n\n<p>En este art\u00edculo he presentado un ejemplo de selecci\u00f3n de atributos, en el que a partir de la informaci\u00f3n proporcionada en un portal de datos abiertos, he determinado cu\u00e1l es la informaci\u00f3n que me aporta valor para el an\u00e1lisis que quiero llevar a cabo y he hecho alguna peque\u00f1a transformaci\u00f3n para obtener el formato m\u00e1s adecuado para su uso posterior. En este punto me gustar\u00eda dejar claro que esta selecci\u00f3n de atributos es la adecuada para este caso, en funci\u00f3n de las respuestas que se busquen podr\u00eda requerirse otra selecci\u00f3n diferente. Espero que este peque\u00f1o ejemplo os haya sido de inter\u00e9s.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Uno de los conjuntos de datos abiertos m\u00e1s completo y que mejor conozco, as\u00ed como uno de los m\u00e1s usados para an\u00e1lisis de datos gen\u00e9ricos, es la informaci\u00f3n de la accidentabilidad en la ciudad de Barcelona elaborado a partir de&#8230; <a class=\"more-link\" href=\"https:\/\/blog.magenta-dataportfolio.eu\/index.php\/2024\/03\/19\/ejemplo-practico-seleccion-de-atributos-para-el-analisis-de-la-accidentabilidad-de-vmps-en-barcelona\/\">Continue Reading &rarr;<\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[10],"tags":[12,11],"_links":{"self":[{"href":"https:\/\/blog.magenta-dataportfolio.eu\/index.php\/wp-json\/wp\/v2\/posts\/30"}],"collection":[{"href":"https:\/\/blog.magenta-dataportfolio.eu\/index.php\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.magenta-dataportfolio.eu\/index.php\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.magenta-dataportfolio.eu\/index.php\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.magenta-dataportfolio.eu\/index.php\/wp-json\/wp\/v2\/comments?post=30"}],"version-history":[{"count":5,"href":"https:\/\/blog.magenta-dataportfolio.eu\/index.php\/wp-json\/wp\/v2\/posts\/30\/revisions"}],"predecessor-version":[{"id":57,"href":"https:\/\/blog.magenta-dataportfolio.eu\/index.php\/wp-json\/wp\/v2\/posts\/30\/revisions\/57"}],"wp:attachment":[{"href":"https:\/\/blog.magenta-dataportfolio.eu\/index.php\/wp-json\/wp\/v2\/media?parent=30"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.magenta-dataportfolio.eu\/index.php\/wp-json\/wp\/v2\/categories?post=30"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.magenta-dataportfolio.eu\/index.php\/wp-json\/wp\/v2\/tags?post=30"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}