El pasado 15 de mayo tuvo lugar el UOC Data Day, un evento gratuito organizado por los Estudios de Informática, Multimedia y Telecomunicación de la UOC con el objetivo de hablar sobre ciencia de datos y todo lo que le rodea.
La primera ponente, después de la presentación del evento por la Dra. Teresa Sancho, directora de programa del Grado en Ciencia de datos de la Universidad Oberta de Catalunya, fue Ana Freire. Ana es ingeniera en informática y doctora también en ingeniería informática por la Universidad da Coruña. Actualmente, es profesora investigadora en la Universitat Pompeu Fabra de Barcelona. En esta universidad, además de dar clase, forma parte de un proyecto de investigación con el objetivo de aplicar la inteligencia artificial (IA) en las necesidades de la sociedad. En su tiempo libre se dedica a lanzar iniciativas para promover los estudios TIC entre las jóvenes.
Ana tituló su conferencia Ciencia para el bienestar planetario para explicar cómo se puede llegar a utilizar los datos con el objetivo de lograr un bienestar planetario. Esta idea la ejemplarizó con diferentes proyectos relacionados con la salud y el medio ambiente.
https://youtu.be/VRNZKJsU_Ds
Ana tituló su conferencia Ciencia para el bienestar planetario para explicar cómo se puede llegar a utilizar los datos con el objetivo de lograr un bienestar planetario. Esta idea la ejemplarizó con diferentes proyectos relacionados con la salud y el medio ambiente.
Salud mental
El primer caso práctico tuvo que ver con la salud mental; al año se producen 800.000 muertes por suicidio a nivel mundial. Esto significa que cada 40 segundos, ocurre un suicidio. En España, en 2017, la muerte por suicidio superó el doble a la muerte por accidentes de tráfico.Ana y su equipo, como ingenieros, se preguntaron si podían hacer algo al respecto. La respuesta es que sí; muchas veces, las redes sociales son una plataforma en donde la gente con problemas mentales comunica sus sentimientos y emociones, aunque sea de manera sutil. Ejemplo de ello son los siguientes dos posts, escritos por dos personas antes de cometer un suicidio.
Otro de estos proyectos se basa en la red social Reddit. El objetivo era, mediante el machine learning, identificar en esta red, gracias a los comentarios, a personas susceptibles a padecer trastornos mentales o depresión. El funcionamiento consiste en ir leyendo cada uno de los mensajes en orden temporal y secuencial para intentar predecir, lo antes posible, diferentes conductas. Interesa más identificar un usuario con posibles trastornos mentales que uno que ya los padece. El objetivo de prevenir. Se trata de trabajar con medidas de early risk.
A los usuarios identificados con anorexia se les informa de otros usuarios que ya han superado la enfermedad. El objetivo es ayudarles mostrándoles un referente que haya pasado por lo mismo. Además, este contacto se realiza basándose en intereses en común para que la recomendación no sea tan intrusiva.
Enfermedades neurológicas
El objetivo de este nuevo estudio es predecir cuáles son los tests clínicos más determinantes para detectar la esclerosis múltiple. La motivación del proyecto es que 2,3 millones de personas en el mundo sufren esclerosis múltiple cuyo origen es aún desconocido.Para el estudio, se utiliza un número determinado de usuarios y se extraen 73 características de todos ellos mediante diferentes tests. Con ello, que quiere identificar variables en común.
- Data set pequeño. Hay pocos ejemplos y esto puede llegar a ser un problema con la inteligencia artificial, por lo que la precisión del sistema es evidente.
- Datos erróneos. Al transcribirlos se puede colocar la coma donde no era, por ejemplo. Hablamos de errores humanos. Otros datos eran reales pero para el equipo de Ana eran outler.
- Datos perdidos. Había muchos pacientes que no tenían todos los tests clínicos realizados, por lo que había muchos datos en falta. En este caso, a veces se tira de estadísticas como la media o la moda, aunque no es aconsejable.
- No es un conjunto balanceado. Hay más pacientes con esclerosis múltiples que sanos, hubo que utilizar técnicas de compensación dando más peso a la clase minoritaria.
- Variables categóricas. Siempre que se trata con datos médicos que no sean numéricos, hay que transformarlos para que puedan ser entendidos por los programas de inteligencia artificial.
Sostenibilidad
Es un trabajo que tuvo que ver con la tesis doctoral de Ana. Los datos utilizados fueron difíciles de conseguir, ya que se obtenían mediante los motores de búsqueda. Para ello, Ana tuvo que contratar con Yahoo y Microsoft. Fue una línea de investigación complicada ya que los datos eran difíciles de obtener.En 2015, Google reportó que había consumido en electricidad lo mismo que la ciudad de San Francisco. Las TIC suponen entre un 8% y un 10% de la energía consumida en Europa, con un 4% de las emisiones de carbono.
Los documentos en Google aumentan año tras año. Pero el buscador tarda lo mismo, prácticamente, en buscar la información; a lo largo del tiempo, ha aumentado muchísimo la cantidad de documentos alojados en Google pero apenas se ha modificado el tiempo en encontrarlos, cuando debería haber sido al revés: a mayor cantidad de documentos, mayor será el tiempo en encontrarlos.
¿Cómo reducir el consumo de electricidad manteniendo el tiempo de latencia?
La gráfica de a continuación representa las búsquedas de las personas a lo largo del día. Para que las consultas sean respondidas rápidamente, Google tiene muchos servidores encendidos. Ana, mediante diferentes fórmulas matemáticas y la ciencia de datos, pretendió que los servidores se vayan encendiendo o apagando en función de la cantidad de las búsquedas. La idea es no tener máquinas o servidores encendidas a la espera de búsquedas y que puedan dedicarse a otros trabajos.El proyecto consiguió, en el mejor de los casos, reducir el consumo de energía en un 68% dañando la latencia únicamente en 8 milisegundos.
El último de los proyectos tiene que ver con las búsquedas en Yahoo; cuando las búsquedas demoran más de lo habitual, los usuarios tienden a abrir otra ventana para buscar otra información o, directamente, no hacen clics en las búsquedas obtenidas. De esta manera, el proyecto quería predecir este comportamiento en el usuario; prediciendo que va a abandonar una búsqueda, las búsquedas obtenidas podían ser parciales o basadas en cachés para priorizar el ahorro de energía.
El dataset era muy elevado, basado en treinta millones de consultas. Se extrajeron las características que se observan en la imagen a continuación, relacionadas con el usuario, la hora y el día, etc.
Después de explicar estos proyectos de ciencia de datos, se abrió un turno de preguntas entre el público.
This entry was posted in Artificial Intelligence, Big Data, Data, Data Analyst, Data Engineer, Data Science, Evento, Machine learning, Uncategorized, UOC, UOC D^2 and tagged Artificial Intelligence, data analytics, Data Science, Inteligencia Artificial, UOC, UOC D^2. Bookmark the permalink.
http://dataanalysis.blogs.uoc.edu/2019/06/26/ciencia-datos-bienestar-planetario/?utm_medium=inbound&utm_source=bra_3_facebookads&utm_campaign=20191_nd_es_mktope_mur&utm_content=immt&fbclid=IwAR1x9th7jm965hBCZfD-doQjXWnF0ZnCCD-NX-RWO_2fFWXpcwx19_aCepwhttps://bit.ly/30czdUM
https://youtu.be/VRNZKJsU_Ds
http://dataanalysis.blogs.uoc.edu/2019/06/26/ciencia-datos-bienestar-planetario/?utm_medium=inbound&utm_source=bra_3_facebookads&utm_campaign=20191_nd_es_mktope_mur&utm_content=immt&fbclid=IwAR1x9th7jm965hBCZfD-doQjXWnF0ZnCCD-NX-RWO_2fFWXpcwx19_aCepw
No hay comentarios:
Publicar un comentario