A machine learning approach to predict pipe failures in water distribution networks

Robles-Velasco, Alicia

Tesis Doctoral

dc.contributor.advisor	Cortés Achedad, Pablo Fabio	es
dc.contributor.advisor	Muñuzuri, Jesús	es
dc.creator	Robles-Velasco, Alicia	es
dc.date.accessioned	2022-03-30T10:27:12Z
dc.date.available	2022-03-30T10:27:12Z
dc.date.issued	2022-02-18
dc.identifier.citation	Robles-Velasco, A. (2022). A machine learning approach to predict pipe failures in water distribution networks. (Tesis Doctoral Inédita). Universidad de Sevilla, Sevilla.
dc.identifier.uri	https://hdl.handle.net/11441/131484
dc.description.abstract	This PhD thesis addresses the problem of the appearance of unexpected pipe failures in water distribution networks. Specifically, it seeks to predict such failures using machine learning based techniques. An in depth literature review on the subject informs that although there are studies that have tested certain machine learning techniques for the aforementioned purpose, this is a novel issue that has not been fully explored yet. Consequently, this work proposes several machine learning models, some of which have not been applied to this problem before and analyses the most significant aspects of data processing and evaluation of the results. The nature and characteristics of the data are key points on the design of a machine learning system. For the development of this thesis, the company that manages the water distribution network of Seville (Spain) called EMASESA has provided an extensive database. Concretely, the database consists of a seven year pipe failure history, from 2012 to 2018, and includes various factors related to each of the pipes that compose the more than 3800 kilometres network. The first strategy has been to forecast pipe failures one year in advance, since companies generally decide their maintenance and replacement plans annually. Therefore, and according to the characteristics of the problem and the available data, the following machine learning techniques are proposed: discriminant analysis, logistic regression, support vector machines, random forests, artificial neural networks and evolutionary fuzzy logic. All these models can work as classifiers, being the main part of a supervised classification machine learning system. In this case, the output of the system is defined as a binary variable that takes the value 1 when a pipe fails in the period of study, and 0 otherwise. Secondly, the initial focus of this thesis was extended to multi label classification, which allows predicting more than one output variable at the same time. The aim of this new approach was to predict pipe failures over longer time periods based on currently available data, specifically, over several consecutive years. This long term information is really valuable for companies to improve their strategic decisions. The study of the different data processing strategies has been one of the challenges of this work as it is an essential phase for the correct development of a machine learning system. For this purpose, a descriptive analysis of the database has been performed to discover possible anomalies such as missing values, outliers, etc., as well as other processing needs. Moreover, the relationships between different factors (pipe material, diameter, length of the section, age, previous failures, etc.) have been analysed through the correlation matrix, scatter plots and histograms. In addition, potential connections between the factors and the breakage are examined. It should be noted that on many occasions descriptive analysis in big data applications helps to find hidden patterns that are imperceptible to humans. Therefore, it is a valuable source of information without the need to generate predictions, being an almost mandatory step before designing a predictive system. As previously mentioned, the predictions’ accuracy depends to a great extent on the data processing. Each data requires a different treatment according to its nature, for instance, if it is a continuous or integer number, a category or even an audio visual content. A relevant aspect of this work has been the study of sampling strategies since the database is totally unbalanced. This is a common characteristic of classification problems where one class has a much higher presence than the others. The imbalance problem can cause machine learning models to prioritize the forecast of the majority class (the non failures), disregarding the correct prediction of the minority class (the pipe failures). Specifically, the use of under and over sampling techniques is evaluated and the adaptation of these strategies to the case of multi label classification. Python is the programming language used to read and process the data, as well as to implement the models and analyse the results. This programming language offers multiple open source libraries that are really useful to develop machine learning systems. First, the models are calibrated in order to enhance their performance and to adjust their hyperparameters to the study problem. The results are then evaluated using specific quality metrics such as the confusion matrix or the receiver operating characteristic (ROC) curve. The analysis of the results proves that 34.5% of the annual pipe failures could be avoided by replacing only 5% of the water distribution network pipes. Furthermore, this value is a lower threshold that increases when the time period to predict for grows by using the multi label classification approach. This study highlights the importance of having robust and reliable databases. Among all the factors used in the study, the pipe material, the section length and the frequency of failures have demonstrated to be the most influential variables in the occurrence of new failures. Although the currently available data allow obtaining high quality predictions, adding new factors such as those related to weather conditions, could be a substantial improvement. For this reason, water network management companies are encouraged to periodically review and take care of their data storage and management policy. The proposed methodology has a direct application in the industry as the models provide scores associated with each pipe section that can be understood as failure probabilities. Consequently, a future line of research should be the integration of the proposed approach with the geographic information systems (GIS) in order to develop an infrastructure asset management tool able to generate efficient maintenance and replacement plans of pipes considering economic and social limitations. For this purpose, it would be necessary to include additional factors related to the consequences of pipe failures such as the number of people affected, whether or not the pipe supplies water to sensitive clients like hospitals, schools, etc., as well as the possible environmental damage.	es
dc.description.abstract	En esta Tesis se aborda el problema de la aparición de roturas o fallos inesperados en las tuberías que componen las redes de distribución de agua. Concretamente, se busca predecir dichas roturas utilizando técnicas basadas en el aprendizaje automático, del inglés machine learning. Tras un análisis exhaustivo de la literatura existente sobre el tema, se detecta que, aunque ya existen estudios que proponen ciertas técnicas de machine learning para el propósito anteriormente descrito, es una temática reciente que aún no ha sido desarrollada en su totalidad. Por ello, este trabajo propone distintos modelos de machine learning, algunos de los cuales no han sido aplicados a la problemática de estudio hasta la fecha, y analiza los aspectos más significativos del procesamiento de los datos y de la evaluación de los resultados. En el desarrollo de un sistema de machine learning tiene especial importancia la forma y características de los datos a utilizar. En este trabajo, se dispone de una extensa base de datos de la red de abastecimiento de agua de Sevilla, la cual ha sido cedida por la Empresa Metropolitana de Abastecimiento y Saneamiento de Aguas de Sevilla (EMASESA), compañía que gestiona dicha red. La base de datos consta de un histórico de roturas de siete años, de 2012 a 2018 inclusive, e incluye diversas variables relacionadas con cada una de las tuberías que forman sus más de 3800 kilómetros de red. Como primer enfoque, se decide explorar la predicción de fallos en las tuberías con un horizonte temporal de un año, dado que las compañías generalmente planifican las tareas de mantenimiento y reposición de la red a un año vista. Por ello, y de acuerdo a las características del problema y a los datos disponibles, se proponen las siguientes técnicas de machine learning: el análisis discriminante, la regresión logística, las máquinas de vector soporte, los bosques aleatorios, las redes neuronales y la lógica difusa evolutiva. Todas estas técnicas tienen la capacidad de actuar como clasificadores, siendo la parte principal de un sistema de aprendizaje automático supervisado de clasificación. La variable de salida se define como una variable binaria que toma el valor 1 cuando la tubería en cuestión falla en el periodo de estudio, y 0 en caso contrario. Posteriormente, el enfoque inicial de esta tesis se extiende a la clasificación multi etiqueta, la cual permite predecir más de una variable de salida al mismo tiempo. El objetivo de este nuevo enfoque es predecir roturas de tuberías en horizontes de tiempo más amplios, es decir, crear un sistema capaz de predecir las roturas que ocurrirán en varios años consecutivos en base a los datos disponibles en la actualidad. Con ello se busca mejorar la toma de decisiones estratégicas de las compañías, mediante la generación de información a largo plazo con una fiabilidad suficientemente contrastada. Uno de los principales retos de este trabajo ha sido el estudio de las distintas estrategias de procesamiento de datos, etapa esencial en el correcto desarrollo de un sistema de aprendizaje automático. Para descubrir las necesidades de procesamiento de la base de datos, así como las posibles anomalías que puedan existir en la misma (huecos, valores atípicos, etc.), es importante realizar un análisis descriptivo a través de gráficas y estadísticos. En este estudio se analizan las relaciones entre los distintos factores (material, diámetro, longitud de la tubería, antigüedad, fallos previos, etc.) usando la matriz de correlación, gráficas de dispersión e histogramas, entre otros. Además, se examinan las posibles conexiones entre los distintos factores y la rotura. Cabe destacar, que en muchas ocasiones el análisis descriptivo en el big data permite descubrir patrones ocultos en los datos que son imperceptibles al ojo humano, aportando información valiosa sin necesidad de generar predicciones. Por ello, es un paso obligatorio antes del diseño de un sistema predictivo. Como bien se ha mencionado, la precisión de las predicciones depende en gran medida del procesamiento de los datos. Los datos requieren un tratamiento distinto en función de su naturaleza, ya sean números continuos o enteros, variables categóricas o incluso contenido audiovisual. En este trabajo, otro de los aspectos más relevantes de este procesamiento ha sido el estudio de las técnicas de muestreo, ya que la base de datos está totalmente desequilibrada. Ésta es una característica común en problemas de clasificación donde una de las clases tiene una presencia muy superior a la otra. La existencia de clases desequilibradas puede provocar que los modelos de machine learning prioricen la predicción de la clase mayoritaria, en este caso la no rotura, menospreciando la correcta predicción de la clase minoritaria que representa la rotura. En concreto, se estudia el uso de técnicas de sub y sobre muestreo, adaptándolas al caso de clasificación multietiqueta cuando así se requiere. La lectura y procesamiento de los datos, así como la implementación de los modelos y el posterior análisis de los resultados, se realiza a través del lenguaje de programación Python. Este lenguaje cuenta con una gran variedad de librerías de código abierto que facilitan el desarrollo de algunos aspectos claves en el campo del machine learning. En primer lugar, se realiza la calibración de los modelos con objeto de conseguir su máximo rendimiento y su adaptación al problema de estudio. A continuación, los resultados se evalúan a través de métricas de calidad específicas como son la matriz de confusión o las curvas ROC. Los resultados muestran que se podrían evitar el 34.5% de los fallos anuales que se dan en la red reponiendo tan solo un 5% de la misma si se prioriza el reemplazo de las tuberías de acuerdo a los modelos propuestos. De hecho, este valor es un umbral inferior que aumenta al ampliar el periodo predictivo mediante el uso del enfoque de clasificación multietiqueta. Este estudio pone de manifiesto la importancia de contar con bases de datos robustas y fiables. De todos los factores empleados en este estudio, el material de las tuberías, su longitud y la frecuencia de fallos en las mismas han demostrado ser los más influyentes en la aparición de nuevos fallos. No obstante, y aunque los datos disponibles en la actualidad permiten obtener predicciones de gran calidad, añadir nuevos factores al estudio como aquellos relacionados con la climatología podría suponer una mejora significativa. Por ello, se insta a las compañías gestoras de redes de agua a cuidar y revisar periódicamente su política de almacenamiento y gestión de los datos. Este trabajo establece las bases para el desarrollo de una herramienta de gestión patrimonial de infraestructuras capaz de generar planes eficientes de mantenimiento y reemplazo de tuberías considerando limitaciones económicas y sociales. Una de las ventajas de la metodología propuesta es que su integración en la industria es directa, ya que los modelos permiten obtener puntuaciones asociadas a cada tubería que se traducen en probabilidades de fallo. Por consiguiente, se plantean como futuras líneas de investigación la conexión de la metodología propuesta con los sistemas de información geográfica (SIG) que actualmente están presentes en la mayoría de las empresas del sector, incluyendo factores adicionales relacionados con las consecuencias de los fallos en las tuberías. Algunos de estos factores deberían ser el número de personas afectadas por el fallo de cada una de las tuberías, si éstos afectasen o no a clientes sensibles (hospital, escuelas, etc.), así como el posible daño ambiental.	es
dc.format	application/pdf	es
dc.format.extent	151 p.	es
dc.language.iso	eng	es
dc.rights	Attribution-NonCommercial-NoDerivatives 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	*
dc.title	A machine learning approach to predict pipe failures in water distribution networks	es
dc.type	info:eu-repo/semantics/doctoralThesis	es
dcterms.identifier	https://ror.org/03yxnpp24
dc.type.version	info:eu-repo/semantics/publishedVersion	es
dc.rights.accessRights	info:eu-repo/semantics/openAccess	es
dc.contributor.affiliation	Universidad de Sevilla. Departamento de Organización Industrial y Gestión de Empresas II	es
dc.date.embargoEndDate	2023-02-18
dc.publication.endPage	121	es

Ficheros	Tamaño	Formato	Ver	Descripción
Robles Velasco, Alicia Tesis.pdf	2.300Mb	[PDF]	Ver/Abrir

Este registro aparece en las siguientes colecciones

Mostrar el registro sencillo del ítem

Excepto si se señala otra cosa, la licencia del ítem se describe como: Attribution-NonCommercial-NoDerivatives 4.0 Internacional