Fundación Naturgy / Empleos que demandará el sector energético
69 requeridas. Sin embargo, dada la naturaleza desestructurada de estos datos –cada empresa determina el formato y contenido que va a incorporar en cada oferta de empleo a publicar–, el gran reto a afrontar consiste en convertir estos datos en conocimiento homogéneo y estructurado para profundizar en el análisis de los perfiles profesionales más demandados. La elaboración de una base de conocimiento innovadora derivada de los textos de las páginas web de empresas requiere la gestión de datos no estructurados, es decir, de texto libre. Para cada oferta de trabajo se deben extraer una serie de características y categorizar su contenido. Para ello, es esencial el uso de técnicas especializadas como el web scraping. El web scraping es una técnica que utiliza programas de software para extraer datos de manera masiva de sitios web y convertirlos a formatos más sencillos, más fáciles de procesar y gestionar, con el objetivo último de ser almacenados, analizados y estudiados con posterioridad (Figura 3.1). En concreto, esta técnica rastrea la red buscando toda la información y datos públicos que pueda haber en Internet. El rastreo de webs no es algo nuevo, ya que se lleva haciendo durante años. Inicialmente era una práctica que únicamente se podía realizar de forma manual, pero actualmente, debido a la gran cantidad de información que existe en Internet han proliferado el uso de herramientas automatizadas para rastrear toda esa información. En este sentido, el web scraping automatizado es un proceso más eficiente, más rápido y con menor tendencia a registrar errores que en el caso manual. Posteriormente, mediante técnicas de procesamiento de lenguaje natural y análisis de datos se convierten esos datos en información de valor (Mitchell, 2015). Conscientes de la potencialidad que existe en la combinación de los campos del desarrollo tecnológico y la investigación académica, se ha construido una base de datos única para determinar los empleos del futuro en el sector energético gracias a los avances en web scraping y tecnologías de procesamiento de lenguaje natural. Para llevar a cabo la técnica web scraping, el primer paso ha sido establecer la selección de fuentes primarias para extraer la información. Para ello, se han identificado las principales empresas del sector energético y sus respectivas páginas web con las ofertas de trabajo publicadas. También se han tenido en cuenta criterios como la cantidad de información proporcionada, cuánta información se publica con datos estructurados o las limitaciones técnicas de descarga de las páginas web. En concreto, se ha utilizado un conjunto de datos que consta de 12.571 ofertas de trabajo extraídas de las principales fuentes web durante abril y mayo de 2021.
Made with FlippingBook
RkJQdWJsaXNoZXIy OTM0Nw==