Ciclo de Vida de la Ciencia de Datos

Ciclo de Vida de la Ciencia de Datos

A la hora de llevar a cabo un proceso de Análisis de Datos y Modelado, comúnmente empezamos preguntándonos ¿Qué modelo debo crear?, sin embargo debemos detenernos por un momento y tener en cuenta que hay una serie de etapas primarias y sumamente importantes previas al modelado.

Personalmente, sé que como buen perfil técnico hay gran entusiasmo por lanzarnos a codear, a probar los datos, los modelos y experimentar, sin embargo no podemos perder de vista que estos modelos tienen una finalidad más allá de obtener “un buen accuracy” o “una buena optimización” y es que estos modelos reflejan realidades de negocio y tienen implicaciones sobre personas reales, es por eso que a lo largo de este blog daremos una perspectiva de la importancia de cada una de las etapas que debemos abordar antes de empezar a hacer coding.

Hablemos del Ciclo de Vida de la Ciencia de Datos.

Microsoft propone el siguiente esquema como etapas para llevar a cabo el ciclo de vida de la ciencia de datos:

No hay texto alternativo para esta imagen

Etapas del Ciclo de Vida de la Ciencia de Datos:

  1. Entendimiento del Negocio: Es necesario conocer cuál es el problema y cómo funciona el negocio, la ciencia de datos no es solo algoritmos, es entender como los datos afectan nuestro negocio, cuáles son las implicaciones y las definiciones principales.
  2. Carga y Análisis de los Datos: Localizar y extraer los datos para su uso es la segunda etapa, dentro de esto algunos procesos como la carga de los datos (estructurados y no estructurados), creación de un pipeline, levantar el entorno de trabajo (si fuese necesario), explorar, limpiar y transformar los datos.
  3. Modelización: La modelización es la tercera etapa, implica probar modelos, medir su performance y una vez hecho esto seleccionar el modelo, entrenarlo y volver a evaluarlo, para asegurarnos que está funcionando correctamente.
  4. Despliegue: Por último tenemos el despliegue del modelo a producción. Uno de los pasos más interesantes debido a que normalmente muchos de nosotros no llegamos hasta el despliegue, lo que hace que muchos de nuestros modelos se queden en un notebook viviendo en nuestra máquina. Este proceso es el que nos permitirá ver el performance de lo que hemos creado, así como la monitorización del modelo.

Algunos lugares donde se puede realizar el despliegue son:

  • Model Store.
  • Web Services como AWS, Azure, Google Cloud, IBM, entre otros.
  • Intelligent Applications.

Como se puede ver, el proceso de Ciencia de Datos implica una serie de etapas necesarias, que en ciertas ocasiones, no es necesario realizarlas todas, esto depende del proyecto, sin embargo son muy relevantes para que hagamos un trabajo adecuado.

Es importante resaltar que la parte esencial del ciclo, es el proceso, extracción y análisis de datos, del buen manejo de los datos, dependerá que nuestro modelo funcione adecuadamente y haga predicciones acertadas.

Existe una frase muy conocida en el sector que es «garbage in, garbage out». Es decir, si los datos son malos, las salidas son malas, por eso hay que tener en cuenta si los datos que estamos ingestando efectivamente funcionan para lo que estamos modelando. Pero esto lo dejaremos para otra edición de este blog, por lo pronto quedémonos con estas reflexiones.

Entendamos y conozcamos el negocio y/o business case para que nos permitirá saber con mayor rapidez, si nuestro modelo es el adecuado para solucionar el problema.

Katiuska Gámez Arenas

Consultor Senior Independiente - Socio fundador en GAMEZ&ARRIOLA ABOGADOS - Due Diligence -Contratos - Compliance - Licitaciones - Profesor On Line - Inversión Social - Procesos y Procedimientos- Control Documental

2 años

Julio Carrasquel, una de tus especialidades!

Inicia sesión para ver o añadir un comentario.

Más artículos de Frida Ruh

Otros usuarios han visto

Ver temas