¿Cuáles son algunas formas clave para automatizar y optimizar los procesos de ciencia de datos?
Los procesos de la ciencia de datos en el contexto del aprendizaje automático y la IA se pueden dividir en cuatro fases distintas:
- adquisición y exploración de datos ,
- construcción del modelo,
- despliegue del modelo y
- Evaluación y refinamiento en línea.
Desde mi experiencia, las fases más importantes son las fases de adquisición de datos y de implementación de modelos en cualquier proceso de ciencia de datos basado en el aprendizaje automático, y aquí hay dos formas de optimizarlas:
1. Establecer un almacén de datos altamente accesible.
En la mayoría de las organizaciones, los datos no se almacenan en una ubicación central. Tomemos información relacionada con los clientes. Si su empresa es una aplicación web, tiene información de contacto con el cliente, correos electrónicos de atención al cliente, comentarios de los clientes e historial de navegación del cliente . Todos estos datos están dispersos de forma natural, ya que tienen diferentes propósitos. Pueden residir en diferentes bases de datos y algunas pueden estar completamente estructuradas y otras no estructuradas , e incluso pueden almacenarse como archivos de texto sin formato.
Desafortunadamente, la dispersión de estos conjuntos de datos es altamente limitante para el trabajo de la ciencia de datos, ya que la base de todos los problemas de PNL , aprendizaje automático y AI son los datos . Por lo tanto, tener todos estos datos en un solo lugar, el almacén de datos , es primordial para acelerar el desarrollo y la implementación del modelo. Dado que esta es una pieza crucial para todos los procesos de ciencia de datos, las organizaciones deberían contratar ingenieros de datos calificados para ayudarlos a construir sus almacenes de datos. Esto puede comenzar fácilmente como simples volcados de datos en una ubicación y crecer lentamente en un repositorio de datos bien pensado , totalmente documentado y con herramientas de utilidad para exportar subconjuntos de datos en diferentes formatos para diferentes propósitos.
2. Exponga sus modelos como un servicio para una integración perfecta.
Además de permitir el acceso a los datos, también es importante poder integrar los modelos desarrollados por los científicos de datos en el producto. Puede ser extremadamente difícil integrar modelos desarrollados en Python con una aplicación web que se ejecuta en Ruby . Además, los modelos pueden tener una gran cantidad de dependencias de datos que su producto no puede proporcionar.
Una forma de lidiar con esto es configurar una infraestructura sólida en torno a su modelo y exponer la funcionalidad que necesita su producto para usar el modelo como un "servicio web". Por ejemplo, si su aplicación necesita una clasificación de opiniones en las revisiones de productos , todo lo que debe hacer es invocar el servicio web , proporcionando el texto relevante y el servicio devolverá la clasificación de sentimiento apropiada que el producto puede usar directamente. De esta manera, la integración es simplemente en forma de una llamada a la API . Desacoplar el modelo y el producto que lo utiliza hace que sea muy fácil para los nuevos productos que se te ocurran, para que también utilicen estos modelos sin problemas.
Ahora, configurar la infraestructura alrededor de su modelo es otra historia y requiere una gran inversión inicial de parte de sus equipos de ingeniería. Una vez que la infraestructura está allí, es solo una cuestión de construir modelos de una manera que se ajuste a la infraestructura.
Fuente:thechopedia