¿Cuáles son algunas formas clave para automatizar y optimizar los procesos de ciencia de datos?

VIP DATA

SOLUCIONES TECNOLÓGICAS

Fecha de publicación: 16 oct 2018

Los procesos de la ciencia de datos en el contexto del aprendizaje automático y la IA se pueden dividir en cuatro fases distintas:

adquisición y exploración de datos ,
construcción del modelo,
despliegue del modelo y
Evaluación y refinamiento en línea.

Desde mi experiencia, las fases más importantes son las fases de adquisición de datos y de implementación de modelos en cualquier proceso de ciencia de datos basado en el aprendizaje automático, y aquí hay dos formas de optimizarlas:

1. Establecer un almacén de datos altamente accesible.

En la mayoría de las organizaciones, los datos no se almacenan en una ubicación central. Tomemos información relacionada con los clientes. Si su empresa es una aplicación web, tiene información de contacto con el cliente, correos electrónicos de atención al cliente, comentarios de los clientes e historial de navegación del cliente . Todos estos datos están dispersos de forma natural, ya que tienen diferentes propósitos. Pueden residir en diferentes bases de datos y algunas pueden estar completamente estructuradas y otras no estructuradas , e incluso pueden almacenarse como archivos de texto sin formato.

Desafortunadamente, la dispersión de estos conjuntos de datos es altamente limitante para el trabajo de la ciencia de datos, ya que la base de todos los problemas de PNL , aprendizaje automático y AI son los datos . Por lo tanto, tener todos estos datos en un solo lugar, el almacén de datos , es primordial para acelerar el desarrollo y la implementación del modelo. Dado que esta es una pieza crucial para todos los procesos de ciencia de datos, las organizaciones deberían contratar ingenieros de datos calificados para ayudarlos a construir sus almacenes de datos. Esto puede comenzar fácilmente como simples volcados de datos en una ubicación y crecer lentamente en un repositorio de datos bien pensado , totalmente documentado y con herramientas de utilidad para exportar subconjuntos de datos en diferentes formatos para diferentes propósitos.

2. Exponga sus modelos como un servicio para una integración perfecta.

Además de permitir el acceso a los datos, también es importante poder integrar los modelos desarrollados por los científicos de datos en el producto. Puede ser extremadamente difícil integrar modelos desarrollados en Python con una aplicación web que se ejecuta en Ruby . Además, los modelos pueden tener una gran cantidad de dependencias de datos que su producto no puede proporcionar.

Una forma de lidiar con esto es configurar una infraestructura sólida en torno a su modelo y exponer la funcionalidad que necesita su producto para usar el modelo como un "servicio web". Por ejemplo, si su aplicación necesita una clasificación de opiniones en las revisiones de productos , todo lo que debe hacer es invocar el servicio web , proporcionando el texto relevante y el servicio devolverá la clasificación de sentimiento apropiada que el producto puede usar directamente. De esta manera, la integración es simplemente en forma de una llamada a la API . Desacoplar el modelo y el producto que lo utiliza hace que sea muy fácil para los nuevos productos que se te ocurran, para que también utilicen estos modelos sin problemas.

Ahora, configurar la infraestructura alrededor de su modelo es otra historia y requiere una gran inversión inicial de parte de sus equipos de ingeniería. Una vez que la infraestructura está allí, es solo una cuestión de construir modelos de una manera que se ajuste a la infraestructura.

Fuente:thechopedia

¿Cuáles son algunas formas clave para automatizar y optimizar los procesos de ciencia de datos?

VIP DATA

SOLUCIONES TECNOLÓGICAS

Más artículos de este autor

Otros usuarios han visto

El Futuro del Business Intelligence: Tendencias - Inteligencia Artificial y Aprendizaje Automático

Machine Learning y Big Data cada día más cerca de todos.

🚀 Spreadsheet LLM: La Evolución del Análisis de Datos 🌟

Juan Pablo Moldero

Un nuevo paradigma de Inteligencia Artificial

Algoritmos y Estructuras de Datos en la Era Digital

Ingeniería de Datos: Conceptos Generales

Descifrando el Big Data: Un viaje a través del Aprendizaje Automático y el Internet de las Cosas

¿Podemos aplicar Machine Learning sin saber programar?

Consideraciones para la recolección y preparación de datos para entrenar y validar modelos de IA

Ver temas

6 consejos para asegurar un dispositivo IoT

26 mar 2019

La importancia del retail management en el mercado actual

25 feb 2019

Cobots: robots nacidos para trabajar codo con codo con humanos.

18 feb 2019

Robots nacidos para trabajar codo con codo con humanos.

18 feb 2019

Cómo puede ayudar la IA a enfrentar el cambio climático

31 ene 2019

No importa los robots asesinos: aquí hay seis peligros reales de la IA a los que hay que tener cuidado en 2019

8 ene 2019