AnalytixIQ Systems reposted this
La semana pasada me tocaba cargar algunos excels en Fabric. Como últimamente estoy probando Polars, me decidí a ver qué tan fácil era cargar unos 10 excels aproximadamente, cada uno con diferentes estructuras y hojas. La verdad es que fue bastante sencillo. Sólo necesité Polars y la librería fastexcel como complemento, ya que sin ella no puedes leer los ficheros (Polars la utiliza por debajo). La idea era cargar estos excels desde la capa de Landing a Bronze, por lo que no requería manipular ningún valor. Simplemente renombré las columnas (todo snake_case) y añadir los típicos metadatos, como la fecha de inserción de esos datos en el lago. Aquí muestro un ejemplo que he hecho en mi ordenador, simulando lo que hice en el proyecto. Destacar que faltaría la parte de escritura en el Lakehouse, pero para eso ya hice un post anteriormente de ejemplo. La sintaxis de Polars es muy parecida a la de PySpark. En la lectura del excel, podemos seleccionar la hoja, columnas, etc, como parámetros de entrada. Por defecto, infiere el esquema por nosotros. Documentación: https://lnkd.in/du84ZPeC #Polars #Python #Excel #DataEngineer
Más bien es idéntico a Pandas. El único hándicap es que a día de hoy no es compatible en Power BI en temas de ETL.
Consejos útiles
Se ve muy interesante Polars, creo que lo usaré. Gracias por la recomendación
Computer Science | Practicante de Financial Crime Prevention
1dSiempre debes hacer un pequeño chequeo en el tipo de dato de cada columna pórque polars veces infiere de manera incorrecta. Te recomiendo usarlo con sklearn porque es más rapido que pandas. También te puede dar un dolor de cabeza si utilizas funciones donde requieras analizar uno por uno cada fila para eso te recomendo convertirlo a numpy y devolverlo a polars