2 heramientas para mejorar tu código python/pySpark 🐍
Una de las reglas más útiles que he aprendido a lo largo del tiempo trabajando en proyectos es definir un estándar a la hora de codificar. Esto tiene muchas ventajas, pero todo se resume a que a futuro te ahorran mucho tiempo y dolores de cabeza.
Si trabajas en un proyecto de forma individual o si formas parte de un equipo, te permite mejorar la legibilidad del código lo que a su vez se traduce en menos tiempo tratando de entender el código (sobre todo si ya ha pasado mucho tiempo desde que lo hiciste).
Hoy te presento dos herramientas que te ayudan a mejorar la legibilidad de tu código.
Guía de estilo de PySpark
Para código de PySpark, te presento el repositorio de PySpark Style Guide en el que encontrarás ejemplos de código malo y sugerencias de cómo refactorizarlo. Desde hacer más simple una lógica compleja, hasta una mejor manera de definir los JOINs, implementar UDF (funciones definidas por usuarios).
Guía de estilo para python
En el caso de código enteramente de Python el repositorio de google contiene una muy útil y entendible guía de estilo. De hecho cuentan con una librería (yapf) que te permite dar formato a scripts.
Cuéntame... ¿Qué herramientas o convenciones utilizar en tus proyectos de datos?