Cómo Detectar a un Charlatán de los Datos
Consejos para identificar a los impostores y neutralizar su “venta de humo”
Es posible que hayas oído hablar de analistas, ingenieros de ML / IA y estadísticos, pero ¿has oído hablar de su primo sobrepagado? ¡Conoce a los charlatanes de datos!
Atraídos por la tentación de trabajos lucrativos, estos vendedores de humo dan mala fama a los legítimos profesionales de datos.
Imagen: Fuente En la imagen se lee "Cómo detectar a un charlatán de los datos"
[¿Tienes prisa? Anda al final del artículo para ver un resumen rápido.]
Los charlatanes de datos están en todas partes
Es probable que tu empresa haya estado albergando a estos impostores durante años, pero la buena noticia es que son fáciles de identificar si sabes qué buscar.
Los charlatanes de datos son tan buenos para esconderse a plena vista que incluso podrías ser uno de ellos, sin siquiera darte cuenta. ¡Uh, oh!
La primera señal de advertencia es no comprender que la analítica y la estadística son disciplinas muy diferentes. Te daré una breve descripción general en la siguiente sección, pero si deseas comprenderlo más profundamente, he escrito un artículo completo aquí.
Diferentes disciplinas
Mientras que los estadísticos están entrenados para inferir lo que está más allá de sus datos, los analistas están entrenados para explorar el contenido de su conjunto de datos. En otras palabras, los analistas sacan conclusiones sobre lo que hay en sus datos, mientras que los estadísticos sacan conclusiones sobre lo que no hay.
Los analistas te ayudan a formular buenas preguntas (generación de hipótesis), mientras que los estadísticos te ayudan a obtener buenas respuestas (prueba de hipótesis).
También hay elegantes roles híbridos que pueden usar ambos sombreros ... pero no usan ambos sombreros en el mismo momento. ¿Por qué no? Un principio fundamental de la ciencia de datos es que si se enfrenta a la incertidumbre, no es válido utilizar el mismo dato para la generación de la hipótesis y para las pruebas. Cuando se tiene datos limitados, la incertidumbre te obliga a elegir entre estadísticas o analítica. (Encuentra mi explicación aquí).
Sin estadísticas, no puedes saber si la opinión que acabas de emitir tiene fundamento.
Sin analítica, estás volando a ciegas con poca oportunidad de resolver tus incógnitas desconocidas.
¡Esa es una decisión difícil! ¿Abre los ojos a la inspiración (analítica) mientras prometes renunciar a la satisfacción de saber si tu nueva opinión es válida? ¿O comienzas a sudar frío rogando para que la pregunta que has elegido hacer - meditando a solas encerrado dentro de un armario sin nada de datos - sea digna de la rigurosa respuesta (estadística) que estás a punto de obtener, para contestarla?
Vendedores de humo a posteriori
La forma en que el charlatán sale de este aprieto es ignorándolo, encontrando la cara de Elvis en una papa frita y luego fingiendo estar sorprendido de que la misma papa frita se parezca a Elvis. (La lógica de las pruebas de hipótesis estadísticas se reduce a preguntar si nuestros datos nos sorprenden lo suficiente como para cambiar de opinión. ¿Cómo podrían sorprendernos los datos si ya los hemos visto?)
¿Te parecen un conejo y un retrato de Elvis? ¿O quizás el retrato de un presidente? Para divertirte con este tema, lee mi artículo relacionado aquí.
Cada vez que los charlatanes encuentran un patrón, se inspiran, y luego prueban los mismos datos para ese mismo patrón, para luego publicar el resultado de su teoría junto con uno o dos valores de p que la justifican; lo que están realmente haciendo es mintiéndote (y tal vez a ellos mismos también). Ese valor de p no tiene sentido a menos que te comprometas con tu hipótesis ANTES DE de mirar tus datos.
Los charlatanes imitan las acciones de los analistas y estadísticos sin entender las razones de las mismas, dando a todo el campo de la ciencia de datos una mala reputación.
Los verdaderos estadísticos siempre toman sus decisiones
Gracias a la reputación casi mística de la profesión estadística por su razonamiento riguroso, la “venta de humo” en la ciencia de datos está en su momento más alto. Es fácil hacer trampa de esta manera sin ser atrapado, especialmente si sus víctimas desprevenidas piensan que todo se trata de ecuaciones y datos. Un conjunto de datos es un conjunto de datos, ¿verdad? Falso. La forma en que lo uses es importante.
Un conjunto de datos es un conjunto de datos, ¿verdad? Falso. La forma en que lo uses es importante.
Por suerte para sus potenciales víctimas, solo necesitas una pista para atraparlas: los charlatanes venden a posteriori.
Un charlatán vende a posteriori, matemáticamente redescubriendo fenómenos que ya saben que están en los datos, mientras que un estadístico ofrece pruebas de predicción.
A diferencia de los charlatanes, los buenos analistas son ejemplo de apertura mental, siempre combinando ideas inspiradoras con advertencias de que podría haber muchas explicaciones diferentes para los fenómenos observados, mientras que los buenos estadísticos tienen cuidado de tomar sus decisiones antes de ejecutarlas.
Los buenos analistas son ejemplo de amplitud mental. A diferencia de los charlatanes, no sacan conclusiones más allá de sus datos.
Los analistas producen inspiración
Los analistas están exentos de tomar decisiones ... siempre que no vayan más allá de sus datos. Si se sienten tentados a hacer afirmaciones sobre cosas que no han visto, ese es un trabajo diferente. Deberían quitarse el sombrero de analista y ponerse el casco de estadístico. Después de todo, sea cual sea tu puesto de trabajo oficial, no existe una regla que diga que no puedes aprender ambos oficios, si lo deseas. Simplemente no los confundas.
Cómo un charlatán prueba hipótesis. Meme: FUENTE.
Ser bueno en estadística no significa que seas bueno en analítica y viceversa. Si alguien intenta decirte lo contrario, revisa si aún tienes la billetera en tus bolsillos . Si esa persona te dice que se le permite hacer inferencia estadística en los datos que ya has explorado, revisa tus bolsillos dos veces.
Escondiéndose detrás de explicaciones sofisticadas
Si observas charlatanes de datos en la calle, notarás que les encanta inventar historias sofisticadas para "explicar" los datos observados. Cuanto más académico suene, mejor. No importa que estas historias solo se (sobre) ajusten con los datos a posteriori.
Cuando los charlatanes hacen eso - no me iré con rodeos - están mintiendo. Ninguna cantidad de ecuaciones o una bonita poesía, pueden compensar el hecho de que han ofrecido exactamente cero pruebas de que sabían de lo que estaban hablando más allá de sus datos.
No te dejes impresionar por lo elegante que es su explicación. Para que sea una inferencia estadística, tendrían que tomar su decisión antes de ver los datos.
Es el equivalente a mostrar sus poderes "psíquicos" mirando primero la mano de cartas que te han repartido y luego prediciendo qué tienes ... lo que sea que tengas. Prepárate para su novela sobre cómo tu expresión facial fue lo que que te delató. Eso es un sesgo a posteriori y la profesión de ciencia de datos está repleta de eso.
Los analistas dicen: "Es una reina de diamantes la que acabas de jugar". Los estadísticos dicen: "Escribí mis hipótesis en este pedazo de papel antes de empezar. Juguemos, observemos algunos datos, y veamos si tengo razón". Los charlatanes dicen: "Sabía todo el tiempo que ibas a jugar esa reina de diamantes, porque..." (El Machine Learning dice: "Voy a seguir prediciendo y ver que tal me fue, una y otra vez, y podré adaptar mis predicciones a una estrategia que funcione. Pero lo haré con un algoritmo porque llevar la cuenta de todo manualmente es un muy aburrido.")
Tu vida a prueba de charlatanes
Cuando no hay muchos datos disponibles, estás obligado a elegir entre estadística y analítica.
La división de datos es la solución cultural rápida que todos necesitan.
Afortunadamente, si tienes muchos datos, tienes una hermosa oportunidad de aprovechar la analítica y las estadísticas sin hacer trampa. También tienes la protección perfecta contra los charlatanes. Se llama división de datos y, en mi opinión, es la idea más poderosa en la ciencia de datos.
Nunca te tomes en serio una opinión no probada. En vez de eso, usa un montón de datos de prueba para averiguar quién entiende de qué están hablando.
Para protegerte de los charlatanes, todo lo que tienes que hacer es asegurarte de mantener algunos datos de prueba fuera del alcance de sus miradas indiscretas y luego tratar todo lo demás como analítica (no lo tomes en serio). Cuando te enfrentes a una teoría que estés en peligro de aceptar, úsala para tomar la decisión y luego abre tus datos de prueba secretos para ver si la teoría es una tontería. ¡Es tan fácil como eso!
Asegúrate de no permitir que nadie mire los datos de prueba durante la fase de exploración. Cíñete a los datos exploratorios para eso. Los datos de prueba no deben usarse para analítica. Meme: FUENTE
Este es un gran cambio cultural respecto a lo que la gente estaba acostumbrada en la era del Small Data ("datos pequeños"), donde tienes que explicar cómo sabes lo que sabes para convencer a la gente, tibiamente, de que realmente algo puedes saber.
La misma regla se aplica al ML / IA.
Algunos charlatanes que se hacen pasar por expertos en ML / IA son fáciles de detectar. Los atrapas de la misma manera que atraparías a cualquier otro mal ingeniero: las "soluciones" que intentan repetidamente construir fallan. (Una primera señal de alarma es la falta de experiencia con lenguajes de programación y con bibliotecas estándar en la industria).
Pero, ¿qué pasa con las personas que producen sistemas que parecen funcionar? ¿Cómo saber si está pasando algo sospechoso? ¡Se aplica la misma regla! El charlatán es un personaje siniestro que te muestra lo bien que se desempeñó su modelo ... con los mismos datos que usaron para hacer el modelo. *¡Qué horror!*
Si has creado un muy complicado sistema de Machine Learning, ¿cómo sabes si es bueno? No lo sabes... hasta que demuestres que funciona con datos nuevos que el modelo no ha visto antes.
Difícilmente es una * pre*dicción si has visto los datos antes de hacerla.
Cuando tienes suficientes datos para dividir, no necesitas alardear de la belleza de tus fórmulas para justificar tu proyecto (que sigue siendo un hábito pasado de moda pero que veo por todas partes, no solo en la ciencia). Puedes decir: “La razón por la que sé que funciona es que puedo tomar un conjunto de datos que no he visto antes y predecir con precisión lo que allí sucederá ... y tener la razón. Una y otra vez."
Probar tu modelo / teoría con datos nuevos es la mejor base para la confianza.
Toma las decisiones estadísticas o se humilde
Parafraseando una broma del economista Paul Samuelson:
Los charlatanes han predicho con éxito nueve de las últimas cinco recesiones.
No tengo paciencia con los charlatanes de datos. ¿Crees que "sabes" algo relacionado con ver rostros dibujados en las nubes? No podría importarme menos tu opinión. No me impresiona lo elegante que es tu explicación. Muéstrame que tu teoría / modelo funciona (y sigue funcionando) con un montón de nubes nuevas que nunca antes has visto. Ésa es la verdadera prueba del rigor de tu opinión.
Imagen: Fuente En la imagen se lee "Convención de Videntes cancelada, debido a circunstancias no previstas."
Consejos para profesionales de ciencia de datos
Profesionales de la ciencia de datos, si quieren ser tomados en serio por alguien que entienda el humor de aquí, dejen de esconderse detrás de ecuaciones extravagantes para apoyar sus prejuicios humanos. Muéstranos lo que tienes. Si quieres que aquellos que "te entienden" traten tu teoría/modelo como algo más que una poesía inspiradora, ten las agallas de hacer la gran revelación de lo bien que funciona en un nuevo conjunto de datos... ¡delante de testigos!
Consejos para los líderes
A los líderes: niéguese a tomar en serio cualquier “insight” (descubrimiento) en los datos, hasta que se hayan probado con nuevos datos. ¿No tienen ganas de hacer el esfuerzo? Limítense a la analítica, pero no se apoyen en esos insights. pues son endebles y no se ha comprobado su fiabilidad. Además, cuando su organización tiene datos en abundancia, no hay inconveniente en hacer de la división una parte esencial de su cultura de ciencia de datos, e incluso hacerla cumplir a nivel de infraestructura controlando el acceso a los datos de prueba destinados a las estadísticas. ¡Es una gran manera de cortar de raíz los intentos de vender humo!
Más trucos malos
Si quieres ver más ejemplos de charlatanes que no hacen nada bueno, este enlace de Twitter es maravilloso.
Resumen
Cuando los datos son demasiado escasos para poder dividirlos, sólo un charlatán de datos intenta buscar inspiración con rigor, vendiendo a posteriori el re-descubrimiento matemático de fenómenos que ya sabía que estaban en los datos y los llama, para tu sorpresa, estadísticamente significativos. Esto los diferencia del analista de mente abierta que se ocupa de la inspiración, y del estadístico meticuloso que ofrece pruebas de predicción.
Cuando los datos sean abundantes, acostúmbrate a dividirlos para poder tener lo mejor de ambos mundos sin hacer trampa. Asegúrate de realizar analítica y estadística por separado en subconjuntos separados de tu conjunto de datos original.
- Los analistas te ofrecen una inspiración con mente abierta.
- Los estadísticos te ofrecen pruebas rigurosas.
- Los charlatanes te ofrecen una distorsionada visión a posteriori, que pretende ser analítica más estadística.
Traducido por Carlos Secada del original por Cassie Kozyrkov
Obtén más información sobre ciencia de datos e inteligencia artificial en español aquí.