Glosario

Caja blanca machine learning

¿Qué es el modelo de caja blanca machine learning?

Los algoritmos de caja blanca machine learning nos dan no solo un resultado, sino también reglas claramente legibles. Los usuarios reciben la decisión a la que ha llegado el algoritmo, así como un desglose del proceso seguido para llegar a ella. 

El concepto de transparencia es clave en el machine learning. Considera, por ejemplo, la prevención del fraude. Introduces cierta información en un modelo de machine learning: en este caso, lo que sabes de un cliente potencial. «¿Es legítimo o un estafador?», preguntas. 

Todos los modelos de machine learning te darán una respuesta: una puntuación de riesgo en el caso de la prevención de fraude, que explica la probabilidad de que esta persona sea un estafador. ¿Pero te dirá por qué y cómo ha llegado a esa conclusión?

Si lo hace, es un modelo de caja blanca machine learning. Si no lo hace, es lo contrario: un modelo de caja negra machine learning.

En otras palabras, el modelo de caja blanca machine learning te permite ver el funcionamiento interno del modelo de ML.

Además de la salida que obtienes, también recibes un árbol de decisión que detalla exactamente qué partes de la entrada se tuvieron en cuenta, cómo se ponderó cada factor, qué se ignoró, etc. 

¿Cómo funciona el modelo de caja blanca machine learning?

Veamos cómo funciona en la práctica.

  1. El machine learning consiste en introducir enormes cantidades de datos de ejemplo en un algoritmo y dejar que aprenda por sí mismo.
  2. Tras esta etapa de entrenamiento, proporcionamos datos del mundo real como entrada.
  3. Todo algoritmo de machine learning nos dará una salida -una decisión o resultado- para ello.

Sin embargo, un sistema de caja blanca acompañará ese resultado con una explicación de cómo se ha llegado a él, en forma de árboles de decisión, factores ponderados, etc. 

¿Por qué es importante el modelo de caja blanca machine learning?

A diferencia de la mayoría de los modelos de machine learning que existen, que suelen ser de caja negra, el de caja blanca ofrece una valiosa visión del proceso utilizado para llegar a su resultado. Este proceso de pensamiento se presenta al usuario en forma de árboles de decisión.

Esto tiene tres ventajas principales

  • El usuario sabe exactamente cómo se ha llegado a esa complicada decisión, por lo que puede verificar el resultado o incluso el proceso de pensamiento. 
  • El modelo de caja blanca machine learning nos permite ajustar y adaptar los procesos de decisión, optimizando y mejorando el resultado a voluntad, cuando sea necesario.
  • Los humanos tienen la última palabra sobre los resultados, por lo que la precisión es alta. 

Todo esto se debe a la transparencia del modelo de caja blanca.

Como formador o usuario de un sistema de caja blanca, puedes hacer pruebas para ver si el árbol de decisión te funciona o incluso utilizar una caja de arena para hacer los ajustes necesarios.

Esto nos ayuda a entender las puntuaciones, a ajustar los umbrales de aprobación o rechazo, y es valioso cuando se realizan revisiones manuales.

¿Cómo puede el modelo de caja blanca machine learning combatir el fraude?

Los sofisticados algoritmos de caja blanca se consideran fundamentales en la lucha contra el fraude para cada vez más empresas de todo el mundo, tanto en términos de prevención como de detección de fraude.

  1. Los algoritmos de machine learning estudian los datos de una organización y aprenden de los resultados y casos históricos. Esta etapa de entrenamiento inicial combina árboles de decisión preestablecidos con necesidades y circunstancias personalizadas y específicas de la organización.
  2. Se presentan sugerencias de reglas legibles para el ser humano en forma de árboles de decisión. 
  3. El usuario puede elegir ajustar estas reglas según su comprensión de las preguntas que el algoritmo deberá responder.
  4. A partir de ahí, el algoritmo empieza a luchar contra el fraude en serio, utilizando estas reglas para asignar un scoring de riesgo -con estimaciones de precisión- a cada transacción.  
  5. Si se les presenta la puntuación de riesgo, los factores ponderados y el árbol de decisiones, los analistas de fraude pueden comprender mejor la puntuación al realizar las revisiones manuales.
  6. En todo momento, el usuario puede volver a entrar y afinar más, mejorando constantemente los resultados ajustando los umbrales de aprobación o rechazo. 

Si buscas más detalles y elaboración técnica, considera la posibilidad de leer el desglose de cómo funciona el modelo de caja blanca machine learning en SEON, en nuestra sección de documentación abierta.

¿Por qué elegir el modelo de caja blanca machine learning en lugar del de caja negra?

Los expertos del sector consideran que el modelo de caja blanca machine learning es muy superior al de caja negra, y una vez que conoces sus diferencias, no es difícil ver por qué:

El modelo de caja blanca machine learning es adaptable, transparente y los humanos tienen la última palabra en los resultados.

Como no solo te dice el qué, sino también el por qué, se diferencia de los algoritmos de caja negra en varios aspectos:

Caja blanca machine learningCaja negra machine learning
TransparenteOpaco
Proporciona visualizaciones del procesoNo explica los procesos internos
Permite probar y ajustarTe bloquea
ConfigurableNo configurable
Más lentoMás rápido
Más precisoMenos preciso
Los humanos tienen la última palabraLos humanos solo ven los resultados
Requiere más participación humanaTrabaja sin supervisión
Es más probable que capte patrones históricosEs más probable que identifique nuevos patrones
Responde «¿qué?» y «¿por qué?»Responde «¿qué?»
Da a los usuarios un control totalLimita el control al no ser transparente

Está claro que un enfoque de caja blanca es ideal para luchar contra el fraude y en otras aplicaciones del machine learning.

Sin embargo, esto no quiere decir que deba evitarse siempre el modelo de caja negra. Gracias a su mayor velocidad y a su capacidad para marcar comportamientos nuevos e inusuales como sospechosos, puede ser valioso como herramienta secundaria, en determinadas situaciones. 

Dependiendo del sector de la organización y de los datos históricos de fraude, algunos proveedores recomendarán o sugerirán:.

  • un conjunto de reglas preestablecidas por el sector
  • un conjunto de reglas de machine learning
  • un conjunto de reglas personalizadas

Como todas ellas se presentan de forma transparente en un entorno de caja blanca, y se visualizan en forma de árboles de decisión, los usuarios tendrán una visión clara de cómo se calculan las puntuaciones para cada configuración, y podrán ajustar el peso de cada regla.

Incluso una vez que el sistema se apruebe y se ponga en marcha, los analistas de riesgos humanos siempre pueden tener la última palabra con un sistema de caja blanca. 

Por eso el modelo  de caja blanca machine learning significa que nunca estás a merced de los algoritmos.