¿Qué son los modelos machine learning supervisados?

El algoritmo machine learning supervisado es un sistema de machine learning que utiliza conjuntos de datos etiquetados, es decir, puntos colectivos de datos cuya información ha sido anotada por humanos para ayudar a los algoritmos del software de machine learning (ML) a inferir categorizaciones, clasificaciones y/o predicciones.

Dado que el machine learning puede ser supervisado, semisupervisado o no supervisado en cuanto a sus requisitos de etiquetado de datos, el modelo supervisado machine learning es, naturalmente, la forma opuesta al machine learning no supervisado. Sin embargo, ¿qué significa que el machine learning sea supervisado o no supervisado?

¿Cómo funcionan los algoritmos supervisados de machine learning?

El machine learning supervisado (SML) funciona mediante algoritmos y software que generan un resultado (la inferencia generada por el algoritmo) a partir de una entrada específica, es decir, el conjunto de entrenamiento.

El conjunto de entrenamiento es una colección de conjuntos de datos etiquetados proporcionados en gran parte, o en su totalidad, por humanos. Ten en cuenta que estos conjuntos de datos etiquetados se consideran la base de la verdad en el contexto del ML. En otras palabras, independientemente de si los etiquetadores de datos humanos son correctos o no en su anotación de datos, el sistema de ML no tiene capacidad para medir esta precisión y hace sus inferencias basándose en sus datos introducidos.

Además de los conjuntos de entrenamiento, la precisión de los sistemas SML se comprueba en grupos de datos conocidos como conjuntos de prueba: los utilizan personas para comprobar la precisión de un sistema de machine learning supervisado. Los probadores humanos tienen un resultado esperado y el proceso de evaluación implica la comprobación cruzada de los resultados de los conjuntos de prueba con los resultados esperados para los conjuntos de entrenamiento.

El machine learning de SEON ayuda a combatir el fraude

SEON utiliza la fuerza combinada de los algoritmos ML de caja blanca y de caja negra para detectar comportamientos anómalos en las transacciones y prevenir conductas fraudulentas como el robo de cuentas y otras.

Pide una Demo

¿Cuáles son los diferentes tipos de aprendizaje supervisado en machine learning?

El aprendizaje supervisado tiene muchos tipos diferentes en el contexto del machine learning porque hay muchas formas en las que los humanos pueden interactuar con los sistemas de ML basándose en cómo se lleva a cabo el proceso de etiquetado de datos dado.

Existen dos tipos principales de modelos supervisados machine learning en función de los problemas que abordan: clasificación y regresión. Sin embargo, los numerosos métodos para abordar estos problemas hacen que existan muchas subcategorías de enfoques de aprendizaje supervisado.

¿Qué es la clasificación?

La clasificación se refiere al problema de garantizar que los algoritmos de SLM asignen correctamente una etiqueta de clase a sus conjuntos de datos. Por ello, los algoritmos de clasificación deben ser entrenados por etiquetadores de datos para garantizar que el software de aprendizaje supervisado categoriza su entrada en función de determinados criterios.

Por ejemplo, la clasificación de imágenes puede implicar que un sistema SML determine la mejor manera de transcribir el contenido de audio. Palabras como tour y chore pueden sonar parecidas, sobre todo para una máquina, por lo que corresponde a los etiquetadores de datos garantizar que los conjuntos de datos de entrenamiento puedan distinguir entre ambas.

Hay muchos ejemplos de algoritmos de aprendizaje supervisado que abordan el problema de la clasificación, como:

árboles de decisión
bosque aleatorio
redes neuronales
refuerzo de gradiente
máquinas de vectores soporte
Naive Bayes

Determinar qué tipo de algoritmo es el mejor depende totalmente de la naturaleza de los datos de entrada que hay que clasificar. Diferentes estructuras de datos y métodos de entrada requerirán algunas compras para encontrar el ML que sea más conveniente de entender y acceder.

¿Qué es la regresión?

La regresión se refiere al problema de garantizar que los algoritmos SML determinen correctamente la relación que se produce entre las variables independientes y dependientes. Ejemplos de variables independientes y dependientes, respectivamente, son: un tipo de medicamento y la salud de un paciente; un plan de ejercicios y el nivel de forma física de una persona; un plan presupuestario y los hábitos de compra de un consumidor.

Los etiquetadores de datos deben entrenar un sistema SML para determinar algorítmicamente la dinámica que tienen entre sí esas variables dependientes y las independientes. Al aprender la relación entre dos puntos de datos, el sistema puede tomar un nuevo punto de datos y formar cálculos -en forma de previsiones y predicciones- según el resultado esperado históricamente.

Pensemos, por ejemplo, en los etiquetadores de datos que introducen la ubicación de las casas y la evolución de sus precios a lo largo del tiempo. Si se entrena adecuadamente, un sistema de SML podría empezar a pronosticar los precios de la vivienda basándose en los patrones que surgen en estas variables a lo largo del tiempo.

Los tipos de algoritmos de aprendizaje supervisado que abordan el problema de la regresión son amplios y cada vez más numerosos, pero entre los ejemplos más destacados se incluyen:

regresión lineal
regresión logística
regresión polinómica
regresión de red elástica
regresión ridge
regresión lasso

Al igual que ocurre con los algoritmos de ML diseñados para la clasificación, en función del tipo, la cantidad y la organización de los puntos de datos que se analicen, uno de estos modelos puede resultar más eficaz y útil que otros.

¿Por qué son importantes los modelos supervisados machine learning?

El machine learning supervisado es importante porque permite que los humanos y los sistemas de software formen una relación simbiótica: los humanos alimentan el software con datos etiquetados valiosos y el software hace inferencias en consecuencia.

Esta dinámica permite a los etiquetadores de datos, diseñadores de software y muchos otros profesionales comprender mejor cómo entrenar y aprender de las tecnologías de machine learning.

Como tal, el SML es un medio crucial no solo para aumentar nuestro acceso a diversas formas de conocimiento y percepciones, sino también para aumentar nuestra comprensión de cómo el machine learning puede mejorarse con una cuidadosa intervención humana.

En términos prácticos, los algoritmos machine learning supervisados también facilitan la automatización en un gran número de funciones empresariales, reduciendo los recursos manuales necesarios. Esto se extiende a funciones integrales como el marketing, las ventas y, por supuesto, la seguridad y la prevención del fraude. SEON aprovecha ampliamente el machine learning basado en regresión para identificar comportamientos potencialmente fraudulentos, pero la técnica también es una parte crucial de cosas como la predicción de los valores de vida de los clientes, el marketing dirigido automatizado, el análisis de sentimientos y mucho más.

Reduce las tasas de fraude en un 70-90%

Asóciate con SEON para reducir las tasas de fraude en tu empresa con enriquecimiento de datos en tiempo real, machine learning de caja blanca y APIs avanzadas.

Pide una Demo

¿Cómo pueden combatir el fraude los modelos supervisados machine learning?

Los algoritmos machine learning supervisados pueden combatir el fraude recopilando y procesando datos de transacciones y formando inferencias basadas en la información que pueden utilizarse para determinar qué constituye una actividad financiera legítima e ilegítima.

Por ejemplo, los sistemas de machine learning supervisado pueden alimentarse con datos a largo plazo, es decir, conjuntos de datos históricos, que representan el historial transaccional de un sitio web de comercio electrónico. Cuando el software de machine learning supervisado cuenta con etiquetadores de datos que introducen las transacciones año por año de ese sitio de comercio electrónico, se equipa para detectar anomalías -y, por tanto, actividad sospechosa en las cuentas- e incluso hacer predicciones sobre cuándo pueden volver a producirse transacciones fraudulentas.

Otras formas en que el SML puede luchar contra el fraude son:

Reducir los falsos positivos: Al ser supervisado, el ser humano puede entrenar al sistema para que evite marcar cuentas no sospechosas.
Mejorar el enriquecimiento de datos: Los humanos pueden enriquecer los datos y entrenar al sistema para que haga lo mismo.
Mejorar la puntuación del fraude: La intuición de los humanos combinada con la eficacia de un sistema automatizado de AML mejora la capacidad de SML para determinar la puntuación de fraude de una cuenta.

¿Cuáles son los casos de uso de los modelos supervisados machine learning?

Los casos de uso del machine learning supervisado son cada vez más numerosos en todo tipo de sectores y áreas, pero aquí nos centraremos en los casos de uso que entran en el contexto de la prevención del fraude, la gestión de recursos y el comercio electrónico.

Prevención del fraude

Aparte de sus ventajas en la lucha contra el fraude como la reducción de falsos positivos, el enriquecimiento de datos y la mejora de la puntuación del fraude, el SML también ofrece muchos casos de uso para la prevención del fraude, como por ejemplo:

la realización de modelos predictivos para ayudar a encontrar indicios de futuros ataques fraudulentos
utilizar la detección de anomalías para ayudar a detectar a los estafadores potenciales
identificar los riesgos de fraude de varias cuentas mediante el proceso de análisis del comportamiento

Gestión de recursos

El SML es capaz de mejorar la gestión de recursos -es decir, la asignación de recursos, como personal y equipos, a un proyecto determinado- llevando a cabo lo siguiente:

automatizr el proceso de planificación logística al asignar los calendarios de trabajo al personal
recopilar datos que representen la mejor asignación de recursos y actuación en consecuencia
agilizar -y reducir potencialmente los sesgos humanos- el proceso de análisis de personal, es decir, la recopilación de datos del personal como su rendimiento laboral, tiempo de llamada, etc.