¿Qué es el Machine Learning?
Cómo dijimos anteriormente, el Machine learning es un subconjunto dentro de la Inteligencia artificia (IA), no imita funciones cognitivas humanas, sino que aprende a realizar una tarea a partir de experiencia previa, lo que en este contexto llamamos datos. Los algoritmos de Machine learning no se diseñan manualmente reproduciendo operaciones, sino que aprenden a reproducirlas mejorando su performance a través de un “Data set” o conjunto de datos.
Un algoritmo de Machine Learning es capaz de aprender a partir de los datos, hay una definición que la da Mitchell en 1997 y dice:
…”Un programa se dice que aprende de experiencia E con respecto alguna clase de tareas T y una pedida de performant P, sí su performance para las tareas en T medida por la métrica P mejora con la experiencia E”…

Entonces la tarea (T) es “la tarea objetivo”, es decir el problema que queremos resolver.
La experiencia (E) son los datos, los ejemplos o las muestras que describen las entradas y las respuestas esperadas de algoritmo.
La performance (P) es la función que hay que optimizar, es la forma de medir el error o la precisión del algoritmo al ejecutar una tarea.
Cuestiones a tener en cuenta para la resolución de un problema mediante Machine Learning:
- Identificar la tarea a resolver.
- ¿Qué datos necesito?.
- ¿Qué métrica puede utilizar para evaluarlo?.
- ¿Qué modelos existen para atacar problemas similares?.
Luego preparar los datos necesarios para entrenar el algoritmo, recolectarlos, curarlos y luego dividir los datos representativamente en un set de entrenamiento, un set de validación y un set de test.
Nota: para curarlos hay que tener en cuenta el Análisis, detectar problemas, aplicar mecanismos de corrección en la información. Es decir, si hay información faltante o si hay valores no válidos.
Luego hay que entrenar el modelo, para ello se debe realizar esta acción sobre los datos del entrenamiento utilizando una configuración determinada, evaluar ese modelo sobre los datos de validación y si la performance no es satisfactoria; hay que recalibrar el modelo, repetir el entrenamiento y la evaluación, finalmente evaluamos los resultados sobre los datos de test.
Resumen de clasificación de ML
- Según la naturaleza de los datos:
- Supervisado → Subclasificación → débilmente supervisado
- No supervisado → Subclasificación → semi supervisado
- Según la forma que el algoritmo ve la forma para entrenarse
- Batch Learning
- Online learning.
- Según el problemas típico a resolver:
- Regresión simple
- Clustering
- Clasificación
- Deteccion de anomalias
A continuación detallamos claramente cada uno de los tipos propuestos.
Dados de los tipos de problemas de Machine Learning según la naturaleza de los datos se pueden dividir en:
- Supervisado.
- No supervisado.
En el aprendizaje supervisado los modelos se entrenan a partir de muestras y sus etiquetas asociadas, entonces lo que hace el algoritmo es aprender a descubrir los patrones que están asociados a cada etiqueta. En el no supervisado los modelos descubren patrones en la distribución de las muestras en un determinado espacio de características de las muestras, los datos no están anotados, sino que sólo se cuentan con muestras y sus características.
Dentro de lo que es aprendizaje supervisado los algoritmos que tenemos pueden ser:
- “K- nearest neighborhoods” o vecinos más cercanos
- Support vector Machine
- Regresión logística
- Árboles de decisión
- Random Forest
- Algunas redes neuronales.
En lo que son métodos de aprendizaje no supervisados tenemos los siguientes métodos:
- Metodo de Clustering
- K-means
- Fuzzy C-means
- Clustering jerárquico
- Algunas redes neuronales
- Método de reducción de dimensionalidad:
- PSA
- T-SNE
- Reglas de asociación.
Ejemplos para comprender: En aprendizaje supervisado, en una regresión la experiencia es toda la data de una casa, y la etiqueta el precio por ejemplo.
En una clasificación, en el ejemplo de si un correo electrónico es spam o no, la data es toma la info de dicho correo y la etiqueta de si fue o no spam.
Después tenemos dos subclasificaciones dentro de los supervisado y no supervisado Qué es una zona gris que está
El débilmente supervisado: que son modelos supervisados que usaron datos con etiquetas débiles, quizás datos con etiqueta que son generadas por otro algoritmo, pero que no son la verdad absoluta
Y dentro del no supervisado tenemos en semi supervisado, qué son algoritmos que pueden lidiar con datos parcialmente anotados, esto quiere decir que algunas muestras tienen etiquetas y otras no.
Según la forma que el algoritmo ve la forma para entrenarse lo podemos dividir en Batch Learning u online learning.
En Batch Learning el modelo se aprende sobre un conjunto de datos, pero no es capaz de mejorar incrementalmente, se usan todos los datos para entrenar y el modelo se entrena offline, luego el modelo de “deploya” en la aplicación correspondiente.
Ahora bien, en no-online learning el modelo se entrena de manera incremental alimentándose secuencialmente con grupos de instancias, el modelo aprende iterativamente conforme recibe las nuevas muestras y el ritmo de entrenamiento lo termina lo terminan dando un parámetro que se llama la learning writhe.
Dentro de los modelos de Batch Learning que conocemos se encuentran:
- “K neighborhoods” o vecinos más cercanos.
- Support vector machines.
- Logistic regression.
- Clustering.
- Reducción de discrecionalidad.
En no-online learning son todas las redes neuronales.
Después tenemos muchas formas de clasificarlos, si son basados en una instancia o basados en un modelo, o si son alguno de los cuatro problemas más típicos entrarán en:
- Regresión simple.
- Clustering.
- Clasificación.
- Detección de anomalias.
La regresión es modelo cuya función es predecir una variable continua a partir de las características de una muestra determinada. Se entrena con conjuntos de datos anotados, con lo cual es lenguaje supervisado, en la que cada muestra tiene un valor continuo asociado y lo que hay que hacer es minimizar el error cometido al intentar predecir sobre los datos de entrenamiento. Dada una muestra sin etiquetar el modelo permite realizar predicciones de la variable objetivo.
Por ejemplo la predicción del costo de una casa, la predicción de la calidad de un vino puede ser a partir de sus ingredientes.
En lo que son los problemas de clasificación, los modelos lo que tienen que predecir a qué clase y que variable categórica pertenece la muestra a partir de sus características.
Se entrena también sobre datos anotados, por lo que es entrenamiento supervisado, las etiquetas de cada muestra corresponden a un valor discreto. Por ejemplo si un mail es spam o no lo es.
El modelo se entrena minimizando el error cometido al intentar predecir sobre los datos de enterramiento, dado una muestra que no está etiquetada el modelo le va a asignar un valor o una clase, por ejemplo reconocer dígitos escritos a mano a partir de fotografías es un modelo de clasificación.
Clustering: identifican grupos de muestras en un determinado espacio de características, los datos no tiene etiquetas, es no supervisado. Se utilizan para modelar, aproximar la distribución de los datos en la vida real y lo que busca es identificar los grupos estudiando las instancias entre las diferentes muestras, utilizando una métricas de distancia dada. Cuando hablamos de distancia, estamos hablando de que tan lejos están los puntos dentro de un grupo, con relación a puntos de otros grupos.
Dada una nueva muestra se le asigna un grupo según su distancia a los diferentes grupos descubiertos. Por ejemplo, identifica el grupo de consumidores similares a partir de sus interacciones con un sitio de compras.
Y el de detección de anomalías, identifica muestras anómalas (Out layers), muestras que no se corresponden con la de una determinada distribución normal o estándar, y se entrena utilizando una base de muestras que se sabe a ciencia cierta que corresponde a ejemplos estándares.
Lo que hace es caracterizar el espacio de muestras normales estudiando la distribución de las diferentes características y dado una nueva muestra muestra el modelo determina si es una anomalía estudiando y cae o no cerca de la distribución de muestras normales.
Todas las técnicas de machine learning son necesarias para optimizar la precisión de los modelos predictivos existentes. Dependerá de la naturaleza del problema empresarial a resolver, existen diferentes enfoques basados en el volumen y tipo de los datos.
Machine learning permite crear un valor potencial a las compañías que tratan de aprovechar el big data y les ayuda a entender mejor los cambios en el comportamiento, las preferencias o la satisfacción del cliente.
Quienes dirigen negocios están empezando a descubrir y entender que muchas cosas que suceden dentro de sus organizaciones e industrias no pueden ser entendidas a través de una consulta. No son las preguntas que conocemos; son los patrones ocultos y las anomalías enterradas en los datos que pueden ayudarnos o dañarnos.