Las técnicas de Machine Learning han estado con nosotros desde hace mucho tiempo. De hecho, es muy poco lo que se ha hecho o avanzado en lo fundamental desde los años 60. La gente puede tener la impresión de que esto es algo nuevo, producto del desarrollo tecnológico. Sin embargo, el desarrollo tecnológico solo ha servido para hacerlo barato y a a gran escala. Las técnicas fundamentales han estado con nosotros desde los años 40, alcanzado su clímax en los 60´s. Pero, por supuesto, no todos tenían acceso a un mainframe AS400 para practicar. La aparición de procesadores más poderosos, a precios por debajo de los USD 1.000, y el desarrollo de los lenguajes R y Python, fue lo que llevó el Machine Learning al "mainstream", y permitió el desarrollo del Business Analytics.
Las técnicas de Machine Learning han sido las mismas desde hace 70 años: Clustering (Aglomeración), Clasificación y Regresión. Estas tres técnicas son las fundamentales. Ellas representan solo el principio de todo el mundo del ML. Sin embargo, ellas pueden entregar valor casi de inmediato a cualquier negocio o empresa que aprenda a usarlos.
El Clustering, o aglomeración en español, es una de las herramientas más poderosas del marketing moderno. Ha sido fundamental para el crecimiento del e-commerce y su impacto ha sido gigantesco en el mercadeo político. Recordemos que el clustering fue la técnica usada por la controvertida consultora Cambridge Analytics en la cuestionada elección de Donald Trump como presidente de los Estados Unidos. Clustering es una técnica que se usa para encontrar grupos naturales en un dataset, basados en similitudes de comportamiento y demografía. Ha sido de gran ayuda para el marketing porque va mucho más allá de la segmentación clásica de "Edad, Sexo, Lugar de Residencia". De hecho el clustering funciona mejor con más de 6 variables (de 8 a 25) lo que permite descubrir patrones y relaciones escondidas en los datos, que no son evidentes usando técnicas de segmentación tradicionales.
Hay muchos algoritmos para hacer clustering, pero el más usado es el K-means o sus múltiples derivados: K-means calcula la distancia euclidiana de cada variable del dataset a dos o más centroides, tratando de minimizar esta distancia. Si las variables del data set son atributos, el resultado es dos o más grupos (clusters), cuyos miembros son muy parecidos entre sí, pero bastante diferentes con respecto a los demás grupos.
La premisa básica del clustering es que si los miembros son bastante parecidos entre si, es posible que respondan de forma similar a mensajes específicos o promociones personalizadas: si un miembro del cluster compra determinado producto o acepta una oferta determinada, es muy probable que todos los miembros del cluster hagan lo mismo. Mientras, lo opuesto también se da: es bastante probable que los miembros de otros cluster no reaccionen igual. Esto permite generar grandes ahorros en la promoción, publicidad, mercadeo y ventas de productos y servicios. O, en el caso del mercadeo político, llevar el mensaje correcto al grupo de votantes correcto.
Finalmente, dado que el resultado depende del propio algoritmo, y no de condiciones previas que hemos incorporado, a esta técnica se le considera "aprendizaje no supervisado". El aprendizaje mas bien es "hacia atrás": somos nosotros quienes debemos analizar los clusters a posteriori, entender cuales son sus características distintivas, para, finalmente, encontrar la estrategia adecuada para cada uno.
En muchos casos prácticos de negocio, lo que se necesita es responder rápidamente a la entrada de un nuevo cliente. Es el caso típico del cliente de banco que pide una hipoteca. ¿Cuál es la probabilidad de que el cliente pague su hipoteca si es un cliente nuevo? Afortunadamente, existen varios algoritmos que permiten predecir con cierta precisión el comportamiento de un nuevo cliente basado en sus características. Lo que se hace en realidad es comparar este cliente con varios otros segmentos de clientes, cuyo comportamiento y probabilidad de pago ya conocemos, y determinar a cual segmento pertenece. Esto nos permite rápidamente "clasificar" al cliente nuevo dentro de alguno de los grupos ya conocidos, para tomar una rápida decisión de negocios. Esto proceso se puede realizar de forma automática, con el algoritmo de Machine Learning adecuado, con lo que podemos administrar grandes cantidades de clientes (carteras completas) de forma sencilla y rápida.
Hay varios algoritmos de clasificación, pero todos son bastante similares: primero se divide los datos históricos en dos grupos, uno de entrenamiento y otro de prueba. Luego, se entrena al algoritmo con el primer grupo. El algoritmo realiza varias iteraciones sobre los datos para tratar de encontrar reglas que puedan explicar el resultado. Una vez aprendidas estas reglas, se comprueban las mismas alimentando al algoritmo con los datos del segundo grupo (del cual conocemos los resultados) y le pedimos que use las reglas para predecir el resultado. Comparando el resultado del algoritmo con el real, podemos verificar la precisión del algoritmo. Si el resultado es aceptable, podemos generalizar entonces al algoritmo para tratar datos desconocidos (clientes nuevos) y predecir su comportamiento.
El caso de la regresión es muy parecido al caso anterior, pero en vez de obtener una clasificación lo que buscamos es que nos predigan un número, por ejemplo el valor del tiempo de vida del cliente (customer´s lifetime value), o el valor que nos puede generar un cliente en el largo plazo. El valor de esta predicción es muy importante si queremos, por ejemplo, compararlo con el costo de adquisición del cliente, o si es negocio ofrecerle un descuento o promoción para retenerlo, o sencillamente si vale la pena o no conservarlo como cliente.
El proceso para la regresión es similar, como ya se dijo, al de la clasificación: se divida la data histórica en dos grupos, y se usa uno para enseñar al algoritmo y el otro para comprobar la predicción. Como el resultado del algoritmo es la predicción de un valor, siempre hay que acompañarlo de un intervalo de confianza, o del rango estimado más probable.
Estas técnicas son las más básicas de todo el espectro del Machine Learning, y sin embargo, en sí mismas pueden generar un altísimo valor dentro de la organización si se usan adecuadamente. de hecho, como ya se dijo, el clustering ha cambiado por completo el marketing tradicional y hoy en día es fundamental en cualquier campaña de marketing político. Las técnicas de clasificación se usan desde hace años en telecomunicaciones y banca para detectar fraudes, y cada vez más en banca y seguros para el otorgamiento de préstamos y pólizas de seguros. Los fondos de inversión de Wall Street ahora tienen más ingenieros versados en Machine Learning que analistas de finanzas, usando algoritmos de regresión para predecir el valor de un portafolio de inversiones a largo plazo. Como se puede observar, las técnicas de Machine Learning han transformado nuestro mundo sin darnos cuenta, y es por ello que es fundamental conocerlas y aprender a usarlas en nuestro negocio.