lunes,29 noviembre 2021
Espacio euroiberoamericano de diálogo sobre la innovación social, profesional y académica
InicioOpiniónAlgoritmos de predicción automática
IA/BD/ML

Algoritmos de predicción automática

Futurolandia
Para todos aquellos interesados en la predicción en general y, particularmente, en la predicción económica y empresarial. La revolución de la Inteligencia Artificial (IA), Grandes Bases de Datos (BD) y Aprendizaje Automático (Machine Learning, ML) y sus algoritmos plantea nuevas herramientas y enfoques ¿Cómo quedan las tradicionales técnicas de predicción?

Antes de entrar en materia, unos avisos previos que afectan a este y otros campos de de la profunda innovación en que nos movemos:

  • La ignorancia se puede esconder detrás de términos técnicos que se convierten en lugares comunes.
  • La confusión es inevitable en tiempos de rápido cambio, tanto más cuando confluyen distintos avances tecnológicos de una complejidad y especialización acusada.
  • Es probable encontrar visiones parciales, sesgadas por intereses profesionales y de comercialización de servicios.
  • A pesar de todas las dificultades, hay que tratar de explotar las potencialidades de las nuevas tecnologías, aunque siempre valorando limitaciones, impactos y relación coste/eficacia respecto a otras alternativas.

Pero las preguntas son muchas ante los nuevos retos y todos necesitamos tener algunas ideas básicas claras, aunque no seamos especialistas en los campos del saber que confluyen ¿Quién puede renunciar a zambullirse en las revueltas aguas de ese inmenso mar de IA, BD y ML? En particular para todos aquellos relacionados con la economía y/o la gestión de empresas: ¿Podemos renunciar a estar al día de las nuevas oportunidades que abre esta compleja revolución tecnológica? ¿Qué nuevos horizontes plantea a la predicción económica y empresarial?

Hace pocos meses (5/6/18) dediqué un post previo a estas cuestiones (https://www.antoniopulido.es/prediccion-automatica-inteligente/)  cuyos principales mensajes podría resumir en los siguientes puntos:

  1. Se consolida un campo interdisciplinar de  ciencia de los datos(data science)en que confluyen métodos, procesos y sistemas para extraer conocimiento de los datos disponibles (numéricos, cualitativos, imágenes, textos…)
  2. El automatismo de los algoritmos de Machine Learning tiene indudables ventajas en su utilización en los campos más diversos, al deducir estructuras de funcionamiento de los propios datos, sin necesidad de un "modelo" conceptual previo. Aunque no se disponga de un conocimiento sobre los condicionantes del fenómeno analizado, se puede predecir. La validación y análisis de resultados se añade al final del proceso.
  3. Por tanto, una predicción en que los datos mandan (grandes bases y elevada capacidad de tratamiento digital), permite funcionar incluso con una caja negra que facilita resultados (predicciones) aunque puedan desconocerse sus factores explicativos (las relaciones causales). A efectos de especialización del predictor, prima su formación en ciencia de los datos a la del campo de aplicación.
  4. Los que trabajamos en predicción económica y empresarial (igual puede ocurrir en otros campos) somos conscientes de la importancia de un conocimiento a priori sobre las interrelaciones claves que explican el comportamiento de las variables que se trata de predecir. Los datos sirven para confirmar o rechazar la selección previa de variables explicativas (sobre todo a medio y largo plazo) y, al final del proceso, para disponer de una estructura de comportamiento deducida del pasado pero aplicable al futuro.
  5. Sin embargo, también debemos ser conscientes de que la creciente complejidad de los comportamientos económicos hace que las estructuras de pasado cambien a futuro. Bienvenida sea toda técnica que aporte mayor flexibilidad en la interpretación de los mecanismos económicos y ayude a detectar los cambios de estructura y permita su rápido reajuste con la incorporación de nuevos datos.

Un artículo reciente (S. Mullainatham y J.Spiess, Machine Learning: An Applied Econometric Approach,Journal of Economic Perspectives, v.31/n.2 2017) me ayuda a añadir tres nuevos matices:

  1.  Los algoritmos de ML van más allá de aplicar técnicas estadísticas a bases de datos nuevas y más     amplias; proporcionan nuevas herramientas y resuelven diferentes problemas por su habilidad para descubrir estructuras complejas que no se han especificado previamente. Una alternativa para algunos casos es "en lugar de establecer reglas previas, dejar a los datos que nos informen de qué reglas funcionan mejor"
  2. Aunque entre los algoritmos ML de predicción se incluye la regresión (base estadística de los modelos econométricos), la peculiaridad es que la atención se centra más en el resultado (muchas veces cualitativo) que en la estimación de los parámetros que marcan la importancia relativa de unas variables explicativas seleccionadas a priori.
  3. ML se centra en el uso no sólo de grandes bases de datos, sino también en datos de diferente naturaleza y no habitualmente utilizados (p.ej. imágenes, uso de móviles o redes sociales, textos on-line…) que pueden resultar especialmente útiles para cubrir carencias de información más precisa (proxys) o predicciones de carácter cualitativo, como clasificaciones o establecimiento de conglomerados (clustering).

La lista de algoritmos ML disponibles es muy amplia y en continua evolución. Solamente citaré algunas de las más mencionadas. En particular he utilizado ( y mis seguidores interesados pueden encontrar referencias adicionales sobre contenido) trabajos de divulgación accesibles en Twitter como Top prediction algoritms de Dataiku; Machine Learning Algorithms for Business Applications de Techemergence;  8 Machine Learning Algorithms explained in human lenguaje de Datakeen.

La importancia relativa de las técnicas recogidas es muy dispar. Van desde un campo entero  que puede considerarse incluso con vida propia más allá de ML (como las redes neuronales), hasta simples  variantes de criterios a utilizar en la aplicación practica (como LASSO):

  1. Regresión lineal
  2. Regresión logística
  3. Arbol de decisión
  4. Bosque aleatorio (Random Forest)
  5. Gradiente estocástico (Gradient Boosting)
  6. Redes neuronales
  7. Clasificador bayesiano
  8. Vector de soporte (Support Vector Machines)
  9. Vecinos k-cercanos (K-nearest Neighbors)
  10. Algoritmos genéticos
  11. LASSO (Least Absolute Shrinkage and Selection Operator)

Por último, citaré algunos referentes (pistas iniciales) para aquellos que busquen aplicaciones ya disponibles en software para usuarios o servicios compartidos ( sin necesidad de entrar en paquetes especializados, habitualmente en lenguajes R o Python):

  • Google Cloud Platform, con tres niveles: Cloud AI, Cloud AutoML y Machine Learning Engine
  • Microsoft Azure Machine Service
  • SAS Software. The Machine Learning Primer
  • IBM Analytics en sus variantes: Watson Analytics, SPSS Modeler y SPSS Statistic
  • MAtLAB Machine Learning

Antonio Pulido http://www.twitter.com/@PsrA

 

De interés

Artículos Relacionados