Algoritmos de predicción automática

Antes de entrar en materia, unos avisos previos que afectan a este y otros campos de de la profunda innovación en que nos movemos:

La ignorancia se puede esconder detrás de términos técnicos que se convierten en lugares comunes.
La confusión es inevitable en tiempos de rápido cambio, tanto más cuando confluyen distintos avances tecnológicos de una complejidad y especialización acusada.
Es probable encontrar visiones parciales, sesgadas por intereses profesionales y de comercialización de servicios.
A pesar de todas las dificultades, hay que tratar de explotar las potencialidades de las nuevas tecnologías, aunque siempre valorando limitaciones, impactos y relación coste/eficacia respecto a otras alternativas.

Pero las preguntas son muchas ante los nuevos retos y todos necesitamos tener algunas ideas básicas claras, aunque no seamos especialistas en los campos del saber que confluyen ¿Quién puede renunciar a zambullirse en las revueltas aguas de ese inmenso mar de IA, BD y ML? En particular para todos aquellos relacionados con la economía y/o la gestión de empresas: ¿Podemos renunciar a estar al día de las nuevas oportunidades que abre esta compleja revolución tecnológica? ¿Qué nuevos horizontes plantea a la predicción económica y empresarial?

Hace pocos meses (5/6/18) dediqué un post previo a estas cuestiones (https://www.antoniopulido.es/prediccion-automatica-inteligente/) cuyos principales mensajes podría resumir en los siguientes puntos:

Se consolida un campo interdisciplinar de ciencia de los datos(data science)en que confluyen métodos, procesos y sistemas para extraer conocimiento de los datos disponibles (numéricos, cualitativos, imágenes, textos…)
El automatismo de los algoritmos de Machine Learning tiene indudables ventajas en su utilización en los campos más diversos, al deducir estructuras de funcionamiento de los propios datos, sin necesidad de un "modelo" conceptual previo. Aunque no se disponga de un conocimiento sobre los condicionantes del fenómeno analizado, se puede predecir. La validación y análisis de resultados se añade al final del proceso.
Por tanto, una predicción en que los datos mandan (grandes bases y elevada capacidad de tratamiento digital), permite funcionar incluso con una caja negra que facilita resultados (predicciones) aunque puedan desconocerse sus factores explicativos (las relaciones causales). A efectos de especialización del predictor, prima su formación en ciencia de los datos a la del campo de aplicación.
Los que trabajamos en predicción económica y empresarial (igual puede ocurrir en otros campos) somos conscientes de la importancia de un conocimiento a priori sobre las interrelaciones claves que explican el comportamiento de las variables que se trata de predecir. Los datos sirven para confirmar o rechazar la selección previa de variables explicativas (sobre todo a medio y largo plazo) y, al final del proceso, para disponer de una estructura de comportamiento deducida del pasado pero aplicable al futuro.
Sin embargo, también debemos ser conscientes de que la creciente complejidad de los comportamientos económicos hace que las estructuras de pasado cambien a futuro. Bienvenida sea toda técnica que aporte mayor flexibilidad en la interpretación de los mecanismos económicos y ayude a detectar los cambios de estructura y permita su rápido reajuste con la incorporación de nuevos datos.

Un artículo reciente (S. Mullainatham y J.Spiess, Machine Learning: An Applied Econometric Approach,Journal of Economic Perspectives, v.31/n.2 2017) me ayuda a añadir tres nuevos matices:

Los algoritmos de ML van más allá de aplicar técnicas estadísticas a bases de datos nuevas y más amplias; proporcionan nuevas herramientas y resuelven diferentes problemas por su habilidad para descubrir estructuras complejas que no se han especificado previamente. Una alternativa para algunos casos es "en lugar de establecer reglas previas, dejar a los datos que nos informen de qué reglas funcionan mejor"
Aunque entre los algoritmos ML de predicción se incluye la regresión (base estadística de los modelos econométricos), la peculiaridad es que la atención se centra más en el resultado (muchas veces cualitativo) que en la estimación de los parámetros que marcan la importancia relativa de unas variables explicativas seleccionadas a priori.
ML se centra en el uso no sólo de grandes bases de datos, sino también en datos de diferente naturaleza y no habitualmente utilizados (p.ej. imágenes, uso de móviles o redes sociales, textos on-line…) que pueden resultar especialmente útiles para cubrir carencias de información más precisa (proxys) o predicciones de carácter cualitativo, como clasificaciones o establecimiento de conglomerados (clustering).

La lista de algoritmos ML disponibles es muy amplia y en continua evolución. Solamente citaré algunas de las más mencionadas. En particular he utilizado ( y mis seguidores interesados pueden encontrar referencias adicionales sobre contenido) trabajos de divulgación accesibles en Twitter como Top prediction algoritms de Dataiku; Machine Learning Algorithms for Business Applications de Techemergence; 8 Machine Learning Algorithms explained in human lenguaje de Datakeen.

La importancia relativa de las técnicas recogidas es muy dispar. Van desde un campo entero que puede considerarse incluso con vida propia más allá de ML (como las redes neuronales), hasta simples variantes de criterios a utilizar en la aplicación practica (como LASSO):

Regresión lineal
Regresión logística
Arbol de decisión
Bosque aleatorio (Random Forest)
Gradiente estocástico (Gradient Boosting)
Redes neuronales
Clasificador bayesiano
Vector de soporte (Support Vector Machines)
Vecinos k-cercanos (K-nearest Neighbors)
Algoritmos genéticos
LASSO (Least Absolute Shrinkage and Selection Operator)

Por último, citaré algunos referentes (pistas iniciales) para aquellos que busquen aplicaciones ya disponibles en software para usuarios o servicios compartidos ( sin necesidad de entrar en paquetes especializados, habitualmente en lenguajes R o Python):

Google Cloud Platform, con tres niveles: Cloud AI, Cloud AutoML y Machine Learning Engine
Microsoft Azure Machine Service
SAS Software. The Machine Learning Primer
IBM Analytics en sus variantes: Watson Analytics, SPSS Modeler y SPSS Statistic
MAtLAB Machine Learning

Antonio Pulido http://www.twitter.com/@PsrA

Intensidad exportadora y propiedad intelectual promueven innovaciones verdes aunque la exportación no tiene efecto directo sobre mejora de la salud, seguridad y medio...

La comunicación institucional universitaria mejora el impacto y la visibilidad de los trabajos científicos y fomenta la innovación

Más ayudas y cooperación regional para ejecutar los 8 planes complementarios de I÷D en áreas estratégicas

La Comisión Europea inyecta 14,4 millones de euros de financiación mediante Erasmus+ a la alianza de universidades Unite! para su despliegue

Una prueba de madurez como novedad en la nueva EBAU (Evaluación del Bachillerato para el Acceso a la Universidad)

Transportes (Mitma) prueba a transportar en Renfe 600 toneladas de maíz desde Ucrania hasta España

168 empresas turísticas solicitan ayudas para digitalizarse a Industria, Comercio y Turismo

El sector turístico aporta la mitad del empleo creado entre abril y junio, casi 400.000 ocupados más

A partir del 16 de octubre, los agricultores y ganaderos recibirán hasta 3.386 millones de euros en pagos anticipados de la PAC

El Consejo de Veterinarios (CGCVE) urge al Ministerio de Agricultura un último esfuerzo para evitar que la peste porcina africana llegue a España

Fumar supone un 45% de mayor riesgo de Covid grave, confirman miles de fumadores en 107 hospitales de EE UU

Más de 230 millones de euros para la transformación digital de la Atención Primaria del Sistema Nacional de Salud (SNS)

El 024, de prevención del suicidio, atendió más de 34.000 llamadas en los cuatro primeros meses de servicio

Los hogares españoles redujeron el desperdicio de alimentos a 28,21 kilos por persona durante 2021

Campaña «Querernos Vivas. Querernos Libres» del Ministerio de Igualdad para prevenir la violencia sexual

Suspensión temporal del servicio en los 10 dominios de Ibercampus

Sanidad Pública de la Zona Norte de Madrid. El Paciente Moribundo

Formar al profesorado en Pedagogía del decrecimiento

La FP dual en el sistema educativo tras la Ley Orgánica 3/2022: Necesidad de un banco de empresas fiables

Sobre la necesidad de incrementar la edad obligatoria de jubilación en los funcionarios

Espacio euroiberoamericano de diálogo sobre la innovación social, profesional y académica

Algoritmos de predicción automática

De interés

Fumar supone un 45% de mayor riesgo de Covid grave, confirman miles de fumadores en 107 hospitales de EE UU

Más de 230 millones de euros para la transformación digital de la Atención Primaria del Sistema Nacional de Salud (SNS)

El 024, de prevención del suicidio, atendió más de 34.000 llamadas en los cuatro primeros meses de servicio

Manifiesto #EcoSocialTech: Tecnologías, sí, pero libres y con propósito socioambiental

El PERTE «En español: nueva economía de la lengua» seguirá los pasos de la Real Academia para desarrollar la IA con ayuda de las...

La recomendación sobre ética de la inteligencia artificial de los 193 países de UNESCO pone los planes de estudios a su servicio

Artículos Relacionados

Un español de 65 años precisa hasta su muerte 70.000 euros en cuidados

Los chistes, fruto de una tesis doctoral en la Universidad de Granada

Carta abierta a los reyes de Davos

Las mejores escuelas de negocios online 2014, una a una

Un catedrático advierte del aumento de anorexia y bulimia en niños varones

Textos publicados

Categoria / Número Artículos