Este website utiliza cookies propias y de terceros. Alguna de estas cookies sirven para realizar analíticas de visitas, otras para gestionar la publicidad y otras son necesarias para el correcto funcionamiento del sitio. Si continúa navegando o pulsa en aceptar, consideramos que acepta su uso. Puede obtener más información, o bien conocer cómo cambiar la configuración, en nuestra Política de cookies?
Versión Española Versión Mexicana Ibercampus English Version Version française Versione italiana

lunes, 18 de enero de 2021  
    en Ibercampus en  | Consejo Editorial | Quienes Somos | Ideario | Contacto | Tarifas Publicitarias | Suscribirse | RSS RSS
I+D+i
Capital humano
Economía
Cultura
Estrategias verdes
Salud
Sociedad
Deportes
Debates y firmas invitadas
Entrevistas
Educación
Becas & prácticas
Empleo y Formación
Iberoamérica
Tendencias
Empresas y RSC
Universidades
Convocatorias
Ranking Wanabis
Denuncias de los consumidores
Consumo
El Tiempo
EMPRESAS Y RSC Ampliar +  
El 83% de las multinacionales hispanas ven la RSC como negocio, con la filantropía en 2° plano
Competencia dice supervisar los cambios en la imagen de marca de los grandes grupos energéticos
Se acentúa el uso publicitario o reputacional de los ODS 2030 y de la RSC
ABENGOA
ABERTIS
ACCIONA
ACERINOX
ACNUR
ACS
ADECCO
AMADEUS
ARCELORMITTAL
ASIFIN
BANCO POPULAR
BANCO SABADELL
BANCO SANTANDER
BANKIA
BANKINTER
BBVA
BME
CAIXABANK
DIA
EBRO
ENAGAS
ENDESA
FCC
FERROVIAL
GAMESA
GAS NATURAL
GRIFOLS
IAG (IBERIA)
IBERDROLA
INDITEX
INDRA
JAZZTEL
MAPFRE
MEDIASET
OHL
REE
REPSOL
SACYR
SOLIDARIOS
TÉCNICAS REUNIDAS
TELEFÓNICA
VISCOFAN
UNIVERSIDADES Ampliar +  
Tres universidades concentran el 60 % de los fondos I+D en Cataluña y la UPF es la más competitiva
Cinco doctorandos de la UPF obtienen ayudas de Doctorado Industrial
Andalucía lidera en España la iniciativa ´European Universities´ con tres alianzas universitarias
 Universidades




















ENTREVISTAS Ampliar +  
Jeremy Rifkin: Sin infraestructuras para vivir de forma distinta,"vendrán más pandemias y desastres"
"En este siglo habrá humanos como hoy, otros construidos por ingeniería genética y los modificados"
´Autor de Así empieza todo: la guerra oculta del S.XXI´: "Biden no elimina los problemas de Europa"
EMPLEO Y FORMACIÓN Ampliar +  
Anulado un despido colectivo de causa económica a raíz de la COVID-19, lo que sienta jurisprudencia
El CES propone incentivar la contratación indefinida de los menores de 25 años con los fondos UE
Celaá, al iniciar la nueva Ley de FP:"España necesita al menos duplicar sus cualificaciones medias"
IBEROAMÉRICA Ampliar +  
XXVII Conferencia Iberoamericana de Ministros/as de Educación
CEPAL pide a los Estados garantizar el acceso a agua,electricidad y alimentos a los más vulnerables
Más de 130 años de cárcel al exmilitar Montano por la Matanza de Estado de jesuitas en El Salvador
TENDENCIAS Ampliar +  
7 tendencias que alteran el turismo de los españoles:el 91% de las familias ya tiene planes para2021
Las energéticas tradicionales pasarán de proveer energía a seguridad energética con el autoconsumo
Accidente del autobús sin conductor que estrenaba la UAM


EDUCACIÓN

Conceptos de inteligencia artificial: qué es el aprendizaje por refuerzo.


En la psicología conductista se hace un especial hincapié en describir las leyes generales que rigen nuestra conducta voluntaria.
Marcos Merino / Xataca 28 de febrero de 2019 Enviar a un amigo
Comparte esta noticia en LinkedInComparte esta noticia en FacebookComparte esta noticia en TwitterEnviar a MeneaméAñadir a del.icio.usAñadir a YahooRSS


 Noticias relacionadas
 Las autonomías peores en matemáticas pierden también en aprovechamiento y competencias digitales
 España fracasa con su LOMCE en el examen PISA 2018 en ciencias y matemáticas y China queda el 1º
 En España seguimos sin tener una Formación Profesional de Inteligencia Artificial
 Cómo prepararnos para la inminente expansión de la inteligencia artificial y la robótica avanzada

Uno de los conceptos que manejan para ello, según indica Marcos Merino en Xataca, es el de 'condicionamiento operante', al que definen como un proceso de aprendizaje por el cual una acción en particular es seguida por algo deseable (haciendo más probable que el sujeto repita la acción) o por algo no deseable (disuadiendo de realizarla).

Así, por ejemplo, estudiamos porque nos satisface sacar notas más altas, o jugamos a un videojuego porque nos satisface jugar. Y para satisfacer esos estímulos positivos (reforzamientos), estudiamos/jugamos más horas y recurrimos a procesos de prueba y error para evaluar nuevas estrategias de estudio/juego. Esto es, aprendemos gracias al condicionamiento operante.

Aplicando la psicología conductista a la máquina

Pues bien: el aprendizaje por refuerzo (o aprendizaje reforzado) se basa en aplicar exactamente este mismo principio a las inteligencias artificiales, con el fin de que puedan aprender por sí mismas. Y es que las IAs cuentan con dos ventajas de las que nosotros los humanos no disponemos: no se cansan ni se aburren, y realizan sus tareas extraordinariamente rápido.

Ambos factores les permiten sacar un gran rendimiento al proceso de prueba/error: pueden ganar y perder millones de partidas de un videojuego, tomando nota de qué decisiones les llevaron en cada caso a la victoria o a la derrota, privilegiando unas y descartando otras hasta que su estrategia sea absolutamente perfecta.


EN XATAKA
Deep Learning: qué es y por qué va a ser una tecnología clave en el futuro de la inteligencia artificial

Y donde decimos 'videojuego', podemos hablar igualmente de una amplia gama de tareas, siempre que la IA pueda recibir un feedback de lo acertado de sus decisiones.

Uno de los aspectos fundamentales del aprendizaje por refuerzo es que resuelve el difícil problema de correlacionar acciones inmediatas con sus consecuencias a largo plazo: como los humanos en la vida real, esta clase de algoritmos a veces tienen que operar en un entorno de retorno demorado, donde puede ser difícil entender qué acción conduce a qué resultado en muchos pasos de tiempo.

¿Qué necesitamos para formular un problema básico de aprendizaje de refuerzo?

Gráfico Aprendizaje reforzado

Necesitamos un agente (por ejemplo, Pacman) en un estado determinado (la ubicación) dentro de un medio ambiente (el laberinto). PacMan cuenta con una u otra recompensa (positiva: puntos por comer; negativa: morir si se cruza con un fantasma) en base a qué acción (desplazamiento a un nuevo estado) realice.

Pero más allá de la recompensa existe lo que llamamos recompensa acumulada esperada que consiste, como habrás averiguado, en ganar el juego. El aprendizaje por refuerzo se base, de este modo, en un bucle de estado / acción / recompensa.

Para dar forma a una política óptima, el agente se enfrenta al dilema de explorar nuevos estados (exploración) al tiempo que maximiza su recompensa acumulada esperada (explotación).



Si no ha quedado claro el ejemplo de Pacman, siempre podemos intentar llevarlo al mundo real: imaginemos que tenemos un macaco en casa (ejemplo real donde los haya) y que está aburrido en nuestro salón, con la televisión apagada y el mando de la TV sobre la mesa.

Hasta aquí tenemos un agente (el simio en cuestión), un ambiente (el salón) y un estado (la tele apagada). Por curiosidad o mero aburrimiento, el macaco puede empezar a toquetear botones del mando: la acción, que generará un nuevo estado.

Si este estado no le gusta (la TV permanece apagada, lo cual constituye una recompensa negativa) terminará optando por no tocar esos botones y pasar a otros (o a una secuencia concreta de los mismos) hasta que maximice su recompensa acumulada esperada (que la TV no sólo se encienda, sino que muestre algún documental sobre la vida en la selva).

Macaco viendo la TV

Cuando DeepMind popularizó el aprendizaje por refuerzo

Uno de los padres fundadores de la inteligencia artificial, Marvin Minsky, creó en 1951 una máquina que imitaba a una rata a la hora de aprender a navegar por un laberinto.

Su nombre era SNARC (Ordenador Estocástico de Refuerzo de Similitud Neural) y empleaba una forma simplificada de aprendizaje reforzado. La metodología prometía, pero durante los siguientes 65 años fue imposible escalarla a situaciones más complejas (y útiles).

En 2016, DeepMind presentó ante el mundo a AlphaGo, una IA que, tras ser entrenada durante varios meses en el análisis de miles de partidas jugadas por humanos fue capaz de batir a un campeón humano de Go, un juego complejo al que las máquinas nunca habían jugado bien recurriendo a la programación convencional, por la dificultad para incorporar la estrategia al código.

Pero, un año más tarde, DeepMind presentaba una nueva IA, AlphaGo Zero, que con menos de 3 días de entrenamiento fue capaz de ganar 100 veces seguidas a su predecesora. ¿Residía el secreto en una mayor potencia de procesamiento?


EN XATAKA
Qué recomiendan estudiar los expertos en inteligencia artificial para trabajar y vivir de ello

No, la clave reside en que AlphaGo Zero aprendió a jugar ella sola mediante aprendizaje por refuerzo, jugando millones de partidas contra sí misma, hasta que aprendió, como decíamos antes a maximizar su recompensa acumulada esperada.

La siguiente generación, AlphaZero, tuvo resultados aún más impresionantes. Y permite atisbar, por fin, la aplicación del aprendizaje por refuerzo a empresas de mayor calado para la humanidad.

Quiero saber más

Si esta introducción al concepto de aprendizaje por refuerzo no ha hecho sino abrir tu apetito de conocimiento y ahora quieres sumergirte en la materia (y descubrir los algoritmos Q-learning y SARSA, o los procesos de decisión de Markov, o...), te recomendamos (siempre que sepas inglés) acceder:

  • A los materiales online (PDFs y vídeos) del curso sobre aprendizaje por refuerzo del University College de Londres.
  • A la versión online del libro "Reinforcement Learning: An Introduction", de Andrew Barto (del Autonomous Learning Laboratory) y Richard S. Sutton (investigador de DeepMind); que incluye código de ejemplo y soluciones

Otros asuntos de Educación
Más asuntos de Educación
Las solicitudes al próximo sexenio de investigación 2021, convocadas del 11 hasta el 31 de enero
Innovador método de evaluación para personas adultas con dificultades de aprendizaje
La educación recibirá más de 7.000 millones de euros en el plan de recuperación español,casi un 10%
UNESCO teme que el gasto público global en educación se reduzca por el COVID un 8% y ayudas el 12%
Así se resume la Guía para expulsar el covid de las aulas
Taleb y Rifkin, en EnlightED 2020:"La crisis Covid nos hace más fuertes" y "permite reconstruirnos"
Los profesores, vistos por UNESCO como ´líderes en situaciones de crisis que reimaginan el futuro´
Aprobados el teletrabajo en empleos públicos, la contratación de 10.000 sanitarios y más docentes
Asociaciones de Periodistas reiteran con la FAPE a Celaá que les levante el veto a impartir Lengua
Educación y autonomías se dan otros 15 días para que todo niño confinado reciba clases a distancia
Iniciativa pionera en España para mejorar la educación científica en el aula a partir de evidencias
El CSIC plantea dudas sobre la conveniencia de que vuelvan al colegio l@s niñ@s de 10 a 16 años
AulaAbierta sale con críticas a la dificultad, asequibilidad y privacidad de las plataformas online
Crece entre profesores y sanitarios la petición de que sea enfermero todo coordinador COVID 19
Transformar el sistema educativo, necesario para una reconstrucción justa y sostenible, según Celaá
Vox pide los informes sobre el retirado proyecto de Ley de Libertad Sexual que se anunció ante el 8M
Gobierno y autonomías acuerdan 29 medidas y 5 recomendaciones para la vuelta al cole presencial
Madrid y Cataluña anuncian una vuelta al cole incierta con la nueva guía de Educación y autonomías
Es ya tiempo de preparar las escuelas para su reapertura, según las agencias de Naciones Unidas
Piden una enfermera escolar en todos los centros educativos cuando se vuelva a las aulas

Suscríbete gratis a nuestro boletín
LIBROS
Una palabra mágica. La primera estrella de la noche. Cuentos solitarios por la seguridad vial
Lanzan en España la tesis de que el trabajo está matando a la gente y a pocos les importa
Tres Cantos y la Universidad Popular, un siglo después de extenderse por España estas instituciones
"Estamos ante una encrucijada vital: una sociedad del descarte o del cuidado"
¡Jugad, jugad, malditos! La epidemia del juego en España: ludópatas y capos del azar
Extendida la salud en la ciudadanía democrática hasta lograr erradicar un virus: el de la viruela
TESIS Y TESINAS
La factura de agua de grandes ciudades será reducida por riegos inteligentes aunque suba en bolsa
La lucha contra la pandemia, menos eficaz por la polarización política y social
Un documento prueba que Junta de Andalucía desvía 11 millones del COVID para salvar Canal Sur
Equilibrio y control postural en la niñez autista, claves para mejorar su integración sensorial
China tiende a elevar su influencia al sur de Panamá y EEUU al norte, geográfica y funcionalmente
Banco de España urge reforzar educación y formación de habilidades con el Fondo de Reconstrucción
1 UPF se une a la red The Guild of European Research-Intensive Universities
2 OMS y ciencia coinciden: SARS de la Covid-19 terminará como un resfriado endémico, sin desaparecer
3 BBVA premia a los científicos que cambiaron el paradigma de actuación ante la crisis climática
4 Campus sostenible, saludable y digital, trípode de Oliva como rector de la UPO al tomar posesión
5 Tres universidades concentran el 60 % de los fondos I+D en Cataluña y la UPF es la más competitiva
6 Cinco doctorandos de la UPF obtienen ayudas de Doctorado Industrial
7 Contra los Deplorables
8 Lo que nos deparará el 2021 tras un retroceso económico de más de cinco años
9 Javier Laquidain, entre los mejores
10 Coronavirus, elegido neologismo del año 2020 por el IEC y la UPF
RANKING WANABIS Ampliar +  
"La evolución del e-learning: de "sólo ante el peligro" al aprendizaje interactivo"
"Los profesionales con formación online están mejor preparados para la economía global"
El big data, la robótica y el Mobile Learning, principales tendencias del e-learning
DEBATES Y FIRMAS Ampliar +  
La gobernanza mundial, ya en peligro (mucho antes del asalto al Capitolio de los EE.UU)
La reforma del PDI de Castells: hacia más diferencias salariales y discrecionalidad por autonomías
Falta un Goya que pinte esta pandemia
Aviso Legal | Política de Privacidad | Consejo Editorial | Quienes Somos | Ideario | Contacto | Tarifas Publicitarias | RSS RSS