Este website utiliza cookies propias y de terceros. Alguna de estas cookies sirven para realizar analíticas de visitas, otras para gestionar la publicidad y otras son necesarias para el correcto funcionamiento del sitio. Si continúa navegando o pulsa en aceptar, consideramos que acepta su uso. Puede obtener más información, o bien conocer cómo cambiar la configuración, en nuestra Política de cookies?
Versión Española Versión Mexicana Ibercampus English Version Version française Versione italiana

domingo, 7 de junio de 2020  
    en Ibercampus en  | Consejo Editorial | Quienes Somos | Ideario | Contacto | Tarifas Publicitarias | Suscribirse | RSS RSS
I+D+i
Capital humano
Economía
Cultura
Estrategias verdes
Salud
Sociedad
Deportes
Debates y firmas invitadas
Entrevistas
Educación
Becas & prácticas
Empleo y Formación
Iberoamérica
Tendencias
Empresas y RSC
Universidades
Convocatorias
Ranking Wanabis
Denuncias de los consumidores
Consumo
El Tiempo
EMPRESAS Y RSC Ampliar +  
Las empresas IBEX35 se resisten a informar de cómo cumplen en corrupción,impuestos yderechos ajenos
ICO opera con Atradius Crédito-Caución aunque le prohiben que sus avales pasen por paraíso fiscales
Una veintena de organizaciones urge libre acceso a la información administrativa
ABENGOA
ABERTIS
ACCIONA
ACERINOX
ACNUR
ACS
ADECCO
AMADEUS
ARCELORMITTAL
ASIFIN
BANCO POPULAR
BANCO SABADELL
BANCO SANTANDER
BANKIA
BANKINTER
BBVA
BME
CAIXABANK
DIA
EBRO
ENAGAS
ENDESA
FCC
FERROVIAL
GAMESA
GAS NATURAL
GRIFOLS
IAG (IBERIA)
IBERDROLA
INDITEX
INDRA
JAZZTEL
MAPFRE
MEDIASET
OHL
REE
REPSOL
SACYR
SOLIDARIOS
TÉCNICAS REUNIDAS
TELEFÓNICA
VISCOFAN
UNIVERSIDADES Ampliar +  
La Pablo de Olavide pasa a noviembre sus elecciones a Rector, para hacerlas en período lectivo
UPC revela el origen de dos fragmentos del meteorito de Barcelona, que cayó en 1704
Crue defiende el Sistema Universitario en la vertebración social de España para superar la crisis
 Universidades




















ENTREVISTAS Ampliar +  
"El COVID 19 es un evento quizá nunca ocurrido como ahora, y pone en peligro nuestra civilización"
"Tratamos de predecir cuál será la próxima enfermedad emergente para evitar otras más como COVID"
"En un año,aunque no haya vacuna,habrá infectado un 40% o 50% de la población y el virus frenará"
EMPLEO Y FORMACIÓN Ampliar +  
Trabajo y agentes sociales empiezan a desarrollar reglamentos de planes de igualdad retributiva
La afiliación a Seguridad Social se recuperó en mayo 187.814 personas y 450.000 salieron de ERTEs
Los ERTE salvan 3,3 millones de empleos y más de medio millón de empresas, según Trabajo
IBEROAMÉRICA Ampliar +  
Bajan los precios básicos menos el arroz, con 7 países iberoamericanos entre los 23 con más COVID
América Latina perderá un 7% de su PIB este año por el COVID, 2 meses atrasado, según Banco Mundial
Brasil supera a Portugal como segundo país iberoamericano con más víctimas por COVID tras España
TENDENCIAS Ampliar +  
El voto latino en las elecciones de EEUU 2020 llegará al 13,3%
La tasación de viviendas pasa de física a digital y solo Madrid y Barcelona superan mínimos de 2012
El siglo de Asia empieza este 2020 de Juegos en Japón con temores existenciales y de salud mental


EDUCACIÓN

Conceptos de inteligencia artificial: qué es el aprendizaje por refuerzo.


En la psicología conductista se hace un especial hincapié en describir las leyes generales que rigen nuestra conducta voluntaria.
Marcos Merino / Xataca 28 de febrero de 2019 Enviar a un amigo
Comparte esta noticia en LinkedInComparte esta noticia en FacebookComparte esta noticia en TwitterEnviar a MeneaméAñadir a del.icio.usAñadir a YahooRSS


 Noticias relacionadas
 Las autonomías peores en matemáticas pierden también en aprovechamiento y competencias digitales
 España fracasa con su LOMCE en el examen PISA 2018 en ciencias y matemáticas y China queda el 1º
 En España seguimos sin tener una Formación Profesional de Inteligencia Artificial
 Cómo prepararnos para la inminente expansión de la inteligencia artificial y la robótica avanzada

Uno de los conceptos que manejan para ello, según indica Marcos Merino en Xataca, es el de 'condicionamiento operante', al que definen como un proceso de aprendizaje por el cual una acción en particular es seguida por algo deseable (haciendo más probable que el sujeto repita la acción) o por algo no deseable (disuadiendo de realizarla).

Así, por ejemplo, estudiamos porque nos satisface sacar notas más altas, o jugamos a un videojuego porque nos satisface jugar. Y para satisfacer esos estímulos positivos (reforzamientos), estudiamos/jugamos más horas y recurrimos a procesos de prueba y error para evaluar nuevas estrategias de estudio/juego. Esto es, aprendemos gracias al condicionamiento operante.

Aplicando la psicología conductista a la máquina

Pues bien: el aprendizaje por refuerzo (o aprendizaje reforzado) se basa en aplicar exactamente este mismo principio a las inteligencias artificiales, con el fin de que puedan aprender por sí mismas. Y es que las IAs cuentan con dos ventajas de las que nosotros los humanos no disponemos: no se cansan ni se aburren, y realizan sus tareas extraordinariamente rápido.

Ambos factores les permiten sacar un gran rendimiento al proceso de prueba/error: pueden ganar y perder millones de partidas de un videojuego, tomando nota de qué decisiones les llevaron en cada caso a la victoria o a la derrota, privilegiando unas y descartando otras hasta que su estrategia sea absolutamente perfecta.


EN XATAKA
Deep Learning: qué es y por qué va a ser una tecnología clave en el futuro de la inteligencia artificial

Y donde decimos 'videojuego', podemos hablar igualmente de una amplia gama de tareas, siempre que la IA pueda recibir un feedback de lo acertado de sus decisiones.

Uno de los aspectos fundamentales del aprendizaje por refuerzo es que resuelve el difícil problema de correlacionar acciones inmediatas con sus consecuencias a largo plazo: como los humanos en la vida real, esta clase de algoritmos a veces tienen que operar en un entorno de retorno demorado, donde puede ser difícil entender qué acción conduce a qué resultado en muchos pasos de tiempo.

¿Qué necesitamos para formular un problema básico de aprendizaje de refuerzo?

Gráfico Aprendizaje reforzado

Necesitamos un agente (por ejemplo, Pacman) en un estado determinado (la ubicación) dentro de un medio ambiente (el laberinto). PacMan cuenta con una u otra recompensa (positiva: puntos por comer; negativa: morir si se cruza con un fantasma) en base a qué acción (desplazamiento a un nuevo estado) realice.

Pero más allá de la recompensa existe lo que llamamos recompensa acumulada esperada que consiste, como habrás averiguado, en ganar el juego. El aprendizaje por refuerzo se base, de este modo, en un bucle de estado / acción / recompensa.

Para dar forma a una política óptima, el agente se enfrenta al dilema de explorar nuevos estados (exploración) al tiempo que maximiza su recompensa acumulada esperada (explotación).



Si no ha quedado claro el ejemplo de Pacman, siempre podemos intentar llevarlo al mundo real: imaginemos que tenemos un macaco en casa (ejemplo real donde los haya) y que está aburrido en nuestro salón, con la televisión apagada y el mando de la TV sobre la mesa.

Hasta aquí tenemos un agente (el simio en cuestión), un ambiente (el salón) y un estado (la tele apagada). Por curiosidad o mero aburrimiento, el macaco puede empezar a toquetear botones del mando: la acción, que generará un nuevo estado.

Si este estado no le gusta (la TV permanece apagada, lo cual constituye una recompensa negativa) terminará optando por no tocar esos botones y pasar a otros (o a una secuencia concreta de los mismos) hasta que maximice su recompensa acumulada esperada (que la TV no sólo se encienda, sino que muestre algún documental sobre la vida en la selva).

Macaco viendo la TV

Cuando DeepMind popularizó el aprendizaje por refuerzo

Uno de los padres fundadores de la inteligencia artificial, Marvin Minsky, creó en 1951 una máquina que imitaba a una rata a la hora de aprender a navegar por un laberinto.

Su nombre era SNARC (Ordenador Estocástico de Refuerzo de Similitud Neural) y empleaba una forma simplificada de aprendizaje reforzado. La metodología prometía, pero durante los siguientes 65 años fue imposible escalarla a situaciones más complejas (y útiles).

En 2016, DeepMind presentó ante el mundo a AlphaGo, una IA que, tras ser entrenada durante varios meses en el análisis de miles de partidas jugadas por humanos fue capaz de batir a un campeón humano de Go, un juego complejo al que las máquinas nunca habían jugado bien recurriendo a la programación convencional, por la dificultad para incorporar la estrategia al código.

Pero, un año más tarde, DeepMind presentaba una nueva IA, AlphaGo Zero, que con menos de 3 días de entrenamiento fue capaz de ganar 100 veces seguidas a su predecesora. ¿Residía el secreto en una mayor potencia de procesamiento?


EN XATAKA
Qué recomiendan estudiar los expertos en inteligencia artificial para trabajar y vivir de ello

No, la clave reside en que AlphaGo Zero aprendió a jugar ella sola mediante aprendizaje por refuerzo, jugando millones de partidas contra sí misma, hasta que aprendió, como decíamos antes a maximizar su recompensa acumulada esperada.

La siguiente generación, AlphaZero, tuvo resultados aún más impresionantes. Y permite atisbar, por fin, la aplicación del aprendizaje por refuerzo a empresas de mayor calado para la humanidad.

Quiero saber más

Si esta introducción al concepto de aprendizaje por refuerzo no ha hecho sino abrir tu apetito de conocimiento y ahora quieres sumergirte en la materia (y descubrir los algoritmos Q-learning y SARSA, o los procesos de decisión de Markov, o...), te recomendamos (siempre que sepas inglés) acceder:

  • A los materiales online (PDFs y vídeos) del curso sobre aprendizaje por refuerzo del University College de Londres.
  • A la versión online del libro "Reinforcement Learning: An Introduction", de Andrew Barto (del Autonomous Learning Laboratory) y Richard S. Sutton (investigador de DeepMind); que incluye código de ejemplo y soluciones

Otros asuntos de Educación
Más asuntos de Educación
El portal ´Aprendo en casa´ de RTVE y MInisterio de Educación, modelos de tele-educación en COVID
No habrá vuelta al cole este curso de 0 a 6 años,pero Educación y autonomías hablan ya del próximo
Los centros educativos de media España podrán reabrir este lunes, aunque solo para tareas internas
707.405 estudiantes españoles reciben atenciones especiales, según estadísticas sobre la polémica
Hambre entre 370 de los 1.500 millones de escolares afectados por cierres de escuelas, según UNICEF
Repensar la educación tras el COVID 19, idea de dos profesores de la URJC asumida por la UNESCO
UNESCO nos invita este miércoles a valorar la crisis de la pandemia en la realidad de las niñas
Naciones Unidas lanza ante el COVID programas educativos Earth School,este Día Mundial de la Tierra
Incertidumbre y desamparo por la crisis global entre 165.000 estudiantes Erasmus en el extranjero
Aprobado casi-general para los "pandemials": volverán a clase, pero repetir curso será excepcional
UNESCO aconseja radio y televisión a millones de estudiantes latinoamericanos sin clase ni internet
Educación,Telefónica, IBM y Cisco reparten 20.000 móviles entre 5 millones de alumnos y profesores
En dos semanas los estudiantes sin clase pasan de 20% a 87%: UNESCO y docentes ven falta de medios
Tod@s acabarán curso tras cambiar calendario de FP y pruebas de acceso a la Universidad(EBAU)
Educación y FP y RTVE lanzan ´Aprendemos en casa´ para suplir clases presenciales y a distancia
Cerradas las aulas al 73% de los estudiantes, sin apenas programas gratuitos a distancia en español
La Selectividad se aplaza por el coronavirus a la espera de una fecha definitiva
La suspensión de clases se extiende a Catalunya, todo País Vasco, La Rioja, Galicia y Canarias
Con 1/5 de alumnos ya sin clase en todo el mundo, la UNESCO moviliza a los ministros de educación
El Gobierno centra sus proyectos educativo y de libertad sexual en reducir conciertos privados

Suscríbete gratis a nuestro boletín
LIBROS
Comunicación para juristas
La Renta Básica
Mi heroína eres tú. ¿Cómo pueden los niños luchar contra la COVID-19?
"Contagio" y "La Peste", pandemias de ficción, se convierten en virales y en causas de aprendizaje
Las administraciones españolas
"Jesucristo ¿Quien fue?",obra del exsacerdote y ufólogo Freixedo tras morir a los 96 este octubre
TESIS Y TESINAS
Banco de España urge reforzar educación y formación de habilidades con el Fondo de Reconstrucción
Gana fuerza la idea de que los anticuerpos del COVID no garantizan inmunidad ante la reinfección
En confinamiento, la desigualdad se magnifica
España, segundo país de la UE donde más creció la desigualdad de rentas durante la crisis
Alta evidencia del poder de las élites empresariales en la política de Chile y otros 7 países de AL
La inteligencia artificial supera barreras para el reconocimiento automático de lenguas de signos
1 Asi será desde julio la Renta Minima Vital (RMV) de España, ultimo país europeo en adaptarla
2 Nadie se va del todo
3 En las crisis de interdependencia que trae el COVID, sostener y enmendar,vacunas también necesarias
4 El factor humano es la clave del éxito
5 Que se sueñen inmortales
6 Hacia un pacto social europeo post COVID con más y mejor Green Deal
7 Un 68% profesionales ni intentan acceder a las líneas financieras para el COVID
8 El Gobierno elimina la nota mínima y casi duplica becas (hasta 625.514) para el curso 2020-2021
9 ADICAE pide mayor control de las tarjetas revolving y evitar el sobreendeudamiento del consumidor
10 La afiliación a Seguridad Social se recuperó en mayo 187.814 personas y 450.000 salieron de ERTEs
RANKING WANABIS Ampliar +  
"La evolución del e-learning: de "sólo ante el peligro" al aprendizaje interactivo"
"Los profesionales con formación online están mejor preparados para la economía global"
El big data, la robótica y el Mobile Learning, principales tendencias del e-learning
DEBATES Y FIRMAS Ampliar +  
La Naturaleza, nuestra mejor vacuna
Vaciar los centros de educación especial (para integrar a sus alumnos en colegios),misión imposible
Un curso académico malherido este de 2019-2020
Aviso Legal | Política de Privacidad | Consejo Editorial | Quienes Somos | Ideario | Contacto | Tarifas Publicitarias | RSS RSS