# Apresentação
What is RLHF?
"A aprendizagem por reforço a partir de feedback humano (RLHF) é uma técnica de aprendizado de máquina na qual um “modelo de recompensa” é treinado com feedback humano direto e depois usado para otimizar o desempenho de um agente de inteligência artificial por meio de aprendizagem por reforço.
O RLHF, também chamado de _aprendizagem por reforço a partir das preferências humanas,_ é especialmente adequado para tarefas com objetivos complexos, mal definidos ou difíceis de especificar. Por exemplo, seria impraticável (ou mesmo impossível) para uma solução algorítmica definir “engraçado” em termos matemáticos – mas seria fácil para os humanos avaliarem as piadas geradas por um grande modelo de linguagem (LLM). Esse feedback humano, destilado em uma função de recompensa, poderia então ser usado para melhorar as habilidades de redação de piadas do LLM."
What is RLHF?
Dave Bergmann
IBM
[Link](https://www.ibm.com/topics/rlhf)
# Referências Importantes
What is reinforcement learning from human feedback (RLHF)?
IBM
[Link](https://www.ibm.com/topics/rlhf)
# Trilha
[[ChatGPT]]
[[Aprendizado de Máquina por Reforço]]