浏览:强化学习

新智元报道【新智元导读】 清华大学团队在强化学习领域取得重大突破,开发出DSAC及DSAC-T系列算法,有效解决强化学习中的过估计问题,提升学习效果稳定性;团队还提出DACER算法,将扩散模型与在线强…

这是大模型年终分享系列的第一篇,我们近期将陆续推出其他领域的项目合集,如视频生成、智能体(agent) 等。希望对大家有所帮助,也请大家多多批评指正。图像生成,作为由人工智能(AI)大模型驱动的 AI…