• 2024-12-22强化学习SQL算法(soft q leanring)中的squash_correction是否存疑?
    SQL算法的官方实现地址:https://openi.pcl.ac.cn/devilmaycry812839668/softlearning提两个问题:SQL算法的原始论文中在计算Qlossfunction的时候建议使用重要性采样,而实际代码中却使用的是均匀采样,同时也没有采样重要性采样的方法进行修正,而原始论文中在这一步的推导公式
  • 2024-12-18强化学习:softlearning 算法的官方实现 —— 源码阅读list(完成)
    softlearning原始项目:https://github.com/rail-berkeley/softlearning国内地址:https://openi.pcl.ac.cn/devilmaycry812839668/softlearning相关:强化学习:人形机器人——soft-q-leanring的官方实现的配置环境原始项目的运行环境已经打包成docker镜像,分布地址:https://g