pi network更新 【TD3思路及代码】【自用笔记】
2024年10月25日 | Pi Network
1 组成( ) Actor网络:这个网络负责根据当前的状态输出动作值。在训练过程中,Actor网络会不断地学习和优化,以输出更合适的动作。网络:TD3中有两个网络,也称为Twin 。这两个网络的主要功能是评估Q值(的...
2024年10月25日 | Pi Network
1 组成( ) Actor网络:这个网络负责根据当前的状态输出动作值。在训练过程中,Actor网络会不断地学习和优化,以输出更合适的动作。网络:TD3中有两个网络,也称为Twin 。这两个网络的主要功能是评估Q值(的...