revive.conf¶
base_config¶
global_seed¶
全局随机数种子。用于从超参空间中迭代超参集合,神经网络初始化等,固定全局随机数种子可以保证运行结果的可复现性。
- 参数名
global_seed
- 参数类型
int
- 缩写
gs
- 默认值
42
val_split_ratio¶
从数据中划分验证集比例。当未指定验证集时有效,REVIVE SDK会自动根据当前参数从训练集数据中划分指定比例的数据作为验证集。
- 参数名
val_split_ratio
- 参数类型
float
- 缩写
vsr
- 默认值
0.5
val_split_mode¶
验证集的数据划分模式。当未指定验证集时,REVIVE SDK会自动根据当前参数从训练集数据中划分指定比例的数据作为验证集。划分模式分为inside_traj(轨迹内划分: 将每条轨迹按val_split_ratio分别划分为训练集轨迹和验证轨迹)和outside_traj(轨迹外划分:将所有轨迹按照val_split_ratio划分为训练集轨迹和验证轨迹)两种。
- 参数名
val_split_mode
- 参数类型
str
- 缩写
vsm
- 默认值
outside_traj
ignore_check¶
忽略数据检查的警告。SDK在运行之前会对函数进行计算验证,比较函数计算输出和数据文件中对应的数据之间的误差,当误差小于1e-4时,认为误差是在可接受的精度之内,当误差大于1e-4时,会进行警告,提示检查数据或函数是否存在问题。如果确认没有问题,可以通过配置ignore_check=True跳过警告。
- 参数名
ignore_check
- 参数类型
bool
- 缩写
igc
- 默认值
False
venv_rollout_horizon¶
训练虚拟环境模型时采样子轨迹的长度。在进行虚拟环境训练时,由于原始数据轨迹较长且存在轨迹不等长的现象,实际训练时会对原始轨迹进行子轨迹采样,使用采样后的子轨迹进行训练。
- 参数名
训练虚拟环境模型时采样子轨迹的长度。在进行虚拟环境训练时,由于原始数据轨迹较长且存在轨迹不等长的现象,实际训练时会对原始轨迹进行子轨迹采样,使用采样后的子轨迹进行训练。
- 参数类型
int
- 缩写
vrh
- 默认值
100
venv_gpus_per_worker¶
训练环境时每个trail所分配的gpu数量,当参数是1时,为每个trail分配1个完整的Gpu,当参数为0.3时,为每个trail分配0.3个gpu,则1个gpu上可以运行3个trail。
- 参数名
venv_gpus_per_worker
- 参数类型
float
- 缩写
vgpw
- 默认值
1.0
venv_metric¶
选择用于保存虚拟环境模型的度量指标,支持使用nll, mae, mse, wdist四种指标。指标具体说明请参考每个指标的参数配置。
- 参数名
venv_metric
- 参数类型
str
- 默认值
mae
venv_algo¶
选择使用哪一种算法进行环境模型训练,当前支持bc和revive_p两种算法。
- 参数名
venv_algo
- 参数类型
str
- 默认值
revive_p
rollout_plt_frequency¶
定义训练环境时生成Rollout图像的频率。默认是50个Epoch,配置为0时不生成图像。
- 参数名
rollout_plt_frequency
- 参数类型
int
- 缩写
rpf
- 默认值
50
rollout_dataset_mode¶
选择训练环境时在训练集还是验证集上生成Rollout图像。可配置train或validate。
- 参数名
rollout_dataset_mode
- 参数类型
str
- 默认值
validate
policy_gpus_per_worker¶
训练策略时每个trail所分配的gpu数量,当参数是1时,为每个trail分配1个完整的Gpu,当参数为0.3时,为每个trail分配0.3个gpu,则1个gpu上可以运行3个trail。
- 参数名
policy_gpus_per_worker
- 参数类型
float
- 缩写
pgpw
- 默认值
1.0
behavioral_policy_init¶
是否使用环境模型中学习到的策略模型参数作为策略模型的初始化参数。
- 参数名
behavioral_policy_init
- 参数类型
bool
- 缩写
bpi
- 默认值
True
policy_algo¶
选择使用哪一种算法进行策略模型训练,当前支持ppo和sac 两种算法。
- 参数名
policy_algo
- 参数类型
str
- 默认值
ppo
test_horizon¶
训练策略时评估策略回报时rollout的轨迹长度。
- 参数名
test_horizon
- 参数类型
int
- 缩写
th
- 默认值
100
train_venv_trials¶
进行环境模型训练时要搜索的参数组数量。
- 参数名
train_venv_trials
- 参数类型
int
- 缩写
tvt
- 默认值
25
train_policy_trials¶
进行策略模型训练时要搜索的参数组数量。
- 参数名
train_policy_trials
- 参数类型
int
- 缩写
tpt
- 默认值
10
venv_algo_config¶
revive_p¶
revive_batch_size¶
revive_p算法训练环境时加载数据的Batch Size。
- 参数名
revive_batch_size
- 参数类型
int
- 缩写
mbs
- 默认值
1024
revive_epoch¶
revive_p算法训练环境时的epoch数量。
- 参数名
revive_epoch
- 参数类型
int
- 缩写
mep
- 默认值
5000
fintune¶
revive_p算法训练环境时,每个Epoch是否使用监督学习方法进行fintune。
- 参数名
fintune
- 参数类型
int
- 缩写
bet
- 默认值
1
finetune_fre¶
revive_p算法训练环境时,每多少个Epoch使用监督学习方法进行一次fintune。
- 参数名
finetune_fre
- 参数类型
int
- 缩写
betfre
- 默认值
1
policy_backbone¶
revive_p算法训练环境时,普通节点(非转移节点)的Backbone类型。
- 参数名
policy_backbone
- 参数类型
str
- 缩写
pb
- 默认值
res
transition_backbone¶
revive_p算法训练环境时,转移节点的Backbone类型。
- 参数名
transition_backbone
- 参数类型
str
- 缩写
tb
- 默认值
res
g_steps¶
revive_p算法训练环境时,每个Epoch中生成器更新的轮数。
- 参数名
g_steps
- 参数类型
int
- 搜参模式
grid
- 搜参范围
1
,3
,5
- 默认值
1
d_steps¶
revive_p算法训练环境时,每个Epoch中matcher更新的轮数。
- 参数名
d_steps
- 参数类型
int
- 搜参模式
grid
- 搜参范围
1
,3
,5
- 默认值
1
g_lr¶
revive_p算法训练环境时,生成器网络参数优化器的初始学习率。
- 参数名
g_lr
- 参数类型
float
- 搜参模式
continuous
- 搜参范围
1e-06
,0.0001
- 默认值
4e-05
d_lr¶
revive_p算法训练环境时,matcher网络参数优化器的初始学习率。
- 参数名
d_lr
- 参数类型
float
- 搜参模式
continuous
- 搜参范围
1e-06
,0.001
- 默认值
0.0006
bc¶
bc_batch_size¶
BC算法训练虚拟环境时的Batch Size。
- 参数名
bc_batch_size
- 参数类型
int
- 缩写
bbs
- 默认值
256
bc_epoch¶
BC算法训练训练虚拟环境的epoch数量。
- 参数名
bc_epoch
- 参数类型
int
- 缩写
bep
- 默认值
500
policy_hidden_features¶
BC算法训练训练虚拟环境时初始化网络节点的网络宽度。
- 参数名
policy_hidden_features
- 参数类型
int
- 缩写
phf
- 默认值
256
policy_hidden_layers¶
BC算法训练训练虚拟环境时初始化网络节点的网络深度。
- 参数名
policy_hidden_layers
- 参数类型
int
- 搜参模式
grid
- 搜参范围
3
,4
,5
- 缩写
phl
- 默认值
4
policy_backbone¶
BC算法训练训练虚拟环境时初始化网络节点的Backbone类型。
- 参数名
policy_backbone
- 参数类型
str
- 搜参模式
grid
- 搜参范围
mlp
,res
- 缩写
pb
- 默认值
res
g_lr¶
BC算法训练训练虚拟环境时的初始学习率。
- 参数名
g_lr
- 参数类型
float
- 搜参模式
continuous
- 搜参范围
1e-06
,0.001
- 默认值
0.0001
loss_type¶
BC算法训练训练虚拟环境时的损失函数(“log_prob”, “mae”, “mse”).
- 参数名
loss_type
- 参数类型
str
- 默认值
log_prob
policy_algo_config¶
ppo¶
ppo_batch_size¶
ppo算法训练策略时的bacth size。
- 参数名
ppo_batch_size
- 参数类型
int
- 缩写
pbs
- 默认值
256
ppo_epoch¶
ppo算法训练策略时的epoch数量
- 参数名
ppo_epoch
- 参数类型
int
- 缩写
bep
- 默认值
200
ppo_rollout_horizon¶
ppo算法训练策略时进行rollout轨迹的长度
- 参数名
ppo_rollout_horizon
- 参数类型
int
- 缩写
prh
- 默认值
100
policy_hidden_features¶
ppo算法训练策略时,初始化策略网络节点的网络宽度。
- 参数名
policy_hidden_features
- 参数类型
int
- 缩写
phf
- 默认值
256
policy_hidden_layers¶
ppo算法训练策略时,初始化策略网络节点的网络深度。
- 参数名
policy_hidden_layers
- 参数类型
int
- 缩写
phl
- 默认值
4
policy_backbone¶
ppo算法训练策略时,初始化策略网络节点的网络Backbone 类型。
- 参数名
policy_backbone
- 参数类型
str
- 缩写
pb
- 默认值
mlp
g_lr¶
ppo算法训练策略时的初始学习率。
- 参数名
g_lr
- 参数类型
float
- 搜参模式
continuous
- 搜参范围
1e-06
,0.001
- 默认值
4e-05