revive.conf¶

base_config¶

global_seed¶

全局随机数种子。用于从超参空间中迭代超参集合，神经网络初始化等，固定全局随机数种子可以保证运行结果的可复现性。

参数名: global_seed
参数类型: int
缩写: gs
默认值: 42

val_split_ratio¶

从数据中划分验证集比例。当未指定验证集时有效，REVIVE SDK会自动根据当前参数从训练集数据中划分指定比例的数据作为验证集。

参数名: val_split_ratio
参数类型: float
缩写: vsr
默认值: 0.5

val_split_mode¶

验证集的数据划分模式。当未指定验证集时，REVIVE SDK会自动根据当前参数从训练集数据中划分指定比例的数据作为验证集。划分模式分为inside_traj（轨迹内划分: 将每条轨迹按val_split_ratio分别划分为训练集轨迹和验证轨迹）和outside_traj（轨迹外划分：将所有轨迹按照val_split_ratio划分为训练集轨迹和验证轨迹）两种。

参数名: val_split_mode
参数类型: str
缩写: vsm
默认值: outside_traj

ignore_check¶

忽略数据检查的警告。SDK在运行之前会对函数进行计算验证，比较函数计算输出和数据文件中对应的数据之间的误差，当误差小于1e-4时，认为误差是在可接受的精度之内，当误差大于1e-4时，会进行警告，提示检查数据或函数是否存在问题。如果确认没有问题，可以通过配置ignore_check=True跳过警告。

参数名: ignore_check
参数类型: bool
缩写: igc
默认值: False

venv_rollout_horizon¶

训练虚拟环境模型时采样子轨迹的长度。在进行虚拟环境训练时，由于原始数据轨迹较长且存在轨迹不等长的现象，实际训练时会对原始轨迹进行子轨迹采样，使用采样后的子轨迹进行训练。

参数名: 训练虚拟环境模型时采样子轨迹的长度。在进行虚拟环境训练时，由于原始数据轨迹较长且存在轨迹不等长的现象，实际训练时会对原始轨迹进行子轨迹采样，使用采样后的子轨迹进行训练。
参数类型: int
缩写: vrh
默认值: 100

venv_gpus_per_worker¶

训练环境时每个trail所分配的gpu数量，当参数是1时，为每个trail分配1个完整的Gpu，当参数为0.3时，为每个trail分配0.3个gpu，则1个gpu上可以运行3个trail。

参数名: venv_gpus_per_worker
参数类型: float
缩写: vgpw
默认值: 1.0

venv_metric¶

选择用于保存虚拟环境模型的度量指标，支持使用nll, mae, mse, wdist四种指标。指标具体说明请参考每个指标的参数配置。

参数名: venv_metric
参数类型: str
默认值: mae

venv_algo¶

选择使用哪一种算法进行环境模型训练，当前支持bc和revive_p两种算法。

参数名: venv_algo
参数类型: str
默认值: revive_p

rollout_plt_frequency¶

定义训练环境时生成Rollout图像的频率。默认是50个Epoch，配置为0时不生成图像。

参数名: rollout_plt_frequency
参数类型: int
缩写: rpf
默认值: 50

rollout_dataset_mode¶

选择训练环境时在训练集还是验证集上生成Rollout图像。可配置train或validate。

参数名: rollout_dataset_mode
参数类型: str
默认值: validate

policy_gpus_per_worker¶

训练策略时每个trail所分配的gpu数量，当参数是1时，为每个trail分配1个完整的Gpu，当参数为0.3时，为每个trail分配0.3个gpu，则1个gpu上可以运行3个trail。

参数名: policy_gpus_per_worker
参数类型: float
缩写: pgpw
默认值: 1.0

behavioral_policy_init¶

是否使用环境模型中学习到的策略模型参数作为策略模型的初始化参数。

参数名: behavioral_policy_init
参数类型: bool
缩写: bpi
默认值: True

policy_algo¶

选择使用哪一种算法进行策略模型训练，当前支持ppo和sac 两种算法。

参数名: policy_algo
参数类型: str
默认值: ppo

test_horizon¶

训练策略时评估策略回报时rollout的轨迹长度。

参数名: test_horizon
参数类型: int
缩写: th
默认值: 100

train_venv_trials¶

进行环境模型训练时要搜索的参数组数量。

参数名: train_venv_trials
参数类型: int
缩写: tvt
默认值: 25

train_policy_trials¶

进行策略模型训练时要搜索的参数组数量。

参数名: train_policy_trials
参数类型: int
缩写: tpt
默认值: 10

venv_algo_config¶

revive_p¶

revive_batch_size¶

revive_p算法训练环境时加载数据的Batch Size。

参数名: revive_batch_size
参数类型: int
缩写: mbs
默认值: 1024

revive_epoch¶

revive_p算法训练环境时的epoch数量。

参数名: revive_epoch
参数类型: int
缩写: mep
默认值: 5000

fintune¶

revive_p算法训练环境时，每个Epoch是否使用监督学习方法进行fintune。

参数名: fintune
参数类型: int
缩写: bet
默认值: 1

finetune_fre¶

revive_p算法训练环境时，每多少个Epoch使用监督学习方法进行一次fintune。

参数名: finetune_fre
参数类型: int
缩写: betfre
默认值: 1

policy_hidden_features¶

revive_p算法训练环境时，初始化普通节点（非转移节点）的网络宽度。

参数名: policy_hidden_features
参数类型: int
缩写: phf
默认值: 256

policy_hidden_layers¶

revive_p算法训练环境时，初始化普通节点（非转移节点）的网络深度。

参数名: policy_hidden_layers
参数类型: int
缩写: phl
默认值: 4

policy_backbone¶

revive_p算法训练环境时，普通节点（非转移节点）的Backbone类型。

参数名: policy_backbone
参数类型: str
缩写: pb
默认值: res

transition_hidden_features¶

revive_p算法训练环境时，初始化转移网络节点的网络宽度。

参数名: transition_hidden_features
参数类型: int
缩写: thf
默认值: 256

transition_hidden_layers¶

revive_p算法训练环境时，初始化转移网络节点的网络深度。

参数名: transition_hidden_layers
参数类型: int
缩写: thl
默认值: 4

transition_backbone¶

revive_p算法训练环境时，转移节点的Backbone类型。

参数名: transition_backbone
参数类型: str
缩写: tb
默认值: res

matcher_hidden_features¶

revive_p算法训练环境时，matcher网络节点的网络宽度。

参数名: matcher_hidden_features
参数类型: int
缩写: dhf
默认值: 256

matcher_hidden_layers¶

revive_p算法训练环境时，matcher网络节点的网络深度。

参数名: matcher_hidden_layers
参数类型: int
缩写: dhl
默认值: 4

g_steps¶

revive_p算法训练环境时，每个Epoch中生成器更新的轮数。

参数名: g_steps
参数类型: int
搜参模式: grid
搜参范围: 1, 3, 5
默认值: 1

d_steps¶

revive_p算法训练环境时，每个Epoch中matcher更新的轮数。

参数名: d_steps
参数类型: int
搜参模式: grid
搜参范围: 1, 3, 5
默认值: 1

g_lr¶

revive_p算法训练环境时，生成器网络参数优化器的初始学习率。

参数名: g_lr
参数类型: float
搜参模式: continuous
搜参范围: 1e-06, 0.0001
默认值: 4e-05

d_lr¶

revive_p算法训练环境时，matcher网络参数优化器的初始学习率。

参数名: d_lr
参数类型: float
搜参模式: continuous
搜参范围: 1e-06, 0.001
默认值: 0.0006

bc¶

bc_batch_size¶

BC算法训练虚拟环境时的Batch Size。

参数名: bc_batch_size
参数类型: int
缩写: bbs
默认值: 256

bc_epoch¶

BC算法训练训练虚拟环境的epoch数量。

参数名: bc_epoch
参数类型: int
缩写: bep
默认值: 500

policy_hidden_features¶

BC算法训练训练虚拟环境时初始化网络节点的网络宽度。

参数名: policy_hidden_features
参数类型: int
缩写: phf
默认值: 256

policy_hidden_layers¶

BC算法训练训练虚拟环境时初始化网络节点的网络深度。

参数名: policy_hidden_layers
参数类型: int
搜参模式: grid
搜参范围: 3, 4, 5
缩写: phl
默认值: 4

policy_backbone¶

BC算法训练训练虚拟环境时初始化网络节点的Backbone类型。

参数名: policy_backbone
参数类型: str
搜参模式: grid
搜参范围: mlp, res
缩写: pb
默认值: res

g_lr¶

BC算法训练训练虚拟环境时的初始学习率。

参数名: g_lr
参数类型: float
搜参模式: continuous
搜参范围: 1e-06, 0.001
默认值: 0.0001

loss_type¶

BC算法训练训练虚拟环境时的损失函数(“log_prob”, “mae”, “mse”).

参数名: loss_type
参数类型: str
默认值: log_prob

policy_algo_config¶

ppo¶

ppo_batch_size¶

ppo算法训练策略时的bacth size。

参数名: ppo_batch_size
参数类型: int
缩写: pbs
默认值: 256

ppo_epoch¶

ppo算法训练策略时的epoch数量

参数名: ppo_epoch
参数类型: int
缩写: bep
默认值: 200

ppo_rollout_horizon¶

ppo算法训练策略时进行rollout轨迹的长度

参数名: ppo_rollout_horizon
参数类型: int
缩写: prh
默认值: 100

policy_hidden_features¶

ppo算法训练策略时，初始化策略网络节点的网络宽度。

参数名: policy_hidden_features
参数类型: int
缩写: phf
默认值: 256

policy_hidden_layers¶

ppo算法训练策略时，初始化策略网络节点的网络深度。

参数名: policy_hidden_layers
参数类型: int
缩写: phl
默认值: 4

policy_backbone¶

ppo算法训练策略时，初始化策略网络节点的网络Backbone 类型。

参数名: policy_backbone
参数类型: str
缩写: pb
默认值: mlp

g_lr¶

ppo算法训练策略时的初始学习率。

参数名: g_lr
参数类型: float
搜参模式: continuous
搜参范围: 1e-06, 0.001
默认值: 4e-05