revive.conf

base_config

global_seed

全局随机数种子。用于从超参空间中迭代超参集合,神经网络初始化等,固定全局随机数种子可以保证运行结果的可复现性。

参数名

global_seed

参数类型

int

缩写

gs

默认值

42

val_split_ratio

从数据中划分验证集比例。当未指定验证集时有效,REVIVE SDK会自动根据当前参数从训练集数据中划分指定比例的数据作为验证集。

参数名

val_split_ratio

参数类型

float

缩写

vsr

默认值

0.5

val_split_mode

验证集的数据划分模式。当未指定验证集时,REVIVE SDK会自动根据当前参数从训练集数据中划分指定比例的数据作为验证集。划分模式分为inside_traj(轨迹内划分: 将每条轨迹按val_split_ratio分别划分为训练集轨迹和验证轨迹)和outside_traj(轨迹外划分:将所有轨迹按照val_split_ratio划分为训练集轨迹和验证轨迹)两种。

参数名

val_split_mode

参数类型

str

缩写

vsm

默认值

outside_traj

ignore_check

忽略数据检查的警告。SDK在运行之前会对函数进行计算验证,比较函数计算输出和数据文件中对应的数据之间的误差,当误差小于1e-4时,认为误差是在可接受的精度之内,当误差大于1e-4时,会进行警告,提示检查数据或函数是否存在问题。如果确认没有问题,可以通过配置ignore_check=True跳过警告。

参数名

ignore_check

参数类型

bool

缩写

igc

默认值

False

venv_rollout_horizon

训练虚拟环境模型时采样子轨迹的长度。在进行虚拟环境训练时,由于原始数据轨迹较长且存在轨迹不等长的现象,实际训练时会对原始轨迹进行子轨迹采样,使用采样后的子轨迹进行训练。

参数名

训练虚拟环境模型时采样子轨迹的长度。在进行虚拟环境训练时,由于原始数据轨迹较长且存在轨迹不等长的现象,实际训练时会对原始轨迹进行子轨迹采样,使用采样后的子轨迹进行训练。

参数类型

int

缩写

vrh

默认值

100

venv_gpus_per_worker

训练环境时每个trail所分配的gpu数量,当参数是1时,为每个trail分配1个完整的Gpu,当参数为0.3时,为每个trail分配0.3个gpu,则1个gpu上可以运行3个trail。

参数名

venv_gpus_per_worker

参数类型

float

缩写

vgpw

默认值

1.0

venv_metric

选择用于保存虚拟环境模型的度量指标,支持使用nll, mae, mse, wdist四种指标。指标具体说明请参考每个指标的参数配置。

参数名

venv_metric

参数类型

str

默认值

mae

venv_algo

选择使用哪一种算法进行环境模型训练,当前支持bc和revive_p两种算法。

参数名

venv_algo

参数类型

str

默认值

revive_p

rollout_plt_frequency

定义训练环境时生成Rollout图像的频率。默认是50个Epoch,配置为0时不生成图像。

参数名

rollout_plt_frequency

参数类型

int

缩写

rpf

默认值

50

rollout_dataset_mode

选择训练环境时在训练集还是验证集上生成Rollout图像。可配置train或validate。

参数名

rollout_dataset_mode

参数类型

str

默认值

validate

policy_gpus_per_worker

训练策略时每个trail所分配的gpu数量,当参数是1时,为每个trail分配1个完整的Gpu,当参数为0.3时,为每个trail分配0.3个gpu,则1个gpu上可以运行3个trail。

参数名

policy_gpus_per_worker

参数类型

float

缩写

pgpw

默认值

1.0

behavioral_policy_init

是否使用环境模型中学习到的策略模型参数作为策略模型的初始化参数。

参数名

behavioral_policy_init

参数类型

bool

缩写

bpi

默认值

True

policy_algo

选择使用哪一种算法进行策略模型训练,当前支持ppo和sac 两种算法。

参数名

policy_algo

参数类型

str

默认值

ppo

test_horizon

训练策略时评估策略回报时rollout的轨迹长度。

参数名

test_horizon

参数类型

int

缩写

th

默认值

100

train_venv_trials

进行环境模型训练时要搜索的参数组数量。

参数名

train_venv_trials

参数类型

int

缩写

tvt

默认值

25

train_policy_trials

进行策略模型训练时要搜索的参数组数量。

参数名

train_policy_trials

参数类型

int

缩写

tpt

默认值

10

venv_algo_config

revive_p

revive_batch_size

revive_p算法训练环境时加载数据的Batch Size。

参数名

revive_batch_size

参数类型

int

缩写

mbs

默认值

1024

revive_epoch

revive_p算法训练环境时的epoch数量。

参数名

revive_epoch

参数类型

int

缩写

mep

默认值

5000

fintune

revive_p算法训练环境时,每个Epoch是否使用监督学习方法进行fintune。

参数名

fintune

参数类型

int

缩写

bet

默认值

1

finetune_fre

revive_p算法训练环境时,每多少个Epoch使用监督学习方法进行一次fintune。

参数名

finetune_fre

参数类型

int

缩写

betfre

默认值

1

policy_hidden_features

revive_p算法训练环境时,初始化普通节点(非转移节点)的网络宽度。

参数名

policy_hidden_features

参数类型

int

缩写

phf

默认值

256

policy_hidden_layers

revive_p算法训练环境时,初始化普通节点(非转移节点)的网络深度。

参数名

policy_hidden_layers

参数类型

int

缩写

phl

默认值

4

policy_backbone

revive_p算法训练环境时,普通节点(非转移节点)的Backbone类型。

参数名

policy_backbone

参数类型

str

缩写

pb

默认值

res

transition_hidden_features

revive_p算法训练环境时,初始化转移网络节点的网络宽度。

参数名

transition_hidden_features

参数类型

int

缩写

thf

默认值

256

transition_hidden_layers

revive_p算法训练环境时,初始化转移网络节点的网络深度。

参数名

transition_hidden_layers

参数类型

int

缩写

thl

默认值

4

transition_backbone

revive_p算法训练环境时,转移节点的Backbone类型。

参数名

transition_backbone

参数类型

str

缩写

tb

默认值

res

matcher_hidden_features

revive_p算法训练环境时,matcher网络节点的网络宽度。

参数名

matcher_hidden_features

参数类型

int

缩写

dhf

默认值

256

matcher_hidden_layers

revive_p算法训练环境时,matcher网络节点的网络深度。

参数名

matcher_hidden_layers

参数类型

int

缩写

dhl

默认值

4

g_steps

revive_p算法训练环境时,每个Epoch中生成器更新的轮数。

参数名

g_steps

参数类型

int

搜参模式

grid

搜参范围

1, 3, 5

默认值

1

d_steps

revive_p算法训练环境时,每个Epoch中matcher更新的轮数。

参数名

d_steps

参数类型

int

搜参模式

grid

搜参范围

1, 3, 5

默认值

1

g_lr

revive_p算法训练环境时,生成器网络参数优化器的初始学习率。

参数名

g_lr

参数类型

float

搜参模式

continuous

搜参范围

1e-06, 0.0001

默认值

4e-05

d_lr

revive_p算法训练环境时,matcher网络参数优化器的初始学习率。

参数名

d_lr

参数类型

float

搜参模式

continuous

搜参范围

1e-06, 0.001

默认值

0.0006

bc

bc_batch_size

BC算法训练虚拟环境时的Batch Size。

参数名

bc_batch_size

参数类型

int

缩写

bbs

默认值

256

bc_epoch

BC算法训练训练虚拟环境的epoch数量。

参数名

bc_epoch

参数类型

int

缩写

bep

默认值

500

policy_hidden_features

BC算法训练训练虚拟环境时初始化网络节点的网络宽度。

参数名

policy_hidden_features

参数类型

int

缩写

phf

默认值

256

policy_hidden_layers

BC算法训练训练虚拟环境时初始化网络节点的网络深度。

参数名

policy_hidden_layers

参数类型

int

搜参模式

grid

搜参范围

3, 4, 5

缩写

phl

默认值

4

policy_backbone

BC算法训练训练虚拟环境时初始化网络节点的Backbone类型。

参数名

policy_backbone

参数类型

str

搜参模式

grid

搜参范围

mlp, res

缩写

pb

默认值

res

g_lr

BC算法训练训练虚拟环境时的初始学习率。

参数名

g_lr

参数类型

float

搜参模式

continuous

搜参范围

1e-06, 0.001

默认值

0.0001

loss_type

BC算法训练训练虚拟环境时的损失函数(“log_prob”, “mae”, “mse”).

参数名

loss_type

参数类型

str

默认值

log_prob

policy_algo_config

ppo

ppo_batch_size

ppo算法训练策略时的bacth size。

参数名

ppo_batch_size

参数类型

int

缩写

pbs

默认值

256

ppo_epoch

ppo算法训练策略时的epoch数量

参数名

ppo_epoch

参数类型

int

缩写

bep

默认值

200

ppo_rollout_horizon

ppo算法训练策略时进行rollout轨迹的长度

参数名

ppo_rollout_horizon

参数类型

int

缩写

prh

默认值

100

policy_hidden_features

ppo算法训练策略时,初始化策略网络节点的网络宽度。

参数名

policy_hidden_features

参数类型

int

缩写

phf

默认值

256

policy_hidden_layers

ppo算法训练策略时,初始化策略网络节点的网络深度。

参数名

policy_hidden_layers

参数类型

int

缩写

phl

默认值

4

policy_backbone

ppo算法训练策略时,初始化策略网络节点的网络Backbone 类型。

参数名

policy_backbone

参数类型

str

缩写

pb

默认值

mlp

g_lr

ppo算法训练策略时的初始学习率。

参数名

g_lr

参数类型

float

搜参模式

continuous

搜参范围

1e-06, 0.001

默认值

4e-05