快速开始

REVIVE SDK支持多种模式的模型训练,你只需要关注自己的业务本身,结合业务知识构建符合REVIVE SDK需要的任务数据,并提交训练任务, REVIVE SDK就可以自动训练出最优的虚拟环境模型和策略模型,从而实现业务模拟和优化。

使用REVIVE SDK需要结合任务和数据特征来准备 决策流图训练数据奖励函数。REVIVE SDK将现实任务场景的业务逻辑数字化,通过构建决策流图来描述业务数据之间的关系。 基于该决策流图和对应的业务数据,REVIVE SDK可以训练虚拟环境模型,这个虚拟模型完全遵照了决策流图所定义的业务数据之间的逻辑。 奖励函数文件则定义了决策的奖励值计算方式,REVIVE SDK利用强化学习算法优化奖励值以获得最优策略。

决策流图、训练数据、奖励函数构成了一个完整的训练任务输入,在后续的教程和任务示例中,我们将详细解释准备数据的流程。

下面展示如何根据REVIVE SDK提供的示例数据快速进行虚拟环境模型训练和策略训练:

训练命令:

# 使用默认参数来训练虚拟环境模型和策略
python train.py -df test.npz -cf test.yaml -rf test_reward.py -vm once -pm once --run_id test

# 使用超参搜索模式来训练虚拟环境模型和策略。
python train.py -df test.npz -cf test.yaml -rf test_reward.py -vm tune -pm tune --run_id test

# 使用自定义的参数文件(config.json)来训练虚拟环境模型和策略
python train.py -df test.npz -cf test.yaml -rf test_reward.py -rcf config.json --run_id test

示例数据:https://agit.ai/Polixir/revive/src/branch/master/data

在训练过程中,REVIVE SDK会自动创建日志文件夹 logs/<run_id> 来记录训练日志和保存模型结果。 训练完成后,结果将保存以 env.pklpolicy.pkl 的形式存储在训练日志文件夹当中。