快速开始¶
REVIVE SDK支持多种模式的模型训练,你只需要关注自己的业务本身,结合业务知识构建符合REVIVE SDK需要的任务数据,并提交训练任务, REVIVE SDK就可以自动训练出最优的虚拟环境模型和策略模型,从而实现业务模拟和优化。
使用REVIVE SDK需要结合任务和数据特征来准备 决策流图, 训练数据 和 奖励函数。REVIVE SDK将现实任务场景的业务逻辑数字化,通过构建决策流图来描述业务数据之间的关系。 基于该决策流图和对应的业务数据,REVIVE SDK可以训练虚拟环境模型,这个虚拟模型完全遵照了决策流图所定义的业务数据之间的逻辑。 奖励函数文件则定义了决策的奖励值计算方式,REVIVE SDK利用强化学习算法最大化奖励函数以获得最优策略。
决策流图、训练数据、奖励函数构成了一个完整的训练任务输入,在后续的教程和任务示例中,我们将详细解释准备数据的流程。
下面展示如何根据REVIVE SDK提供的示例数据快速进行虚拟环境模型训练和策略训练:
训练命令:
# 使用默认参数来训练虚拟环境模型和策略
python train.py -df test.npz -cf test.yaml -rf test_reward.py -vm once -pm once --run_id test
# 使用超参搜索模式来训练虚拟环境模型和策略。
python train.py -df test.npz -cf test.yaml -rf test_reward.py -vm tune -pm tune --run_id test
# 使用自定义的参数文件(config.json)来训练虚拟环境模型和策略
python train.py -df test.npz -cf test.yaml -rf test_reward.py -rcf config.json --run_id test
示例数据:https://github.com/polixir/revive/tree/master/data
在训练过程中,REVIVE SDK会自动创建日志文件夹 logs/<run_id>
来记录训练日志和保存模型结果。
训练完成后,结果将以 env.pkl
和 policy.pkl
的形式存储在训练日志文件夹当中。