快速开始¶

REVIVE SDK支持多种模式的模型训练，你只需要关注自己的业务本身，结合业务知识构建符合REVIVE SDK需要的任务数据，并提交训练任务， REVIVE SDK就可以自动训练出最优的虚拟环境模型和策略模型，从而实现业务模拟和优化。

使用REVIVE SDK需要结合任务和数据特征来准备决策流图，训练数据和奖励函数。REVIVE SDK将现实任务场景的业务逻辑数字化，通过构建决策流图来描述业务数据之间的关系。基于该决策流图和对应的业务数据，REVIVE SDK可以训练虚拟环境模型，这个虚拟模型完全遵照了决策流图所定义的业务数据之间的逻辑。奖励函数文件则定义了决策的奖励值计算方式，REVIVE SDK利用强化学习算法优化奖励值以获得最优策略。

决策流图、训练数据、奖励函数构成了一个完整的训练任务输入，在后续的教程和任务示例中，我们将详细解释准备数据的流程。

下面展示如何根据REVIVE SDK提供的示例数据快速进行虚拟环境模型训练和策略训练：

训练命令:

# 使用默认参数来训练虚拟环境模型和策略
python train.py -df test.npz -cf test.yaml -rf test_reward.py -vm once -pm once --run_id test

# 使用超参搜索模式来训练虚拟环境模型和策略。
python train.py -df test.npz -cf test.yaml -rf test_reward.py -vm tune -pm tune --run_id test

# 使用自定义的参数文件（config.json）来训练虚拟环境模型和策略
python train.py -df test.npz -cf test.yaml -rf test_reward.py -rcf config.json --run_id test

示例数据：https://agit.ai/Polixir/revive/src/branch/master/data

在训练过程中，REVIVE SDK会自动创建日志文件夹 logs/<run_id> 来记录训练日志和保存模型结果。训练完成后，结果将保存以 env.pkl 和 policy.pkl 的形式存储在训练日志文件夹当中。