快速开始 ======== REVIVE SDK支持多种模式的模型训练,你只需要关注自己的业务本身,结合业务知识构建符合REVIVE SDK需要的任务数据,并提交训练任务, REVIVE SDK就可以自动训练出最优的虚拟环境模型和策略模型,从而实现业务模拟和优化。 使用REVIVE SDK需要结合任务和数据特征来准备 :doc:`决策流图<./data_preparation_cn>`, :doc:`训练数据<./data_preparation_cn>` 和 :doc:`奖励函数<./reward_function_cn>`。REVIVE SDK将现实任务场景的业务逻辑数字化,通过构建决策流图来描述业务数据之间的关系。 基于该决策流图和对应的业务数据,REVIVE SDK可以训练虚拟环境模型,这个虚拟模型完全遵照了决策流图所定义的业务数据之间的逻辑。 奖励函数文件则定义了决策的奖励值计算方式,REVIVE SDK利用强化学习算法优化奖励值以获得最优策略。 决策流图、训练数据、奖励函数构成了一个完整的训练任务输入,在后续的教程和任务示例中,我们将详细解释准备数据的流程。 下面展示如何根据REVIVE SDK提供的示例数据快速进行虚拟环境模型训练和策略训练: **训练命令:** .. code:: python # 使用默认参数来训练虚拟环境模型和策略 python train.py -df test.npz -cf test.yaml -rf test_reward.py -vm once -pm once --run_id test # 使用超参搜索模式来训练虚拟环境模型和策略。 python train.py -df test.npz -cf test.yaml -rf test_reward.py -vm tune -pm tune --run_id test # 使用自定义的参数文件(config.json)来训练虚拟环境模型和策略 python train.py -df test.npz -cf test.yaml -rf test_reward.py -rcf config.json --run_id test 示例数据:`https://agit.ai/Polixir/revive/src/branch/master/data `_ 在训练过程中,REVIVE SDK会自动创建日志文件夹 ``logs/`` 来记录训练日志和保存模型结果。 训练完成后,结果将保存以 ``env.pkl`` 和 ``policy.pkl`` 的形式存储在训练日志文件夹当中。