快速开始
========

REVIVE SDK支持多种模式的模型训练，你只需要关注自己的业务本身，结合业务知识构建符合REVIVE SDK需要的任务数据，并提交训练任务，
REVIVE SDK就可以自动训练出最优的虚拟环境模型和策略模型，从而实现业务模拟和优化。

使用REVIVE SDK需要结合任务和数据特征来准备 :doc:`决策流图<./data_preparation_cn>`， :doc:`训练数据<./data_preparation_cn>`
和 :doc:`奖励函数<./reward_function_cn>`。REVIVE SDK将现实任务场景的业务逻辑数字化，通过构建决策流图来描述业务数据之间的关系。
基于该决策流图和对应的业务数据，REVIVE SDK可以训练虚拟环境模型，这个虚拟模型完全遵照了决策流图所定义的业务数据之间的逻辑。
奖励函数文件则定义了决策的奖励值计算方式，REVIVE SDK利用强化学习算法优化奖励值以获得最优策略。

决策流图、训练数据、奖励函数构成了一个完整的训练任务输入，在后续的教程和任务示例中，我们将详细解释准备数据的流程。

下面展示如何根据REVIVE SDK提供的示例数据快速进行虚拟环境模型训练和策略训练：

**训练命令:**

.. code:: python
 
 # 使用默认参数来训练虚拟环境模型和策略
 python train.py -df test.npz -cf test.yaml -rf test_reward.py -vm once -pm once --run_id test

 # 使用超参搜索模式来训练虚拟环境模型和策略。
 python train.py -df test.npz -cf test.yaml -rf test_reward.py -vm tune -pm tune --run_id test

 # 使用自定义的参数文件（config.json）来训练虚拟环境模型和策略
 python train.py -df test.npz -cf test.yaml -rf test_reward.py -rcf config.json --run_id test


示例数据：`https://agit.ai/Polixir/revive/src/branch/master/data <https://agit.ai/Polixir/revive/src/branch/master/data>`_

在训练过程中，REVIVE SDK会自动创建日志文件夹 ``logs/<run_id>`` 来记录训练日志和保存模型结果。
训练完成后，结果将保存以 ``env.pkl`` 和 ``policy.pkl`` 的形式存储在训练日志文件夹当中。