dvc.lock

schema: '2.0'
stages:
  prep_features:
    cmd: python src/stage_prep_features.py --params=params.yaml
    deps:
    - path: src/features/PlantationsData.py
      hash: md5
      md5: 2dcd21e889bcd7023eb52852a4b257bf
      size: 3123
    - path: src/features/create_xy.py
      hash: md5
      md5: d3f1e6db8951de74e86c61a52d23e66f
      size: 16794
    - path: src/stage_prep_features.py
      hash: md5
      md5: 7444e7aef0fece8f2a87ec744ac1d4dc
      size: 2191
    params:
      params.yaml:
        base:
          log_level: DEBUG
          random_state: 121
          config: config.yaml
        data_condition:
          total_feature_count: 94
          classes: 4
          ard_subsample: 4
          subset_fraction: 0.1
          test_split: 20
          train_split: 80
          val_split: 25
          modelData_path: data/train_params/modelData.pkl
        data_load:
          download_data: false
          bucket_name: restoration-monitoring
          folder_prefix: plantation-mapping/data/train/
          local_prefix: data/
          ttc_feats_dir: train-features-ard/
          create_labels: false
          ceo_survey:
          - v08
          - v14
          - v15
          - v19
          - v20
          - v21
          - v22
          - v23
    outs:
    - path: data/train_params/modelData.pkl
      hash: md5
      md5: 4dac32d3d05a086cfdc4f62086e3405f
      size: 288393296
  load_data:
    cmd: python src/stage_load_data.py --params=params.yaml
    deps:
    - path: src/stage_load_data.py
      hash: md5
      md5: 43e0c8bb0743c5604ba15cbaf57fb25d
      size: 1025
    params:
      params.yaml:
        base:
          log_level: DEBUG
          random_state: 121
          config: config.yaml
        data_load:
          download_data: false
          bucket_name: restoration-monitoring
          folder_prefix: plantation-mapping/data/train/
          local_prefix: data/
          ttc_feats_dir: train-features-ard/
          create_labels: false
          ceo_survey:
          - v08
          - v14
          - v15
          - v19
          - v20
          - v21
          - v22
          - v23
  select_features_hyperparams:
    cmd: python src/stage_select_and_tune.py --params=params.yaml
    deps:
    - path: data/train_params/modelData.pkl
      hash: md5
      md5: 4dac32d3d05a086cfdc4f62086e3405f
      size: 288393296
    - path: src/features/feature_selection.py
      hash: md5
      md5: d51fa7201f0fb27b59e81589754b413a
      size: 8446
    params:
      params.yaml:
        base:
          log_level: DEBUG
          random_state: 121
          config: config.yaml
        data_condition:
          total_feature_count: 94
          classes: 4
          ard_subsample: 4
          subset_fraction: 0.1
          test_split: 20
          train_split: 80
          val_split: 25
          modelData_path: data/train_params/modelData.pkl
        select:
          select_features: false
          max_features: 40
          selected_features_path: data/train_params/selected_features.json
        train:
          use_best_params: true
          model_dir: models/
          model_name: models/model.joblib
          estimator_name: cat
          cv: 3
          tuning_metric: balanced_accuracy
          testing_metrics: accuracy balanced_accuracy precision recall f1 roc_auc
            log_loss
          estimators:
            cat:
              use_class_weights: true
              param_grid:
                loss_function: MultiClass
                random_state: 121
                logging_level: Silent
                depth: 10
                iterations: 1200
                l2_leaf_reg: 20
                min_data_in_leaf: 1680
                learning_rate: 0.02
    outs:
    - path: data/train_params/best_params.json
      hash: md5
      md5: fdabd45dffd30ce0dc2dd7fe732bc8f3
      size: 113
    - path: data/train_params/selected_features.json
      hash: md5
      md5: 9ae4c88d0f7cdaec60f1a13e36f565e5
      size: 150
  train_model:
    cmd: python src/stage_train_model.py --params=params.yaml
    deps:
    - path: data/train_params/best_params.json
      hash: md5
      md5: fdabd45dffd30ce0dc2dd7fe732bc8f3
      size: 113
    - path: data/train_params/modelData.pkl
      hash: md5
      md5: 4dac32d3d05a086cfdc4f62086e3405f
      size: 288393296
    - path: data/train_params/selected_features.json
      hash: md5
      md5: 9ae4c88d0f7cdaec60f1a13e36f565e5
      size: 150
    - path: src/model/train.py
      hash: md5
      md5: a5336ed53bcc71cf71937e886d6d7c5e
      size: 3411
    - path: src/stage_train_model.py
      hash: md5
      md5: 4eda50bc247e53cae05bfd77856a7c33
      size: 2905
    params:
      params.yaml:
        base:
          log_level: DEBUG
          random_state: 121
          config: config.yaml
        data_condition:
          total_feature_count: 94
          classes: 4
          ard_subsample: 4
          subset_fraction: 0.1
          test_split: 20
          train_split: 80
          val_split: 25
          modelData_path: data/train_params/modelData.pkl
        train:
          use_best_params: true
          model_dir: models/
          model_name: models/model.joblib
          estimator_name: cat
          cv: 3
          tuning_metric: balanced_accuracy
          testing_metrics: accuracy balanced_accuracy precision recall f1 roc_auc
            log_loss
          estimators:
            cat:
              use_class_weights: true
              param_grid:
                loss_function: MultiClass
                random_state: 121
                logging_level: Silent
                depth: 10
                iterations: 1200
                l2_leaf_reg: 20
                min_data_in_leaf: 1680
                learning_rate: 0.02
    outs:
    - path: models/model.joblib
      hash: md5
      md5: 28f141320b5eb40c725a17a2c4589a02
      size: 49285302
  evaluate_model:
    cmd: python src/stage_evaluate_model.py --params=params.yaml
    deps:
    - path: data/train_params/best_params.json
      hash: md5
      md5: fdabd45dffd30ce0dc2dd7fe732bc8f3
      size: 113
    - path: data/train_params/modelData.pkl
      hash: md5
      md5: 4dac32d3d05a086cfdc4f62086e3405f
      size: 288393296
    - path: data/train_params/selected_features.json
      hash: md5
      md5: 9ae4c88d0f7cdaec60f1a13e36f565e5
      size: 150
    - path: models/model.joblib
      hash: md5
      md5: 28f141320b5eb40c725a17a2c4589a02
      size: 49285302
    - path: src/evaluation/validation_visuals.py
      hash: md5
      md5: d44607261f09b8de101499bb3ec2e1f7
      size: 3597
    - path: src/stage_evaluate_model.py
      hash: md5
      md5: 9f50423718bb6237f5ac94e03dffbf97
      size: 4718
    params:
      params.yaml:
        base:
          log_level: DEBUG
          random_state: 121
          config: config.yaml
        data_condition:
          total_feature_count: 94
          classes: 4
          ard_subsample: 4
          subset_fraction: 0.1
          test_split: 20
          train_split: 80
          val_split: 25
          modelData_path: data/train_params/modelData.pkl
        evaluate:
          metrics_file: src/evaluation/metrics
          cm_image: src/evaluation/confusion_matrix
          cm_data: src/evaluation/confusion_matrix_data
          train_progress: src/evaluation/train_progress
          tile_id_loc: data
        train:
          use_best_params: true
          model_dir: models/
          model_name: models/model.joblib
          estimator_name: cat
          cv: 3
          tuning_metric: balanced_accuracy
          testing_metrics: accuracy balanced_accuracy precision recall f1 roc_auc
            log_loss
          estimators:
            cat:
              use_class_weights: true
              param_grid:
                loss_function: MultiClass
                random_state: 121
                logging_level: Silent
                depth: 10
                iterations: 1200
                l2_leaf_reg: 20
                min_data_in_leaf: 1680
                learning_rate: 0.02
    outs:
    - path: src/evaluation/confusion_matrix.png
      hash: md5
      md5: 9457469dee3f66eec13cdb0bc515a598
      size: 30176
    - path: src/evaluation/confusion_matrix_data.csv
      hash: md5
      md5: e4246ff991ea94795c61775af152c002
      size: 152113
    - path: src/evaluation/metrics.json
      hash: md5
      md5: 7d1e83f7fa82f4d4d9df84392f9140f6
      size: 356