configs/recognition/slowfast/slowfast.yaml

MODEL: #MODEL field
    framework: "Recognizer3D"
    backbone:
        name: "ResNetSlowFast"
        depth: 50 # Not Optional, only 50 now.
        alpha: 8
        beta: 8
        width_per_group: 64
        fusion_kernel_sz: 5
    head:
        name: "SlowFastHead"
        width_per_group: 64
        alpha: 8
        beta: 8
        num_classes: 400
        num_frames: 32
        crop_size: 224  #independent to test or train mode
        dropout_rate: 0.5

DATASET: #DATASET field
    batch_size: 8  #single card bacth size
    #test_batch_size: 8
    num_workers: 8
    train:
        format: "SFVideoDataset"
        data_prefix: "data/k400/videos" #Mandatory, train data root path
        file_path: "data/k400/train.list" #Mandatory, train data index file path
    valid:
        format: "SFVideoDataset"
        data_prefix: "data/k400/videos" #Mandatory, train data root path
        file_path: "data/k400/val.list" #Mandatory, valid data index file path
    test:
        format: "SFVideoDataset"
        data_prefix: "data/k400/videos" #Mandatory, train data root path
        file_path: "data/k400/val.list" #Mandatory, test data index file path
        num_ensemble_views: 10
        num_spatial_crops: 3

PIPELINE:
    train:
        decode_sampler:
            name: "DecodeSampler"
            num_frames: 32
            sampling_rate: 2
        transform: #Mandotary, image transfrom operator
            - JitterScale:
                min_size: 256
                max_size: 320
            - MultiCrop:
                target_size: 224
            - RandomFlip:
            - Image2Array:
                transpose: False
            - Normalization:
                mean: [0.45, 0.45, 0.45]
                std: [0.225, 0.225, 0.225]
                tensor_shape: [1, 1, 1, 3]
            - PackOutput:
                alpha: 8

    valid:
        decode_sampler:
            name: "DecodeSampler"
            num_frames: 32
            sampling_rate: 2
        transform: #Mandotary, image transfrom operator
            - JitterScale:
                min_size: 256
                max_size: 320
            - MultiCrop:
                target_size: 224
            - RandomFlip:
            - Image2Array:
                transpose: False
            - Normalization:
                mean: [0.45, 0.45, 0.45]
                std: [0.225, 0.225, 0.225]
                tensor_shape: [1, 1, 1, 3]
            - PackOutput:
                alpha: 8

    test:
        decode_sampler:
            name: "DecodeSampler"
            num_frames: 32
            sampling_rate: 2
            test_mode: True
        transform: #Mandotary, image transfrom operator
            - JitterScale:
                min_size: 256
                max_size: 256
            - MultiCrop:
                target_size: 256
                test_mode: True
            - Image2Array:
                transpose: False
            - Normalization:
                mean: [0.45, 0.45, 0.45]
                std: [0.225, 0.225, 0.225]
                tensor_shape: [1, 1, 1, 3]
            - PackOutput:
                alpha: 8

OPTIMIZER: #OPTIMIZER field
    name: 'Momentum'
    momentum: 0.9
    learning_rate:
        iter_step: True
        name: 'CustomWarmupCosineDecay'
        max_epoch: 196
        warmup_epochs: 34
        warmup_start_lr: 0.01
        cosine_base_lr: 0.1
    weight_decay:
        name: 'L2'
        value: 1e-4
    use_nesterov: True

METRIC:
    name: 'MultiCropMetric'
    num_ensemble_views: 10
    num_spatial_crops: 3
    num_classes: 400

PRECISEBN:
    preciseBN_interval: 10
    num_iters_preciseBN: 200  #default


INFERENCE:
    name: 'SlowFast_Inference_helper'
    num_frames: 32
    alpha: 8
    target_size: 256

model_name: SlowFast
save_interval: 10
val_interval: 10
epochs: 196 #Mandatory, total epoch
log_level: "INFO"