Foundation/Quantization_8hpp_source.html

#pragma once

#include <cstdint>

#include <bitset>

namespace Foundation::Math {

    float quantizeFP32(float v, int32_t N);


    uint16_t quantizeFP16(float v);


    float dequantizeFP16(uint16_t h);


    /* [0,1] range -> [0, 1 << NBits) \in N */


    inline uint32_t quantizeUnorm(float v, int32_t N) {

        const auto scale = static_cast<float>((1 << N) - 1);


        v = (v >= 0) ? v : 0;

        v = (v <= 1) ? v : 1;


        return static_cast<int>(v * scale + 0.5f);

    }


    /* [0, 1 << NBits) \in N -> [0, 1] range */


    inline float dequantizeUnorm(int32_t q, int32_t Nbits) {

        return q / static_cast<float>((1 << Nbits) - 1);

    }


    inline int32_t quantizeSnorm(float v, int32_t N) {

        const auto scale = static_cast<float>((1 << (N - 1)) - 1);


        float round = (v >= 0 ? 0.5f : -0.5f);


        v = (v >= -1) ? v : -1;

        v = (v <= +1) ? v : +1;


        return static_cast<int>(v * scale + round);

    }


    // [-(1<< (Nbits - 1)) - 1, (1 << (Nbits - 1))] \in N -> [-1, 1]


    inline float dequantizeSnorm(int32_t q, int32_t Nbits) {

        return q / static_cast<float>((1 << (Nbits - 1)) - 1);

    }


    // [-1, 1] range -> [0, 1 << NBits) \in N


    inline uint32_t quantizeSnormShifted(float v, int32_t Nbits) {

        return quantizeSnorm(v, Nbits) + (1 << (Nbits - 1));

    }


    // [0, 1 << NBits) \in N -> [-1, 1] range


    inline float dequantizeSnormShifted(uint32_t q, int32_t Nbits) {

        return dequantizeSnorm(q - (1 << (Nbits - 1)), Nbits);

    }


}

Foundation::Math
Mathematical utilities and types.
Definition Math.hpp:21

Foundation::Math::dequantizeFP16
float dequantizeFP16(unsigned short h)
Definition Quantization.cpp:53

Foundation::Math::quantizeSnormShifted
uint32_t quantizeSnormShifted(float v, int32_t Nbits)
Definition Quantization.hpp:70

Foundation::Math::quantizeSnorm
int32_t quantizeSnorm(float v, int32_t N)
Definition Quantization.hpp:53

Foundation::Math::dequantizeSnorm
float dequantizeSnorm(int32_t q, int32_t Nbits)
Definition Quantization.hpp:65

Foundation::Math::dequantizeUnorm
float dequantizeUnorm(int32_t q, int32_t Nbits)
Definition Quantization.hpp:42

Foundation::Math::dequantizeSnormShifted
float dequantizeSnormShifted(uint32_t q, int32_t Nbits)
Definition Quantization.hpp:75

Foundation::Math::quantizeFP32
float quantizeFP32(float v, int N)
Definition Quantization.cpp:32

Foundation::Math::quantizeUnorm
uint32_t quantizeUnorm(float v, int32_t N)
Definition Quantization.hpp:32

Foundation::Math::quantizeFP16
unsigned short quantizeFP16(float v)
Definition Quantization.cpp:9