GCC Code Coverage Report

Directory:	./
File:	kernels/volk/volk_32f_s32f_x2_convert_8u.h
Date:	2023-10-23 23:10:04
	Exec	Total	Coverage
Lines:	277	277	100.0%
Functions:	10	10	100.0%
Branches:	42	42	100.0%
  
      Line
      Branch
      Exec
      Source
    
      /* -*- c++ -*- */
    
      /*
    
       * Copyright 2023 Daniel Estevez <daniel@destevez.net>
    
       * Copyright 2012, 2014 Free Software Foundation, Inc.
    
       *
    
       * This file is part of VOLK
    
       *
    
       * SPDX-License-Identifier: LGPL-3.0-or-later
    
       */
    
      /*!
    
       * \page volk_32f_s32f_x2_convert_8u
    
       *
    
       * \b Overview
    
       *
    
       * Converts a floating point number to an 8-bit unsigned int after applying a
    
       * multiplicative scaling factor and an additive bias.
    
       *
    
       * <b>Dispatcher Prototype</b>
    
       * \code
    
       * void volk_32f_s32f_x2_convert_8u(uint8_t* outputVector, const float* inputVector,
    
       const float scale, const float bias, unsigned int num_points)
    
       * \endcode
    
       *
    
       * \b Inputs
    
       * \li inputVector: the input vector of floats.
    
       * \li scale: The value multiplied against each point in the input buffer.
    
       * \li bias: The value added to each multiplication by the scale.
    
       * \li num_points: The number of data points.
    
       *
    
       * \b Outputs
    
       * \li outputVector: The output vector.
    
       *
    
       * \b Example
    
       * Convert floats from [-1,1] to 8-bit unsigend integers with a scale of 128 and a bias of
    
       128
    
       *  int N = 10;
    
       *   unsigned int alignment = volk_get_alignment();
    
       *   float* increasing = (float*)volk_malloc(sizeof(float)*N, alignment);
    
       *   uint8_t* out = (uint8_t*)volk_malloc(sizeof(uint8_t)*N, alignment);
    
       *
    
       *   for(unsigned int ii = 0; ii < N; ++ii){
    
       *       increasing[ii] = 2.f * ((float)ii / (float)N) - 1.f;
    
       *   }
    
       *
    
       *   float scale = 128.0f;
    
       *   float bias = 128.0f;
    
       *
    
       *   volk_32f_s32f_x2_convert_8u(out, increasing, scale, bias, N);
    
       *
    
       *   for(unsigned int ii = 0; ii < N; ++ii){
    
       *       printf("out[%u] = %i\n", ii, out[ii]);
    
       *   }
    
       *
    
       *   volk_free(increasing);
    
       *   volk_free(out);
    
       * \endcode
    
       */
    
      #ifndef INCLUDED_volk_32f_s32f_x2_convert_8u_u_H
    
      #define INCLUDED_volk_32f_s32f_x2_convert_8u_u_H
    
      #include <inttypes.h>
    
      262462
      static inline void volk_32f_s32f_x2_convert_8u_single(uint8_t* out, const float in)
    
      {
    
      262462
          const float min_val = 0.0f;
    
      262462
          const float max_val = UINT8_MAX;
    
        2/2✓ Branch 0 taken 80080 times.
✓ Branch 1 taken 182382 times.

      262462
          if (in > max_val) {
    
      80080
              *out = (uint8_t)(max_val);
    
        2/2✓ Branch 0 taken 79991 times.
✓ Branch 1 taken 102391 times.

      182382
          } else if (in < min_val) {
    
      79991
              *out = (uint8_t)(min_val);
    
          } else {
    
      102391
              *out = (uint8_t)(rintf(in));
    
          }
    
      262462
      }
    
      #ifdef LV_HAVE_GENERIC
    
      2
      static inline void volk_32f_s32f_x2_convert_8u_generic(uint8_t* outputVector,
    
                                                             const float* inputVector,
    
                                                             const float scale,
    
                                                             const float bias,
    
                                                             unsigned int num_points)
    
      {
    
      2
          const float* inputVectorPtr = inputVector;
    
        2/2✓ Branch 0 taken 262142 times.
✓ Branch 1 taken 2 times.

      262144
          for (unsigned int number = 0; number < num_points; number++) {
    
      262142
              const float r = *inputVectorPtr++ * scale + bias;
    
      262142
              volk_32f_s32f_x2_convert_8u_single(&outputVector[number], r);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_GENERIC */
    
      #if LV_HAVE_AVX2 && LV_HAVE_FMA
    
      #include <immintrin.h>
    
      2
      static inline void volk_32f_s32f_x2_convert_8u_u_avx2_fma(uint8_t* outputVector,
    
                                                                const float* inputVector,
    
                                                                const float scale,
    
                                                                const float bias,
    
                                                                unsigned int num_points)
    
      {
    
      2
          const unsigned int thirtysecondPoints = num_points / 32;
    
      2
          const float* inputVectorPtr = (const float*)inputVector;
    
      2
          uint8_t* outputVectorPtr = outputVector;
    
      2
          const float min_val = 0.0f;
    
      2
          const float max_val = UINT8_MAX;
    
      2
          const __m256 vmin_val = _mm256_set1_ps(min_val);
    
      2
          const __m256 vmax_val = _mm256_set1_ps(max_val);
    
      2
          const __m256 vScale = _mm256_set1_ps(scale);
    
      2
          const __m256 vBias = _mm256_set1_ps(bias);
    
        2/2✓ Branch 0 taken 8190 times.
✓ Branch 1 taken 2 times.

      8192
          for (unsigned int number = 0; number < thirtysecondPoints; number++) {
    
      8190
              __m256 inputVal1 = _mm256_loadu_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      8190
              __m256 inputVal2 = _mm256_loadu_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      8190
              __m256 inputVal3 = _mm256_loadu_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      8190
              __m256 inputVal4 = _mm256_loadu_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      24570
              inputVal1 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_fmadd_ps(inputVal1, vScale, vBias), vmax_val), vmin_val);
    
      24570
              inputVal2 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_fmadd_ps(inputVal2, vScale, vBias), vmax_val), vmin_val);
    
      24570
              inputVal3 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_fmadd_ps(inputVal3, vScale, vBias), vmax_val), vmin_val);
    
      24570
              inputVal4 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_fmadd_ps(inputVal4, vScale, vBias), vmax_val), vmin_val);
    
      8190
              __m256i intInputVal1 = _mm256_cvtps_epi32(inputVal1);
    
      8190
              __m256i intInputVal2 = _mm256_cvtps_epi32(inputVal2);
    
      8190
              __m256i intInputVal3 = _mm256_cvtps_epi32(inputVal3);
    
      8190
              __m256i intInputVal4 = _mm256_cvtps_epi32(inputVal4);
    
      8190
              intInputVal1 = _mm256_packs_epi32(intInputVal1, intInputVal2);
    
      8190
              intInputVal1 = _mm256_permute4x64_epi64(intInputVal1, 0b11011000);
    
      8190
              intInputVal3 = _mm256_packs_epi32(intInputVal3, intInputVal4);
    
      8190
              intInputVal3 = _mm256_permute4x64_epi64(intInputVal3, 0b11011000);
    
      8190
              intInputVal1 = _mm256_packus_epi16(intInputVal1, intInputVal3);
    
      8190
              const __m256i intInputVal = _mm256_permute4x64_epi64(intInputVal1, 0b11011000);
    
              _mm256_storeu_si256((__m256i*)outputVectorPtr, intInputVal);
    
      8190
              outputVectorPtr += 32;
    
          }
    
        2/2✓ Branch 0 taken 62 times.
✓ Branch 1 taken 2 times.

      64
          for (unsigned int number = thirtysecondPoints * 32; number < num_points; number++) {
    
      62
              const float r = inputVector[number] * scale + bias;
    
      62
              volk_32f_s32f_x2_convert_8u_single(&outputVector[number], r);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_AVX2 && LV_HAVE_FMA */
    
      #ifdef LV_HAVE_AVX2
    
      #include <immintrin.h>
    
      2
      static inline void volk_32f_s32f_x2_convert_8u_u_avx2(uint8_t* outputVector,
    
                                                            const float* inputVector,
    
                                                            const float scale,
    
                                                            const float bias,
    
                                                            unsigned int num_points)
    
      {
    
      2
          const unsigned int thirtysecondPoints = num_points / 32;
    
      2
          const float* inputVectorPtr = (const float*)inputVector;
    
      2
          uint8_t* outputVectorPtr = outputVector;
    
      2
          const float min_val = 0.0f;
    
      2
          const float max_val = UINT8_MAX;
    
      2
          const __m256 vmin_val = _mm256_set1_ps(min_val);
    
      2
          const __m256 vmax_val = _mm256_set1_ps(max_val);
    
      2
          const __m256 vScale = _mm256_set1_ps(scale);
    
      2
          const __m256 vBias = _mm256_set1_ps(bias);
    
        2/2✓ Branch 0 taken 8190 times.
✓ Branch 1 taken 2 times.

      8192
          for (unsigned int number = 0; number < thirtysecondPoints; number++) {
    
      8190
              __m256 inputVal1 = _mm256_loadu_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      8190
              __m256 inputVal2 = _mm256_loadu_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      8190
              __m256 inputVal3 = _mm256_loadu_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      8190
              __m256 inputVal4 = _mm256_loadu_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      32760
              inputVal1 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_add_ps(_mm256_mul_ps(inputVal1, vScale), vBias),
    
                                vmax_val),
    
                  vmin_val);
    
      32760
              inputVal2 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_add_ps(_mm256_mul_ps(inputVal2, vScale), vBias),
    
                                vmax_val),
    
                  vmin_val);
    
      32760
              inputVal3 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_add_ps(_mm256_mul_ps(inputVal3, vScale), vBias),
    
                                vmax_val),
    
                  vmin_val);
    
      32760
              inputVal4 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_add_ps(_mm256_mul_ps(inputVal4, vScale), vBias),
    
                                vmax_val),
    
                  vmin_val);
    
      8190
              __m256i intInputVal1 = _mm256_cvtps_epi32(inputVal1);
    
      8190
              __m256i intInputVal2 = _mm256_cvtps_epi32(inputVal2);
    
      8190
              __m256i intInputVal3 = _mm256_cvtps_epi32(inputVal3);
    
      8190
              __m256i intInputVal4 = _mm256_cvtps_epi32(inputVal4);
    
      8190
              intInputVal1 = _mm256_packs_epi32(intInputVal1, intInputVal2);
    
      8190
              intInputVal1 = _mm256_permute4x64_epi64(intInputVal1, 0b11011000);
    
      8190
              intInputVal3 = _mm256_packs_epi32(intInputVal3, intInputVal4);
    
      8190
              intInputVal3 = _mm256_permute4x64_epi64(intInputVal3, 0b11011000);
    
      8190
              intInputVal1 = _mm256_packus_epi16(intInputVal1, intInputVal3);
    
      8190
              const __m256i intInputVal = _mm256_permute4x64_epi64(intInputVal1, 0b11011000);
    
              _mm256_storeu_si256((__m256i*)outputVectorPtr, intInputVal);
    
      8190
              outputVectorPtr += 32;
    
          }
    
        2/2✓ Branch 0 taken 62 times.
✓ Branch 1 taken 2 times.

      64
          for (unsigned int number = thirtysecondPoints * 32; number < num_points; number++) {
    
      62
              float r = inputVector[number] * scale + bias;
    
      62
              volk_32f_s32f_x2_convert_8u_single(&outputVector[number], r);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_AVX2 */
    
      #ifdef LV_HAVE_SSE2
    
      #include <emmintrin.h>
    
      2
      static inline void volk_32f_s32f_x2_convert_8u_u_sse2(uint8_t* outputVector,
    
                                                            const float* inputVector,
    
                                                            const float scale,
    
                                                            const float bias,
    
                                                            unsigned int num_points)
    
      {
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          const float* inputVectorPtr = (const float*)inputVector;
    
      2
          uint8_t* outputVectorPtr = outputVector;
    
      2
          const float min_val = 0.0f;
    
      2
          const float max_val = UINT8_MAX;
    
      2
          const __m128 vmin_val = _mm_set_ps1(min_val);
    
      2
          const __m128 vmax_val = _mm_set_ps1(max_val);
    
      2
          const __m128 vScale = _mm_set_ps1(scale);
    
      2
          const __m128 vBias = _mm_set_ps1(bias);
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (unsigned int number = 0; number < sixteenthPoints; number++) {
    
      16382
              __m128 inputVal1 = _mm_loadu_ps(inputVectorPtr);
    
      16382
              inputVectorPtr += 4;
    
      16382
              __m128 inputVal2 = _mm_loadu_ps(inputVectorPtr);
    
      16382
              inputVectorPtr += 4;
    
      16382
              __m128 inputVal3 = _mm_loadu_ps(inputVectorPtr);
    
      16382
              inputVectorPtr += 4;
    
      16382
              __m128 inputVal4 = _mm_loadu_ps(inputVectorPtr);
    
      16382
              inputVectorPtr += 4;
    
      65528
              inputVal1 = _mm_max_ps(
    
                  _mm_min_ps(_mm_add_ps(_mm_mul_ps(inputVal1, vScale), vBias), vmax_val),
    
                  vmin_val);
    
      65528
              inputVal2 = _mm_max_ps(
    
                  _mm_min_ps(_mm_add_ps(_mm_mul_ps(inputVal2, vScale), vBias), vmax_val),
    
                  vmin_val);
    
      65528
              inputVal3 = _mm_max_ps(
    
                  _mm_min_ps(_mm_add_ps(_mm_mul_ps(inputVal3, vScale), vBias), vmax_val),
    
                  vmin_val);
    
      65528
              inputVal4 = _mm_max_ps(
    
                  _mm_min_ps(_mm_add_ps(_mm_mul_ps(inputVal4, vScale), vBias), vmax_val),
    
                  vmin_val);
    
      16382
              __m128i intInputVal1 = _mm_cvtps_epi32(inputVal1);
    
      16382
              __m128i intInputVal2 = _mm_cvtps_epi32(inputVal2);
    
      16382
              __m128i intInputVal3 = _mm_cvtps_epi32(inputVal3);
    
      16382
              __m128i intInputVal4 = _mm_cvtps_epi32(inputVal4);
    
      16382
              intInputVal1 = _mm_packs_epi32(intInputVal1, intInputVal2);
    
      16382
              intInputVal3 = _mm_packs_epi32(intInputVal3, intInputVal4);
    
      16382
              intInputVal1 = _mm_packus_epi16(intInputVal1, intInputVal3);
    
              _mm_storeu_si128((__m128i*)outputVectorPtr, intInputVal1);
    
      16382
              outputVectorPtr += 16;
    
          }
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (unsigned int number = sixteenthPoints * 16; number < num_points; number++) {
    
      30
              const float r = inputVector[number] * scale + bias;
    
      30
              volk_32f_s32f_x2_convert_8u_single(&outputVector[number], r);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_SSE2 */
    
      #ifdef LV_HAVE_SSE
    
      #include <xmmintrin.h>
    
      2
      static inline void volk_32f_s32f_x2_convert_8u_u_sse(uint8_t* outputVector,
    
                                                           const float* inputVector,
    
                                                           const float scale,
    
                                                           const float bias,
    
                                                           unsigned int num_points)
    
      {
    
      2
          const unsigned int quarterPoints = num_points / 4;
    
      2
          const float* inputVectorPtr = (const float*)inputVector;
    
      2
          uint8_t* outputVectorPtr = outputVector;
    
      2
          const float min_val = 0.0f;
    
      2
          const float max_val = UINT8_MAX;
    
      2
          const __m128 vmin_val = _mm_set_ps1(min_val);
    
      2
          const __m128 vmax_val = _mm_set_ps1(max_val);
    
      2
          const __m128 vScale = _mm_set_ps1(scale);
    
      2
          const __m128 vBias = _mm_set_ps1(bias);
    
          __VOLK_ATTR_ALIGNED(16) float outputFloatBuffer[4];
    
        2/2✓ Branch 0 taken 65534 times.
✓ Branch 1 taken 2 times.

      65536
          for (unsigned int number = 0; number < quarterPoints; number++) {
    
      65534
              __m128 ret = _mm_loadu_ps(inputVectorPtr);
    
      65534
              inputVectorPtr += 4;
    
      262136
              ret = _mm_max_ps(_mm_min_ps(_mm_add_ps(_mm_mul_ps(ret, vScale), vBias), vmax_val),
    
                               vmin_val);
    
              _mm_store_ps(outputFloatBuffer, ret);
    
        2/2✓ Branch 0 taken 262136 times.
✓ Branch 1 taken 65534 times.

      327670
              for (size_t inner_loop = 0; inner_loop < 4; inner_loop++) {
    
      262136
                  *outputVectorPtr++ = (uint8_t)(rintf(outputFloatBuffer[inner_loop]));
    
              }
    
          }
    
        2/2✓ Branch 0 taken 6 times.
✓ Branch 1 taken 2 times.

      8
          for (unsigned int number = quarterPoints * 4; number < num_points; number++) {
    
      6
              const float r = inputVector[number] * scale + bias;
    
      6
              volk_32f_s32f_x2_convert_8u_single(&outputVector[number], r);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_SSE */
    
      #endif /* INCLUDED_volk_32f_s32f_x2_convert_8u_u_H */
    
      #ifndef INCLUDED_volk_32f_s32f_x2_convert_8u_a_H
    
      #define INCLUDED_volk_32f_s32f_x2_convert_8u_a_H
    
      #include <inttypes.h>
    
      #include <volk/volk_common.h>
    
      #if LV_HAVE_AVX2 && LV_HAVE_FMA
    
      #include <immintrin.h>
    
      2
      static inline void volk_32f_s32f_x2_convert_8u_a_avx2_fma(uint8_t* outputVector,
    
                                                                const float* inputVector,
    
                                                                const float scale,
    
                                                                const float bias,
    
                                                                unsigned int num_points)
    
      {
    
      2
          const unsigned int thirtysecondPoints = num_points / 32;
    
      2
          const float* inputVectorPtr = (const float*)inputVector;
    
      2
          uint8_t* outputVectorPtr = outputVector;
    
      2
          const float min_val = 0.0f;
    
      2
          const float max_val = UINT8_MAX;
    
      2
          const __m256 vmin_val = _mm256_set1_ps(min_val);
    
      2
          const __m256 vmax_val = _mm256_set1_ps(max_val);
    
      2
          const __m256 vScale = _mm256_set1_ps(scale);
    
      2
          const __m256 vBias = _mm256_set1_ps(bias);
    
        2/2✓ Branch 0 taken 8190 times.
✓ Branch 1 taken 2 times.

      8192
          for (unsigned int number = 0; number < thirtysecondPoints; number++) {
    
      8190
              __m256 inputVal1 = _mm256_load_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      8190
              __m256 inputVal2 = _mm256_load_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      8190
              __m256 inputVal3 = _mm256_load_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      8190
              __m256 inputVal4 = _mm256_load_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      24570
              inputVal1 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_fmadd_ps(inputVal1, vScale, vBias), vmax_val), vmin_val);
    
      24570
              inputVal2 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_fmadd_ps(inputVal2, vScale, vBias), vmax_val), vmin_val);
    
      24570
              inputVal3 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_fmadd_ps(inputVal3, vScale, vBias), vmax_val), vmin_val);
    
      24570
              inputVal4 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_fmadd_ps(inputVal4, vScale, vBias), vmax_val), vmin_val);
    
      8190
              __m256i intInputVal1 = _mm256_cvtps_epi32(inputVal1);
    
      8190
              __m256i intInputVal2 = _mm256_cvtps_epi32(inputVal2);
    
      8190
              __m256i intInputVal3 = _mm256_cvtps_epi32(inputVal3);
    
      8190
              __m256i intInputVal4 = _mm256_cvtps_epi32(inputVal4);
    
      8190
              intInputVal1 = _mm256_packs_epi32(intInputVal1, intInputVal2);
    
      8190
              intInputVal1 = _mm256_permute4x64_epi64(intInputVal1, 0b11011000);
    
      8190
              intInputVal3 = _mm256_packs_epi32(intInputVal3, intInputVal4);
    
      8190
              intInputVal3 = _mm256_permute4x64_epi64(intInputVal3, 0b11011000);
    
      8190
              intInputVal1 = _mm256_packus_epi16(intInputVal1, intInputVal3);
    
      8190
              const __m256i intInputVal = _mm256_permute4x64_epi64(intInputVal1, 0b11011000);
    
              _mm256_store_si256((__m256i*)outputVectorPtr, intInputVal);
    
      8190
              outputVectorPtr += 32;
    
          }
    
        2/2✓ Branch 0 taken 62 times.
✓ Branch 1 taken 2 times.

      64
          for (unsigned int number = thirtysecondPoints * 32; number < num_points; number++) {
    
      62
              const float r = inputVector[number] * scale + bias;
    
      62
              volk_32f_s32f_x2_convert_8u_single(&outputVector[number], r);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_AVX2 && LV_HAVE_FMA */
    
      #ifdef LV_HAVE_AVX2
    
      #include <immintrin.h>
    
      2
      static inline void volk_32f_s32f_x2_convert_8u_a_avx2(uint8_t* outputVector,
    
                                                            const float* inputVector,
    
                                                            const float scale,
    
                                                            const float bias,
    
                                                            unsigned int num_points)
    
      {
    
      2
          const unsigned int thirtysecondPoints = num_points / 32;
    
      2
          const float* inputVectorPtr = (const float*)inputVector;
    
      2
          uint8_t* outputVectorPtr = outputVector;
    
      2
          const float min_val = 0.0f;
    
      2
          const float max_val = UINT8_MAX;
    
      2
          const __m256 vmin_val = _mm256_set1_ps(min_val);
    
      2
          const __m256 vmax_val = _mm256_set1_ps(max_val);
    
      2
          const __m256 vScale = _mm256_set1_ps(scale);
    
      2
          const __m256 vBias = _mm256_set1_ps(bias);
    
        2/2✓ Branch 0 taken 8190 times.
✓ Branch 1 taken 2 times.

      8192
          for (unsigned int number = 0; number < thirtysecondPoints; number++) {
    
      8190
              __m256 inputVal1 = _mm256_load_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      8190
              __m256 inputVal2 = _mm256_load_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      8190
              __m256 inputVal3 = _mm256_load_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      8190
              __m256 inputVal4 = _mm256_load_ps(inputVectorPtr);
    
      8190
              inputVectorPtr += 8;
    
      32760
              inputVal1 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_add_ps(_mm256_mul_ps(inputVal1, vScale), vBias),
    
                                vmax_val),
    
                  vmin_val);
    
      32760
              inputVal2 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_add_ps(_mm256_mul_ps(inputVal2, vScale), vBias),
    
                                vmax_val),
    
                  vmin_val);
    
      32760
              inputVal3 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_add_ps(_mm256_mul_ps(inputVal3, vScale), vBias),
    
                                vmax_val),
    
                  vmin_val);
    
      32760
              inputVal4 = _mm256_max_ps(
    
                  _mm256_min_ps(_mm256_add_ps(_mm256_mul_ps(inputVal4, vScale), vBias),
    
                                vmax_val),
    
                  vmin_val);
    
      8190
              __m256i intInputVal1 = _mm256_cvtps_epi32(inputVal1);
    
      8190
              __m256i intInputVal2 = _mm256_cvtps_epi32(inputVal2);
    
      8190
              __m256i intInputVal3 = _mm256_cvtps_epi32(inputVal3);
    
      8190
              __m256i intInputVal4 = _mm256_cvtps_epi32(inputVal4);
    
      8190
              intInputVal1 = _mm256_packs_epi32(intInputVal1, intInputVal2);
    
      8190
              intInputVal1 = _mm256_permute4x64_epi64(intInputVal1, 0b11011000);
    
      8190
              intInputVal3 = _mm256_packs_epi32(intInputVal3, intInputVal4);
    
      8190
              intInputVal3 = _mm256_permute4x64_epi64(intInputVal3, 0b11011000);
    
      8190
              intInputVal1 = _mm256_packus_epi16(intInputVal1, intInputVal3);
    
      8190
              const __m256i intInputVal = _mm256_permute4x64_epi64(intInputVal1, 0b11011000);
    
              _mm256_store_si256((__m256i*)outputVectorPtr, intInputVal);
    
      8190
              outputVectorPtr += 32;
    
          }
    
        2/2✓ Branch 0 taken 62 times.
✓ Branch 1 taken 2 times.

      64
          for (unsigned int number = thirtysecondPoints * 32; number < num_points; number++) {
    
      62
              const float r = inputVector[number] * scale + bias;
    
      62
              volk_32f_s32f_x2_convert_8u_single(&outputVector[number], r);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_AVX2 */
    
      #ifdef LV_HAVE_SSE2
    
      #include <emmintrin.h>
    
      2
      static inline void volk_32f_s32f_x2_convert_8u_a_sse2(uint8_t* outputVector,
    
                                                            const float* inputVector,
    
                                                            const float scale,
    
                                                            const float bias,
    
                                                            unsigned int num_points)
    
      {
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          const float* inputVectorPtr = (const float*)inputVector;
    
      2
          uint8_t* outputVectorPtr = outputVector;
    
      2
          const float min_val = 0.0f;
    
      2
          const float max_val = UINT8_MAX;
    
      2
          const __m128 vmin_val = _mm_set_ps1(min_val);
    
      2
          const __m128 vmax_val = _mm_set_ps1(max_val);
    
      2
          const __m128 vScale = _mm_set_ps1(scale);
    
      2
          const __m128 vBias = _mm_set_ps1(bias);
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (unsigned int number = 0; number < sixteenthPoints; number++) {
    
      16382
              __m128 inputVal1 = _mm_load_ps(inputVectorPtr);
    
      16382
              inputVectorPtr += 4;
    
      16382
              __m128 inputVal2 = _mm_load_ps(inputVectorPtr);
    
      16382
              inputVectorPtr += 4;
    
      16382
              __m128 inputVal3 = _mm_load_ps(inputVectorPtr);
    
      16382
              inputVectorPtr += 4;
    
      16382
              __m128 inputVal4 = _mm_load_ps(inputVectorPtr);
    
      16382
              inputVectorPtr += 4;
    
      65528
              inputVal1 = _mm_max_ps(
    
                  _mm_min_ps(_mm_add_ps(_mm_mul_ps(inputVal1, vScale), vBias), vmax_val),
    
                  vmin_val);
    
      65528
              inputVal2 = _mm_max_ps(
    
                  _mm_min_ps(_mm_add_ps(_mm_mul_ps(inputVal2, vScale), vBias), vmax_val),
    
                  vmin_val);
    
      65528
              inputVal3 = _mm_max_ps(
    
                  _mm_min_ps(_mm_add_ps(_mm_mul_ps(inputVal3, vScale), vBias), vmax_val),
    
                  vmin_val);
    
      65528
              inputVal4 = _mm_max_ps(
    
                  _mm_min_ps(_mm_add_ps(_mm_mul_ps(inputVal4, vScale), vBias), vmax_val),
    
                  vmin_val);
    
      16382
              __m128i intInputVal1 = _mm_cvtps_epi32(inputVal1);
    
      16382
              __m128i intInputVal2 = _mm_cvtps_epi32(inputVal2);
    
      16382
              __m128i intInputVal3 = _mm_cvtps_epi32(inputVal3);
    
      16382
              __m128i intInputVal4 = _mm_cvtps_epi32(inputVal4);
    
      16382
              intInputVal1 = _mm_packs_epi32(intInputVal1, intInputVal2);
    
      16382
              intInputVal3 = _mm_packs_epi32(intInputVal3, intInputVal4);
    
      16382
              intInputVal1 = _mm_packus_epi16(intInputVal1, intInputVal3);
    
              _mm_store_si128((__m128i*)outputVectorPtr, intInputVal1);
    
      16382
              outputVectorPtr += 16;
    
          }
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (unsigned int number = sixteenthPoints * 16; number < num_points; number++) {
    
      30
              const float r = inputVector[number] * scale + bias;
    
      30
              volk_32f_s32f_x2_convert_8u_single(&outputVector[number], r);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_SSE2 */
    
      #ifdef LV_HAVE_SSE
    
      #include <xmmintrin.h>
    
      2
      static inline void volk_32f_s32f_x2_convert_8u_a_sse(uint8_t* outputVector,
    
                                                           const float* inputVector,
    
                                                           const float scale,
    
                                                           const float bias,
    
                                                           unsigned int num_points)
    
      {
    
      2
          const unsigned int quarterPoints = num_points / 4;
    
      2
          const float* inputVectorPtr = (const float*)inputVector;
    
      2
          uint8_t* outputVectorPtr = outputVector;
    
      2
          const float min_val = 0.0f;
    
      2
          const float max_val = UINT8_MAX;
    
      2
          const __m128 vmin_val = _mm_set_ps1(min_val);
    
      2
          const __m128 vmax_val = _mm_set_ps1(max_val);
    
      2
          const __m128 vScalar = _mm_set_ps1(scale);
    
      2
          const __m128 vBias = _mm_set_ps1(bias);
    
          __VOLK_ATTR_ALIGNED(16) float outputFloatBuffer[4];
    
        2/2✓ Branch 0 taken 65534 times.
✓ Branch 1 taken 2 times.

      65536
          for (unsigned int number = 0; number < quarterPoints; number++) {
    
      65534
              __m128 ret = _mm_load_ps(inputVectorPtr);
    
      65534
              inputVectorPtr += 4;
    
      262136
              ret = _mm_max_ps(
    
                  _mm_min_ps(_mm_add_ps(_mm_mul_ps(ret, vScalar), vBias), vmax_val), vmin_val);
    
              _mm_store_ps(outputFloatBuffer, ret);
    
        2/2✓ Branch 0 taken 262136 times.
✓ Branch 1 taken 65534 times.

      327670
              for (size_t inner_loop = 0; inner_loop < 4; inner_loop++) {
    
      262136
                  *outputVectorPtr++ = (uint8_t)(rintf(outputFloatBuffer[inner_loop]));
    
              }
    
          }
    
        2/2✓ Branch 0 taken 6 times.
✓ Branch 1 taken 2 times.

      8
          for (unsigned int number = quarterPoints * 4; number < num_points; number++) {
    
      6
              const float r = inputVector[number] * scale + bias;
    
      6
              volk_32f_s32f_x2_convert_8u_single(&outputVector[number], r);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_SSE */
    
      #endif /* INCLUDED_volk_32f_s32f_x2_convert_8u_a_H */