GCC Code Coverage Report

Directory:	./
File:	kernels/volk/volk_16i_32fc_dot_prod_32fc.h
Date:	2023-10-23 23:10:04
	Exec	Total	Coverage
Lines:	314	314	100.0%
Functions:	7	7	100.0%
Branches:	28	28	100.0%
  
      Line
      Branch
      Exec
      Source
    
      /* -*- c++ -*- */
    
      /*
    
       * Copyright 2012, 2014 Free Software Foundation, Inc.
    
       *
    
       * This file is part of VOLK
    
       *
    
       * SPDX-License-Identifier: LGPL-3.0-or-later
    
       */
    
      /*!
    
       * \page volk_16i_32fc_dot_prod_32fc
    
       *
    
       * \b Overview
    
       *
    
       * This block computes the dot product (or inner product) between two
    
       * vectors, the \p input and \p taps vectors. Given a set of \p
    
       * num_points taps, the result is the sum of products between the two
    
       * vectors. The result is a single value stored in the \p result
    
       * address and will be complex.
    
       *
    
       * <b>Dispatcher Prototype</b>
    
       * \code
    
       * void volk_16i_32fc_dot_prod_32fc(lv_32fc_t* result, const short* input, const lv_32fc_t
    
       * * taps, unsigned int num_points) \endcode
    
       *
    
       * \b Inputs
    
       * \li input: vector of shorts.
    
       * \li taps:  complex taps.
    
       * \li num_points: number of samples in both \p input and \p taps.
    
       *
    
       * \b Outputs
    
       * \li result: pointer to a complex value to hold the dot product result.
    
       *
    
       * \b Example
    
       * \code
    
       * int N = 10000;
    
       *
    
       * <FIXME>
    
       *
    
       * volk_16i_32fc_dot_prod_32fc();
    
       *
    
       * \endcode
    
       */
    
      #ifndef INCLUDED_volk_16i_32fc_dot_prod_32fc_H
    
      #define INCLUDED_volk_16i_32fc_dot_prod_32fc_H
    
      #include <stdio.h>
    
      #include <volk/volk_common.h>
    
      #ifdef LV_HAVE_GENERIC
    
      2
      static inline void volk_16i_32fc_dot_prod_32fc_generic(lv_32fc_t* result,
    
                                                             const short* input,
    
                                                             const lv_32fc_t* taps,
    
                                                             unsigned int num_points)
    
      {
    
          static const int N_UNROLL = 4;
    
      2
          lv_32fc_t acc0 = 0;
    
      2
          lv_32fc_t acc1 = 0;
    
      2
          lv_32fc_t acc2 = 0;
    
      2
          lv_32fc_t acc3 = 0;
    
      2
          unsigned i = 0;
    
      2
          unsigned n = (num_points / N_UNROLL) * N_UNROLL;
    
        2/2✓ Branch 0 taken 65534 times.
✓ Branch 1 taken 2 times.

      65536
          for (i = 0; i < n; i += N_UNROLL) {
    
      65534
              acc0 += taps[i + 0] * (float)input[i + 0];
    
      65534
              acc1 += taps[i + 1] * (float)input[i + 1];
    
      65534
              acc2 += taps[i + 2] * (float)input[i + 2];
    
      65534
              acc3 += taps[i + 3] * (float)input[i + 3];
    
          }
    
        2/2✓ Branch 0 taken 6 times.
✓ Branch 1 taken 2 times.

      8
          for (; i < num_points; i++) {
    
      6
              acc0 += taps[i] * (float)input[i];
    
          }
    
      2
          *result = acc0 + acc1 + acc2 + acc3;
    
      2
      }
    
      #endif /*LV_HAVE_GENERIC*/
    
      #ifdef LV_HAVE_NEON
    
      #include <arm_neon.h>
    
      static inline void volk_16i_32fc_dot_prod_32fc_neon(lv_32fc_t* result,
    
                                                          const short* input,
    
                                                          const lv_32fc_t* taps,
    
                                                          unsigned int num_points)
    
      {
    
          unsigned ii;
    
          unsigned quarter_points = num_points / 4;
    
          lv_32fc_t* tapsPtr = (lv_32fc_t*)taps;
    
          short* inputPtr = (short*)input;
    
          lv_32fc_t accumulator_vec[4];
    
          float32x4x2_t tapsVal, accumulator_val;
    
          int16x4_t input16;
    
          int32x4_t input32;
    
          float32x4_t input_float, prod_re, prod_im;
    
          accumulator_val.val[0] = vdupq_n_f32(0.0);
    
          accumulator_val.val[1] = vdupq_n_f32(0.0);
    
          for (ii = 0; ii < quarter_points; ++ii) {
    
              tapsVal = vld2q_f32((float*)tapsPtr);
    
              input16 = vld1_s16(inputPtr);
    
              // widen 16-bit int to 32-bit int
    
              input32 = vmovl_s16(input16);
    
              // convert 32-bit int to float with scale
    
              input_float = vcvtq_f32_s32(input32);
    
              prod_re = vmulq_f32(input_float, tapsVal.val[0]);
    
              prod_im = vmulq_f32(input_float, tapsVal.val[1]);
    
              accumulator_val.val[0] = vaddq_f32(prod_re, accumulator_val.val[0]);
    
              accumulator_val.val[1] = vaddq_f32(prod_im, accumulator_val.val[1]);
    
              tapsPtr += 4;
    
              inputPtr += 4;
    
          }
    
          vst2q_f32((float*)accumulator_vec, accumulator_val);
    
          accumulator_vec[0] += accumulator_vec[1];
    
          accumulator_vec[2] += accumulator_vec[3];
    
          accumulator_vec[0] += accumulator_vec[2];
    
          for (ii = quarter_points * 4; ii < num_points; ++ii) {
    
              accumulator_vec[0] += *(tapsPtr++) * (float)(*(inputPtr++));
    
          }
    
          *result = accumulator_vec[0];
    
      }
    
      #endif /*LV_HAVE_NEON*/
    
      #if LV_HAVE_SSE && LV_HAVE_MMX
    
      2
      static inline void volk_16i_32fc_dot_prod_32fc_u_sse(lv_32fc_t* result,
    
                                                           const short* input,
    
                                                           const lv_32fc_t* taps,
    
                                                           unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int eighthPoints = num_points / 8;
    
      2
          lv_32fc_t returnValue = lv_cmake(0.0f, 0.0f);
    
      2
          const short* aPtr = input;
    
      2
          const float* bPtr = (float*)taps;
    
          __m64 m0, m1;
    
          __m128 f0, f1, f2, f3;
    
          __m128 a0Val, a1Val, a2Val, a3Val;
    
          __m128 b0Val, b1Val, b2Val, b3Val;
    
          __m128 c0Val, c1Val, c2Val, c3Val;
    
      2
          __m128 dotProdVal0 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal1 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal2 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal3 = _mm_setzero_ps();
    
        2/2✓ Branch 0 taken 32766 times.
✓ Branch 1 taken 2 times.

      32768
          for (; number < eighthPoints; number++) {
    
      32766
              m0 = _mm_set_pi16(*(aPtr + 3), *(aPtr + 2), *(aPtr + 1), *(aPtr + 0));
    
      65532
              m1 = _mm_set_pi16(*(aPtr + 7), *(aPtr + 6), *(aPtr + 5), *(aPtr + 4));
    
      32766
              f0 = _mm_cvtpi16_ps(m0);
    
      32766
              f1 = _mm_cvtpi16_ps(m0);
    
      32766
              f2 = _mm_cvtpi16_ps(m1);
    
      32766
              f3 = _mm_cvtpi16_ps(m1);
    
      32766
              a0Val = _mm_unpacklo_ps(f0, f1);
    
      32766
              a1Val = _mm_unpackhi_ps(f0, f1);
    
      32766
              a2Val = _mm_unpacklo_ps(f2, f3);
    
      32766
              a3Val = _mm_unpackhi_ps(f2, f3);
    
      32766
              b0Val = _mm_loadu_ps(bPtr);
    
      32766
              b1Val = _mm_loadu_ps(bPtr + 4);
    
      32766
              b2Val = _mm_loadu_ps(bPtr + 8);
    
      65532
              b3Val = _mm_loadu_ps(bPtr + 12);
    
      32766
              c0Val = _mm_mul_ps(a0Val, b0Val);
    
      32766
              c1Val = _mm_mul_ps(a1Val, b1Val);
    
      32766
              c2Val = _mm_mul_ps(a2Val, b2Val);
    
      32766
              c3Val = _mm_mul_ps(a3Val, b3Val);
    
      32766
              dotProdVal0 = _mm_add_ps(c0Val, dotProdVal0);
    
      32766
              dotProdVal1 = _mm_add_ps(c1Val, dotProdVal1);
    
      32766
              dotProdVal2 = _mm_add_ps(c2Val, dotProdVal2);
    
      32766
              dotProdVal3 = _mm_add_ps(c3Val, dotProdVal3);
    
      32766
              aPtr += 8;
    
      32766
              bPtr += 16;
    
          }
    
          _mm_empty(); // clear the mmx technology state
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal1);
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal2);
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal3);
    
          __VOLK_ATTR_ALIGNED(16) float dotProductVector[4];
    
          _mm_store_ps(dotProductVector,
    
                       dotProdVal0); // Store the results back into the dot product vector
    
      2
          returnValue += lv_cmake(dotProductVector[0], dotProductVector[1]);
    
      2
          returnValue += lv_cmake(dotProductVector[2], dotProductVector[3]);
    
      2
          number = eighthPoints * 8;
    
        2/2✓ Branch 0 taken 14 times.
✓ Branch 1 taken 2 times.

      16
          for (; number < num_points; number++) {
    
      14
              returnValue += lv_cmake(aPtr[0] * bPtr[0], aPtr[0] * bPtr[1]);
    
      14
              aPtr += 1;
    
      14
              bPtr += 2;
    
          }
    
      2
          *result = returnValue;
    
      2
      }
    
      #endif /*LV_HAVE_SSE && LV_HAVE_MMX*/
    
      #if LV_HAVE_AVX2 && LV_HAVE_FMA
    
      2
      static inline void volk_16i_32fc_dot_prod_32fc_u_avx2_fma(lv_32fc_t* result,
    
                                                                const short* input,
    
                                                                const lv_32fc_t* taps,
    
                                                                unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          lv_32fc_t returnValue = lv_cmake(0.0f, 0.0f);
    
      2
          const short* aPtr = input;
    
      2
          const float* bPtr = (float*)taps;
    
          __m128i m0, m1;
    
          __m256i f0, f1;
    
          __m256 g0, g1, h0, h1, h2, h3;
    
          __m256 a0Val, a1Val, a2Val, a3Val;
    
          __m256 b0Val, b1Val, b2Val, b3Val;
    
      2
          __m256 dotProdVal0 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal1 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal2 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal3 = _mm256_setzero_ps();
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (; number < sixteenthPoints; number++) {
    
      16382
              m0 = _mm_loadu_si128((__m128i const*)aPtr);
    
      32764
              m1 = _mm_loadu_si128((__m128i const*)(aPtr + 8));
    
      16382
              f0 = _mm256_cvtepi16_epi32(m0);
    
      16382
              g0 = _mm256_cvtepi32_ps(f0);
    
      16382
              f1 = _mm256_cvtepi16_epi32(m1);
    
      16382
              g1 = _mm256_cvtepi32_ps(f1);
    
      16382
              h0 = _mm256_unpacklo_ps(g0, g0);
    
      16382
              h1 = _mm256_unpackhi_ps(g0, g0);
    
      16382
              h2 = _mm256_unpacklo_ps(g1, g1);
    
      16382
              h3 = _mm256_unpackhi_ps(g1, g1);
    
      16382
              a0Val = _mm256_permute2f128_ps(h0, h1, 0x20);
    
      16382
              a1Val = _mm256_permute2f128_ps(h0, h1, 0x31);
    
      16382
              a2Val = _mm256_permute2f128_ps(h2, h3, 0x20);
    
      16382
              a3Val = _mm256_permute2f128_ps(h2, h3, 0x31);
    
      16382
              b0Val = _mm256_loadu_ps(bPtr);
    
      16382
              b1Val = _mm256_loadu_ps(bPtr + 8);
    
      16382
              b2Val = _mm256_loadu_ps(bPtr + 16);
    
      32764
              b3Val = _mm256_loadu_ps(bPtr + 24);
    
      16382
              dotProdVal0 = _mm256_fmadd_ps(a0Val, b0Val, dotProdVal0);
    
      16382
              dotProdVal1 = _mm256_fmadd_ps(a1Val, b1Val, dotProdVal1);
    
      16382
              dotProdVal2 = _mm256_fmadd_ps(a2Val, b2Val, dotProdVal2);
    
      16382
              dotProdVal3 = _mm256_fmadd_ps(a3Val, b3Val, dotProdVal3);
    
      16382
              aPtr += 16;
    
      16382
              bPtr += 32;
    
          }
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal1);
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal2);
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal3);
    
          __VOLK_ATTR_ALIGNED(32) float dotProductVector[8];
    
          _mm256_store_ps(dotProductVector,
    
                          dotProdVal0); // Store the results back into the dot product vector
    
      2
          returnValue += lv_cmake(dotProductVector[0], dotProductVector[1]);
    
      2
          returnValue += lv_cmake(dotProductVector[2], dotProductVector[3]);
    
      2
          returnValue += lv_cmake(dotProductVector[4], dotProductVector[5]);
    
      2
          returnValue += lv_cmake(dotProductVector[6], dotProductVector[7]);
    
      2
          number = sixteenthPoints * 16;
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (; number < num_points; number++) {
    
      30
              returnValue += lv_cmake(aPtr[0] * bPtr[0], aPtr[0] * bPtr[1]);
    
      30
              aPtr += 1;
    
      30
              bPtr += 2;
    
          }
    
      2
          *result = returnValue;
    
      2
      }
    
      #endif /*LV_HAVE_AVX2 && lV_HAVE_FMA*/
    
      #ifdef LV_HAVE_AVX2
    
      2
      static inline void volk_16i_32fc_dot_prod_32fc_u_avx2(lv_32fc_t* result,
    
                                                            const short* input,
    
                                                            const lv_32fc_t* taps,
    
                                                            unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          lv_32fc_t returnValue = lv_cmake(0.0f, 0.0f);
    
      2
          const short* aPtr = input;
    
      2
          const float* bPtr = (float*)taps;
    
          __m128i m0, m1;
    
          __m256i f0, f1;
    
          __m256 g0, g1, h0, h1, h2, h3;
    
          __m256 a0Val, a1Val, a2Val, a3Val;
    
          __m256 b0Val, b1Val, b2Val, b3Val;
    
          __m256 c0Val, c1Val, c2Val, c3Val;
    
      2
          __m256 dotProdVal0 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal1 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal2 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal3 = _mm256_setzero_ps();
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (; number < sixteenthPoints; number++) {
    
      16382
              m0 = _mm_loadu_si128((__m128i const*)aPtr);
    
      32764
              m1 = _mm_loadu_si128((__m128i const*)(aPtr + 8));
    
      16382
              f0 = _mm256_cvtepi16_epi32(m0);
    
      16382
              g0 = _mm256_cvtepi32_ps(f0);
    
      16382
              f1 = _mm256_cvtepi16_epi32(m1);
    
      16382
              g1 = _mm256_cvtepi32_ps(f1);
    
      16382
              h0 = _mm256_unpacklo_ps(g0, g0);
    
      16382
              h1 = _mm256_unpackhi_ps(g0, g0);
    
      16382
              h2 = _mm256_unpacklo_ps(g1, g1);
    
      16382
              h3 = _mm256_unpackhi_ps(g1, g1);
    
      16382
              a0Val = _mm256_permute2f128_ps(h0, h1, 0x20);
    
      16382
              a1Val = _mm256_permute2f128_ps(h0, h1, 0x31);
    
      16382
              a2Val = _mm256_permute2f128_ps(h2, h3, 0x20);
    
      16382
              a3Val = _mm256_permute2f128_ps(h2, h3, 0x31);
    
      16382
              b0Val = _mm256_loadu_ps(bPtr);
    
      16382
              b1Val = _mm256_loadu_ps(bPtr + 8);
    
      16382
              b2Val = _mm256_loadu_ps(bPtr + 16);
    
      32764
              b3Val = _mm256_loadu_ps(bPtr + 24);
    
      16382
              c0Val = _mm256_mul_ps(a0Val, b0Val);
    
      16382
              c1Val = _mm256_mul_ps(a1Val, b1Val);
    
      16382
              c2Val = _mm256_mul_ps(a2Val, b2Val);
    
      16382
              c3Val = _mm256_mul_ps(a3Val, b3Val);
    
      16382
              dotProdVal0 = _mm256_add_ps(c0Val, dotProdVal0);
    
      16382
              dotProdVal1 = _mm256_add_ps(c1Val, dotProdVal1);
    
      16382
              dotProdVal2 = _mm256_add_ps(c2Val, dotProdVal2);
    
      16382
              dotProdVal3 = _mm256_add_ps(c3Val, dotProdVal3);
    
      16382
              aPtr += 16;
    
      16382
              bPtr += 32;
    
          }
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal1);
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal2);
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal3);
    
          __VOLK_ATTR_ALIGNED(32) float dotProductVector[8];
    
          _mm256_store_ps(dotProductVector,
    
                          dotProdVal0); // Store the results back into the dot product vector
    
      2
          returnValue += lv_cmake(dotProductVector[0], dotProductVector[1]);
    
      2
          returnValue += lv_cmake(dotProductVector[2], dotProductVector[3]);
    
      2
          returnValue += lv_cmake(dotProductVector[4], dotProductVector[5]);
    
      2
          returnValue += lv_cmake(dotProductVector[6], dotProductVector[7]);
    
      2
          number = sixteenthPoints * 16;
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (; number < num_points; number++) {
    
      30
              returnValue += lv_cmake(aPtr[0] * bPtr[0], aPtr[0] * bPtr[1]);
    
      30
              aPtr += 1;
    
      30
              bPtr += 2;
    
          }
    
      2
          *result = returnValue;
    
      2
      }
    
      #endif /*LV_HAVE_AVX2*/
    
      #if LV_HAVE_SSE && LV_HAVE_MMX
    
      2
      static inline void volk_16i_32fc_dot_prod_32fc_a_sse(lv_32fc_t* result,
    
                                                           const short* input,
    
                                                           const lv_32fc_t* taps,
    
                                                           unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int eighthPoints = num_points / 8;
    
      2
          lv_32fc_t returnValue = lv_cmake(0.0f, 0.0f);
    
      2
          const short* aPtr = input;
    
      2
          const float* bPtr = (float*)taps;
    
          __m64 m0, m1;
    
          __m128 f0, f1, f2, f3;
    
          __m128 a0Val, a1Val, a2Val, a3Val;
    
          __m128 b0Val, b1Val, b2Val, b3Val;
    
          __m128 c0Val, c1Val, c2Val, c3Val;
    
      2
          __m128 dotProdVal0 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal1 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal2 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal3 = _mm_setzero_ps();
    
        2/2✓ Branch 0 taken 32766 times.
✓ Branch 1 taken 2 times.

      32768
          for (; number < eighthPoints; number++) {
    
      32766
              m0 = _mm_set_pi16(*(aPtr + 3), *(aPtr + 2), *(aPtr + 1), *(aPtr + 0));
    
      65532
              m1 = _mm_set_pi16(*(aPtr + 7), *(aPtr + 6), *(aPtr + 5), *(aPtr + 4));
    
      32766
              f0 = _mm_cvtpi16_ps(m0);
    
      32766
              f1 = _mm_cvtpi16_ps(m0);
    
      32766
              f2 = _mm_cvtpi16_ps(m1);
    
      32766
              f3 = _mm_cvtpi16_ps(m1);
    
      32766
              a0Val = _mm_unpacklo_ps(f0, f1);
    
      32766
              a1Val = _mm_unpackhi_ps(f0, f1);
    
      32766
              a2Val = _mm_unpacklo_ps(f2, f3);
    
      32766
              a3Val = _mm_unpackhi_ps(f2, f3);
    
      32766
              b0Val = _mm_load_ps(bPtr);
    
      32766
              b1Val = _mm_load_ps(bPtr + 4);
    
      32766
              b2Val = _mm_load_ps(bPtr + 8);
    
      65532
              b3Val = _mm_load_ps(bPtr + 12);
    
      32766
              c0Val = _mm_mul_ps(a0Val, b0Val);
    
      32766
              c1Val = _mm_mul_ps(a1Val, b1Val);
    
      32766
              c2Val = _mm_mul_ps(a2Val, b2Val);
    
      32766
              c3Val = _mm_mul_ps(a3Val, b3Val);
    
      32766
              dotProdVal0 = _mm_add_ps(c0Val, dotProdVal0);
    
      32766
              dotProdVal1 = _mm_add_ps(c1Val, dotProdVal1);
    
      32766
              dotProdVal2 = _mm_add_ps(c2Val, dotProdVal2);
    
      32766
              dotProdVal3 = _mm_add_ps(c3Val, dotProdVal3);
    
      32766
              aPtr += 8;
    
      32766
              bPtr += 16;
    
          }
    
          _mm_empty(); // clear the mmx technology state
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal1);
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal2);
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal3);
    
          __VOLK_ATTR_ALIGNED(16) float dotProductVector[4];
    
          _mm_store_ps(dotProductVector,
    
                       dotProdVal0); // Store the results back into the dot product vector
    
      2
          returnValue += lv_cmake(dotProductVector[0], dotProductVector[1]);
    
      2
          returnValue += lv_cmake(dotProductVector[2], dotProductVector[3]);
    
      2
          number = eighthPoints * 8;
    
        2/2✓ Branch 0 taken 14 times.
✓ Branch 1 taken 2 times.

      16
          for (; number < num_points; number++) {
    
      14
              returnValue += lv_cmake(aPtr[0] * bPtr[0], aPtr[0] * bPtr[1]);
    
      14
              aPtr += 1;
    
      14
              bPtr += 2;
    
          }
    
      2
          *result = returnValue;
    
      2
      }
    
      #endif /*LV_HAVE_SSE && LV_HAVE_MMX*/
    
      #ifdef LV_HAVE_AVX2
    
      2
      static inline void volk_16i_32fc_dot_prod_32fc_a_avx2(lv_32fc_t* result,
    
                                                            const short* input,
    
                                                            const lv_32fc_t* taps,
    
                                                            unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          lv_32fc_t returnValue = lv_cmake(0.0f, 0.0f);
    
      2
          const short* aPtr = input;
    
      2
          const float* bPtr = (float*)taps;
    
          __m128i m0, m1;
    
          __m256i f0, f1;
    
          __m256 g0, g1, h0, h1, h2, h3;
    
          __m256 a0Val, a1Val, a2Val, a3Val;
    
          __m256 b0Val, b1Val, b2Val, b3Val;
    
          __m256 c0Val, c1Val, c2Val, c3Val;
    
      2
          __m256 dotProdVal0 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal1 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal2 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal3 = _mm256_setzero_ps();
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (; number < sixteenthPoints; number++) {
    
      16382
              m0 = _mm_load_si128((__m128i const*)aPtr);
    
      32764
              m1 = _mm_load_si128((__m128i const*)(aPtr + 8));
    
      16382
              f0 = _mm256_cvtepi16_epi32(m0);
    
      16382
              g0 = _mm256_cvtepi32_ps(f0);
    
      16382
              f1 = _mm256_cvtepi16_epi32(m1);
    
      16382
              g1 = _mm256_cvtepi32_ps(f1);
    
      16382
              h0 = _mm256_unpacklo_ps(g0, g0);
    
      16382
              h1 = _mm256_unpackhi_ps(g0, g0);
    
      16382
              h2 = _mm256_unpacklo_ps(g1, g1);
    
      16382
              h3 = _mm256_unpackhi_ps(g1, g1);
    
      16382
              a0Val = _mm256_permute2f128_ps(h0, h1, 0x20);
    
      16382
              a1Val = _mm256_permute2f128_ps(h0, h1, 0x31);
    
      16382
              a2Val = _mm256_permute2f128_ps(h2, h3, 0x20);
    
      16382
              a3Val = _mm256_permute2f128_ps(h2, h3, 0x31);
    
      16382
              b0Val = _mm256_load_ps(bPtr);
    
      16382
              b1Val = _mm256_load_ps(bPtr + 8);
    
      16382
              b2Val = _mm256_load_ps(bPtr + 16);
    
      32764
              b3Val = _mm256_load_ps(bPtr + 24);
    
      16382
              c0Val = _mm256_mul_ps(a0Val, b0Val);
    
      16382
              c1Val = _mm256_mul_ps(a1Val, b1Val);
    
      16382
              c2Val = _mm256_mul_ps(a2Val, b2Val);
    
      16382
              c3Val = _mm256_mul_ps(a3Val, b3Val);
    
      16382
              dotProdVal0 = _mm256_add_ps(c0Val, dotProdVal0);
    
      16382
              dotProdVal1 = _mm256_add_ps(c1Val, dotProdVal1);
    
      16382
              dotProdVal2 = _mm256_add_ps(c2Val, dotProdVal2);
    
      16382
              dotProdVal3 = _mm256_add_ps(c3Val, dotProdVal3);
    
      16382
              aPtr += 16;
    
      16382
              bPtr += 32;
    
          }
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal1);
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal2);
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal3);
    
          __VOLK_ATTR_ALIGNED(32) float dotProductVector[8];
    
          _mm256_store_ps(dotProductVector,
    
                          dotProdVal0); // Store the results back into the dot product vector
    
      2
          returnValue += lv_cmake(dotProductVector[0], dotProductVector[1]);
    
      2
          returnValue += lv_cmake(dotProductVector[2], dotProductVector[3]);
    
      2
          returnValue += lv_cmake(dotProductVector[4], dotProductVector[5]);
    
      2
          returnValue += lv_cmake(dotProductVector[6], dotProductVector[7]);
    
      2
          number = sixteenthPoints * 16;
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (; number < num_points; number++) {
    
      30
              returnValue += lv_cmake(aPtr[0] * bPtr[0], aPtr[0] * bPtr[1]);
    
      30
              aPtr += 1;
    
      30
              bPtr += 2;
    
          }
    
      2
          *result = returnValue;
    
      2
      }
    
      #endif /*LV_HAVE_AVX2*/
    
      #if LV_HAVE_AVX2 && LV_HAVE_FMA
    
      2
      static inline void volk_16i_32fc_dot_prod_32fc_a_avx2_fma(lv_32fc_t* result,
    
                                                                const short* input,
    
                                                                const lv_32fc_t* taps,
    
                                                                unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          lv_32fc_t returnValue = lv_cmake(0.0f, 0.0f);
    
      2
          const short* aPtr = input;
    
      2
          const float* bPtr = (float*)taps;
    
          __m128i m0, m1;
    
          __m256i f0, f1;
    
          __m256 g0, g1, h0, h1, h2, h3;
    
          __m256 a0Val, a1Val, a2Val, a3Val;
    
          __m256 b0Val, b1Val, b2Val, b3Val;
    
      2
          __m256 dotProdVal0 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal1 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal2 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal3 = _mm256_setzero_ps();
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (; number < sixteenthPoints; number++) {
    
      16382
              m0 = _mm_load_si128((__m128i const*)aPtr);
    
      32764
              m1 = _mm_load_si128((__m128i const*)(aPtr + 8));
    
      16382
              f0 = _mm256_cvtepi16_epi32(m0);
    
      16382
              g0 = _mm256_cvtepi32_ps(f0);
    
      16382
              f1 = _mm256_cvtepi16_epi32(m1);
    
      16382
              g1 = _mm256_cvtepi32_ps(f1);
    
      16382
              h0 = _mm256_unpacklo_ps(g0, g0);
    
      16382
              h1 = _mm256_unpackhi_ps(g0, g0);
    
      16382
              h2 = _mm256_unpacklo_ps(g1, g1);
    
      16382
              h3 = _mm256_unpackhi_ps(g1, g1);
    
      16382
              a0Val = _mm256_permute2f128_ps(h0, h1, 0x20);
    
      16382
              a1Val = _mm256_permute2f128_ps(h0, h1, 0x31);
    
      16382
              a2Val = _mm256_permute2f128_ps(h2, h3, 0x20);
    
      16382
              a3Val = _mm256_permute2f128_ps(h2, h3, 0x31);
    
      16382
              b0Val = _mm256_load_ps(bPtr);
    
      16382
              b1Val = _mm256_load_ps(bPtr + 8);
    
      16382
              b2Val = _mm256_load_ps(bPtr + 16);
    
      32764
              b3Val = _mm256_load_ps(bPtr + 24);
    
      16382
              dotProdVal0 = _mm256_fmadd_ps(a0Val, b0Val, dotProdVal0);
    
      16382
              dotProdVal1 = _mm256_fmadd_ps(a1Val, b1Val, dotProdVal1);
    
      16382
              dotProdVal2 = _mm256_fmadd_ps(a2Val, b2Val, dotProdVal2);
    
      16382
              dotProdVal3 = _mm256_fmadd_ps(a3Val, b3Val, dotProdVal3);
    
      16382
              aPtr += 16;
    
      16382
              bPtr += 32;
    
          }
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal1);
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal2);
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal3);
    
          __VOLK_ATTR_ALIGNED(32) float dotProductVector[8];
    
          _mm256_store_ps(dotProductVector,
    
                          dotProdVal0); // Store the results back into the dot product vector
    
      2
          returnValue += lv_cmake(dotProductVector[0], dotProductVector[1]);
    
      2
          returnValue += lv_cmake(dotProductVector[2], dotProductVector[3]);
    
      2
          returnValue += lv_cmake(dotProductVector[4], dotProductVector[5]);
    
      2
          returnValue += lv_cmake(dotProductVector[6], dotProductVector[7]);
    
      2
          number = sixteenthPoints * 16;
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (; number < num_points; number++) {
    
      30
              returnValue += lv_cmake(aPtr[0] * bPtr[0], aPtr[0] * bPtr[1]);
    
      30
              aPtr += 1;
    
      30
              bPtr += 2;
    
          }
    
      2
          *result = returnValue;
    
      2
      }
    
      #endif /*LV_HAVE_AVX2 && LV_HAVE_FMA*/
    
      #endif /*INCLUDED_volk_16i_32fc_dot_prod_32fc_H*/