GCC Code Coverage Report

Directory:	./
File:	kernels/volk/volk_32f_x2_dot_prod_32f.h
Date:	2023-10-23 23:10:04
	Exec	Total	Coverage
Lines:	366	408	89.7%
Functions:	12	14	85.7%
Branches:	44	52	84.6%
  
      Line
      Branch
      Exec
      Source
    
      /* -*- c++ -*- */
    
      /*
    
       * Copyright 2012, 2014 Free Software Foundation, Inc.
    
       *
    
       * This file is part of VOLK
    
       *
    
       * SPDX-License-Identifier: LGPL-3.0-or-later
    
       */
    
      /*!
    
       * \page volk_32f_x2_dot_prod_32f
    
       *
    
       * \b Overview
    
       *
    
       * This block computes the dot product (or inner product) between two
    
       * vectors, the \p input and \p taps vectors. Given a set of \p
    
       * num_points taps, the result is the sum of products between the two
    
       * vectors. The result is a single value stored in the \p result
    
       * address and is returned as a float.
    
       *
    
       * <b>Dispatcher Prototype</b>
    
       * \code
    
       * void volk_32f_x2_dot_prod_32f(float* result, const float* input, const float* taps,
    
       * unsigned int num_points) \endcode
    
       *
    
       * \b Inputs
    
       * \li input: vector of floats.
    
       * \li taps:  float taps.
    
       * \li num_points: number of samples in both \p input and \p taps.
    
       *
    
       * \b Outputs
    
       * \li result: pointer to a float value to hold the dot product result.
    
       *
    
       * \b Example
    
       * Take the dot product of an increasing vector and a vector of ones. The result is the
    
       * sum of integers (0,9). \code int N = 10; unsigned int alignment = volk_get_alignment();
    
       *   float* increasing = (float*)volk_malloc(sizeof(float)*N, alignment);
    
       *   float* ones = (float*)volk_malloc(sizeof(float)*N, alignment);
    
       *   float* out = (float*)volk_malloc(sizeof(float)*1, alignment);
    
       *
    
       *   for(unsigned int ii = 0; ii < N; ++ii){
    
       *       increasing[ii] = (float)ii;
    
       *       ones[ii] = 1.f;
    
       *   }
    
       *
    
       *   volk_32f_x2_dot_prod_32f(out, increasing, ones, N);
    
       *
    
       *   printf("out = %1.2f\n", *out);
    
       *
    
       *   volk_free(increasing);
    
       *   volk_free(ones);
    
       *   volk_free(out);
    
       *
    
       *   return 0;
    
       * \endcode
    
       */
    
      #ifndef INCLUDED_volk_32f_x2_dot_prod_32f_u_H
    
      #define INCLUDED_volk_32f_x2_dot_prod_32f_u_H
    
      #include <stdio.h>
    
      #include <volk/volk_common.h>
    
      #ifdef LV_HAVE_GENERIC
    
      2
      static inline void volk_32f_x2_dot_prod_32f_generic(float* result,
    
                                                          const float* input,
    
                                                          const float* taps,
    
                                                          unsigned int num_points)
    
      {
    
      2
          float dotProduct = 0;
    
      2
          const float* aPtr = input;
    
      2
          const float* bPtr = taps;
    
      2
          unsigned int number = 0;
    
        2/2✓ Branch 0 taken 262142 times.
✓ Branch 1 taken 2 times.

      262144
          for (number = 0; number < num_points; number++) {
    
      262142
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      2
          *result = dotProduct;
    
      2
      }
    
      #endif /*LV_HAVE_GENERIC*/
    
      #ifdef LV_HAVE_SSE
    
      2
      static inline void volk_32f_x2_dot_prod_32f_u_sse(float* result,
    
                                                        const float* input,
    
                                                        const float* taps,
    
                                                        unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          float dotProduct = 0;
    
      2
          const float* aPtr = input;
    
      2
          const float* bPtr = taps;
    
          __m128 a0Val, a1Val, a2Val, a3Val;
    
          __m128 b0Val, b1Val, b2Val, b3Val;
    
          __m128 c0Val, c1Val, c2Val, c3Val;
    
      2
          __m128 dotProdVal0 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal1 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal2 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal3 = _mm_setzero_ps();
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (; number < sixteenthPoints; number++) {
    
      16382
              a0Val = _mm_loadu_ps(aPtr);
    
      16382
              a1Val = _mm_loadu_ps(aPtr + 4);
    
      16382
              a2Val = _mm_loadu_ps(aPtr + 8);
    
      32764
              a3Val = _mm_loadu_ps(aPtr + 12);
    
      16382
              b0Val = _mm_loadu_ps(bPtr);
    
      16382
              b1Val = _mm_loadu_ps(bPtr + 4);
    
      16382
              b2Val = _mm_loadu_ps(bPtr + 8);
    
      32764
              b3Val = _mm_loadu_ps(bPtr + 12);
    
      16382
              c0Val = _mm_mul_ps(a0Val, b0Val);
    
      16382
              c1Val = _mm_mul_ps(a1Val, b1Val);
    
      16382
              c2Val = _mm_mul_ps(a2Val, b2Val);
    
      16382
              c3Val = _mm_mul_ps(a3Val, b3Val);
    
      16382
              dotProdVal0 = _mm_add_ps(c0Val, dotProdVal0);
    
      16382
              dotProdVal1 = _mm_add_ps(c1Val, dotProdVal1);
    
      16382
              dotProdVal2 = _mm_add_ps(c2Val, dotProdVal2);
    
      16382
              dotProdVal3 = _mm_add_ps(c3Val, dotProdVal3);
    
      16382
              aPtr += 16;
    
      16382
              bPtr += 16;
    
          }
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal1);
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal2);
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal3);
    
          __VOLK_ATTR_ALIGNED(16) float dotProductVector[4];
    
          _mm_store_ps(dotProductVector,
    
                       dotProdVal0); // Store the results back into the dot product vector
    
      2
          dotProduct = dotProductVector[0];
    
      2
          dotProduct += dotProductVector[1];
    
      2
          dotProduct += dotProductVector[2];
    
      2
          dotProduct += dotProductVector[3];
    
      2
          number = sixteenthPoints * 16;
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (; number < num_points; number++) {
    
      30
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      2
          *result = dotProduct;
    
      2
      }
    
      #endif /*LV_HAVE_SSE*/
    
      #ifdef LV_HAVE_SSE3
    
      #include <pmmintrin.h>
    
      2
      static inline void volk_32f_x2_dot_prod_32f_u_sse3(float* result,
    
                                                         const float* input,
    
                                                         const float* taps,
    
                                                         unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          float dotProduct = 0;
    
      2
          const float* aPtr = input;
    
      2
          const float* bPtr = taps;
    
          __m128 a0Val, a1Val, a2Val, a3Val;
    
          __m128 b0Val, b1Val, b2Val, b3Val;
    
          __m128 c0Val, c1Val, c2Val, c3Val;
    
      2
          __m128 dotProdVal0 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal1 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal2 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal3 = _mm_setzero_ps();
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (; number < sixteenthPoints; number++) {
    
      16382
              a0Val = _mm_loadu_ps(aPtr);
    
      16382
              a1Val = _mm_loadu_ps(aPtr + 4);
    
      16382
              a2Val = _mm_loadu_ps(aPtr + 8);
    
      32764
              a3Val = _mm_loadu_ps(aPtr + 12);
    
      16382
              b0Val = _mm_loadu_ps(bPtr);
    
      16382
              b1Val = _mm_loadu_ps(bPtr + 4);
    
      16382
              b2Val = _mm_loadu_ps(bPtr + 8);
    
      32764
              b3Val = _mm_loadu_ps(bPtr + 12);
    
      16382
              c0Val = _mm_mul_ps(a0Val, b0Val);
    
      16382
              c1Val = _mm_mul_ps(a1Val, b1Val);
    
      16382
              c2Val = _mm_mul_ps(a2Val, b2Val);
    
      16382
              c3Val = _mm_mul_ps(a3Val, b3Val);
    
      16382
              dotProdVal0 = _mm_add_ps(dotProdVal0, c0Val);
    
      16382
              dotProdVal1 = _mm_add_ps(dotProdVal1, c1Val);
    
      16382
              dotProdVal2 = _mm_add_ps(dotProdVal2, c2Val);
    
      16382
              dotProdVal3 = _mm_add_ps(dotProdVal3, c3Val);
    
      16382
              aPtr += 16;
    
      16382
              bPtr += 16;
    
          }
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal1);
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal2);
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal3);
    
          __VOLK_ATTR_ALIGNED(16) float dotProductVector[4];
    
          _mm_store_ps(dotProductVector,
    
                       dotProdVal0); // Store the results back into the dot product vector
    
      2
          dotProduct = dotProductVector[0];
    
      2
          dotProduct += dotProductVector[1];
    
      2
          dotProduct += dotProductVector[2];
    
      2
          dotProduct += dotProductVector[3];
    
      2
          number = sixteenthPoints * 16;
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (; number < num_points; number++) {
    
      30
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      2
          *result = dotProduct;
    
      2
      }
    
      #endif /*LV_HAVE_SSE3*/
    
      #ifdef LV_HAVE_SSE4_1
    
      #include <smmintrin.h>
    
      2
      static inline void volk_32f_x2_dot_prod_32f_u_sse4_1(float* result,
    
                                                           const float* input,
    
                                                           const float* taps,
    
                                                           unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          float dotProduct = 0;
    
      2
          const float* aPtr = input;
    
      2
          const float* bPtr = taps;
    
          __m128 aVal1, bVal1, cVal1;
    
          __m128 aVal2, bVal2, cVal2;
    
          __m128 aVal3, bVal3, cVal3;
    
          __m128 aVal4, bVal4, cVal4;
    
      2
          __m128 dotProdVal = _mm_setzero_ps();
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (; number < sixteenthPoints; number++) {
    
      16382
              aVal1 = _mm_loadu_ps(aPtr);
    
      16382
              aPtr += 4;
    
      16382
              aVal2 = _mm_loadu_ps(aPtr);
    
      16382
              aPtr += 4;
    
      16382
              aVal3 = _mm_loadu_ps(aPtr);
    
      16382
              aPtr += 4;
    
      16382
              aVal4 = _mm_loadu_ps(aPtr);
    
      16382
              aPtr += 4;
    
      16382
              bVal1 = _mm_loadu_ps(bPtr);
    
      16382
              bPtr += 4;
    
      16382
              bVal2 = _mm_loadu_ps(bPtr);
    
      16382
              bPtr += 4;
    
      16382
              bVal3 = _mm_loadu_ps(bPtr);
    
      16382
              bPtr += 4;
    
      16382
              bVal4 = _mm_loadu_ps(bPtr);
    
      16382
              bPtr += 4;
    
      16382
              cVal1 = _mm_dp_ps(aVal1, bVal1, 0xF1);
    
      16382
              cVal2 = _mm_dp_ps(aVal2, bVal2, 0xF2);
    
      16382
              cVal3 = _mm_dp_ps(aVal3, bVal3, 0xF4);
    
      16382
              cVal4 = _mm_dp_ps(aVal4, bVal4, 0xF8);
    
      16382
              cVal1 = _mm_or_ps(cVal1, cVal2);
    
      16382
              cVal3 = _mm_or_ps(cVal3, cVal4);
    
      16382
              cVal1 = _mm_or_ps(cVal1, cVal3);
    
      16382
              dotProdVal = _mm_add_ps(dotProdVal, cVal1);
    
          }
    
          __VOLK_ATTR_ALIGNED(16) float dotProductVector[4];
    
          _mm_store_ps(dotProductVector,
    
                       dotProdVal); // Store the results back into the dot product vector
    
      2
          dotProduct = dotProductVector[0];
    
      2
          dotProduct += dotProductVector[1];
    
      2
          dotProduct += dotProductVector[2];
    
      2
          dotProduct += dotProductVector[3];
    
      2
          number = sixteenthPoints * 16;
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (; number < num_points; number++) {
    
      30
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      2
          *result = dotProduct;
    
      2
      }
    
      #endif /*LV_HAVE_SSE4_1*/
    
      #ifdef LV_HAVE_AVX
    
      #include <immintrin.h>
    
      2
      static inline void volk_32f_x2_dot_prod_32f_u_avx(float* result,
    
                                                        const float* input,
    
                                                        const float* taps,
    
                                                        unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          float dotProduct = 0;
    
      2
          const float* aPtr = input;
    
      2
          const float* bPtr = taps;
    
          __m256 a0Val, a1Val;
    
          __m256 b0Val, b1Val;
    
          __m256 c0Val, c1Val;
    
      2
          __m256 dotProdVal0 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal1 = _mm256_setzero_ps();
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (; number < sixteenthPoints; number++) {
    
      16382
              a0Val = _mm256_loadu_ps(aPtr);
    
      32764
              a1Val = _mm256_loadu_ps(aPtr + 8);
    
      16382
              b0Val = _mm256_loadu_ps(bPtr);
    
      32764
              b1Val = _mm256_loadu_ps(bPtr + 8);
    
      16382
              c0Val = _mm256_mul_ps(a0Val, b0Val);
    
      16382
              c1Val = _mm256_mul_ps(a1Val, b1Val);
    
      16382
              dotProdVal0 = _mm256_add_ps(c0Val, dotProdVal0);
    
      16382
              dotProdVal1 = _mm256_add_ps(c1Val, dotProdVal1);
    
      16382
              aPtr += 16;
    
      16382
              bPtr += 16;
    
          }
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal1);
    
          __VOLK_ATTR_ALIGNED(32) float dotProductVector[8];
    
          _mm256_storeu_ps(dotProductVector,
    
                           dotProdVal0); // Store the results back into the dot product vector
    
      2
          dotProduct = dotProductVector[0];
    
      2
          dotProduct += dotProductVector[1];
    
      2
          dotProduct += dotProductVector[2];
    
      2
          dotProduct += dotProductVector[3];
    
      2
          dotProduct += dotProductVector[4];
    
      2
          dotProduct += dotProductVector[5];
    
      2
          dotProduct += dotProductVector[6];
    
      2
          dotProduct += dotProductVector[7];
    
      2
          number = sixteenthPoints * 16;
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (; number < num_points; number++) {
    
      30
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      2
          *result = dotProduct;
    
      2
      }
    
      #endif /*LV_HAVE_AVX*/
    
      #if LV_HAVE_AVX2 && LV_HAVE_FMA
    
      #include <immintrin.h>
    
      2
      static inline void volk_32f_x2_dot_prod_32f_u_avx2_fma(float* result,
    
                                                             const float* input,
    
                                                             const float* taps,
    
                                                             unsigned int num_points)
    
      {
    
          unsigned int number;
    
      2
          const unsigned int eighthPoints = num_points / 8;
    
      2
          const float* aPtr = input;
    
      2
          const float* bPtr = taps;
    
      2
          __m256 dotProdVal = _mm256_setzero_ps();
    
          __m256 aVal1, bVal1;
    
        2/2✓ Branch 0 taken 32766 times.
✓ Branch 1 taken 2 times.

      32768
          for (number = 0; number < eighthPoints; number++) {
    
      32766
              aVal1 = _mm256_loadu_ps(aPtr);
    
      32766
              bVal1 = _mm256_loadu_ps(bPtr);
    
      32766
              aPtr += 8;
    
      32766
              bPtr += 8;
    
      32766
              dotProdVal = _mm256_fmadd_ps(aVal1, bVal1, dotProdVal);
    
          }
    
          __VOLK_ATTR_ALIGNED(32) float dotProductVector[8];
    
          _mm256_storeu_ps(dotProductVector,
    
                           dotProdVal); // Store the results back into the dot product vector
    
      2
          float dotProduct = dotProductVector[0] + dotProductVector[1] + dotProductVector[2] +
    
      2
                             dotProductVector[3] + dotProductVector[4] + dotProductVector[5] +
    
      2
                             dotProductVector[6] + dotProductVector[7];
    
        2/2✓ Branch 0 taken 14 times.
✓ Branch 1 taken 2 times.

      16
          for (number = eighthPoints * 8; number < num_points; number++) {
    
      14
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      2
          *result = dotProduct;
    
      2
      }
    
      #endif /* LV_HAVE_AVX2 && LV_HAVE_FMA */
    
      #if LV_HAVE_AVX512F
    
      #include <immintrin.h>
    
      ✗
      static inline void volk_32f_x2_dot_prod_32f_u_avx512f(float* result,
    
                                                            const float* input,
    
                                                            const float* taps,
    
                                                            unsigned int num_points)
    
      {
    
          unsigned int number;
    
      ✗
          const unsigned int sixteenthPoints = num_points / 16;
    
      ✗
          const float* aPtr = input;
    
      ✗
          const float* bPtr = taps;
    
      ✗
          __m512 dotProdVal = _mm512_setzero_ps();
    
          __m512 aVal1, bVal1;
    
      ✗
          for (number = 0; number < sixteenthPoints; number++) {
    
      ✗
              aVal1 = _mm512_loadu_ps(aPtr);
    
      ✗
              bVal1 = _mm512_loadu_ps(bPtr);
    
      ✗
              aPtr += 16;
    
      ✗
              bPtr += 16;
    
      ✗
              dotProdVal = _mm512_fmadd_ps(aVal1, bVal1, dotProdVal);
    
          }
    
          __VOLK_ATTR_ALIGNED(64) float dotProductVector[16];
    
          _mm512_storeu_ps(dotProductVector,
    
                           dotProdVal); // Store the results back into the dot product vector
    
      ✗
          float dotProduct = dotProductVector[0] + dotProductVector[1] + dotProductVector[2] +
    
      ✗
                             dotProductVector[3] + dotProductVector[4] + dotProductVector[5] +
    
      ✗
                             dotProductVector[6] + dotProductVector[7] + dotProductVector[8] +
    
      ✗
                             dotProductVector[9] + dotProductVector[10] + dotProductVector[11] +
    
      ✗
                             dotProductVector[12] + dotProductVector[13] +
    
      ✗
                             dotProductVector[14] + dotProductVector[15];
    
      ✗
          for (number = sixteenthPoints * 16; number < num_points; number++) {
    
      ✗
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      ✗
          *result = dotProduct;
    
      ✗
      }
    
      #endif /* LV_HAVE_AVX512F */
    
      #endif /*INCLUDED_volk_32f_x2_dot_prod_32f_u_H*/
    
      #ifndef INCLUDED_volk_32f_x2_dot_prod_32f_a_H
    
      #define INCLUDED_volk_32f_x2_dot_prod_32f_a_H
    
      #include <stdio.h>
    
      #include <volk/volk_common.h>
    
      #ifdef LV_HAVE_GENERIC
    
      2
      static inline void volk_32f_x2_dot_prod_32f_a_generic(float* result,
    
                                                            const float* input,
    
                                                            const float* taps,
    
                                                            unsigned int num_points)
    
      {
    
      2
          float dotProduct = 0;
    
      2
          const float* aPtr = input;
    
      2
          const float* bPtr = taps;
    
      2
          unsigned int number = 0;
    
        2/2✓ Branch 0 taken 262142 times.
✓ Branch 1 taken 2 times.

      262144
          for (number = 0; number < num_points; number++) {
    
      262142
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      2
          *result = dotProduct;
    
      2
      }
    
      #endif /*LV_HAVE_GENERIC*/
    
      #ifdef LV_HAVE_SSE
    
      2
      static inline void volk_32f_x2_dot_prod_32f_a_sse(float* result,
    
                                                        const float* input,
    
                                                        const float* taps,
    
                                                        unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          float dotProduct = 0;
    
      2
          const float* aPtr = input;
    
      2
          const float* bPtr = taps;
    
          __m128 a0Val, a1Val, a2Val, a3Val;
    
          __m128 b0Val, b1Val, b2Val, b3Val;
    
          __m128 c0Val, c1Val, c2Val, c3Val;
    
      2
          __m128 dotProdVal0 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal1 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal2 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal3 = _mm_setzero_ps();
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (; number < sixteenthPoints; number++) {
    
      16382
              a0Val = _mm_load_ps(aPtr);
    
      16382
              a1Val = _mm_load_ps(aPtr + 4);
    
      16382
              a2Val = _mm_load_ps(aPtr + 8);
    
      32764
              a3Val = _mm_load_ps(aPtr + 12);
    
      16382
              b0Val = _mm_load_ps(bPtr);
    
      16382
              b1Val = _mm_load_ps(bPtr + 4);
    
      16382
              b2Val = _mm_load_ps(bPtr + 8);
    
      32764
              b3Val = _mm_load_ps(bPtr + 12);
    
      16382
              c0Val = _mm_mul_ps(a0Val, b0Val);
    
      16382
              c1Val = _mm_mul_ps(a1Val, b1Val);
    
      16382
              c2Val = _mm_mul_ps(a2Val, b2Val);
    
      16382
              c3Val = _mm_mul_ps(a3Val, b3Val);
    
      16382
              dotProdVal0 = _mm_add_ps(c0Val, dotProdVal0);
    
      16382
              dotProdVal1 = _mm_add_ps(c1Val, dotProdVal1);
    
      16382
              dotProdVal2 = _mm_add_ps(c2Val, dotProdVal2);
    
      16382
              dotProdVal3 = _mm_add_ps(c3Val, dotProdVal3);
    
      16382
              aPtr += 16;
    
      16382
              bPtr += 16;
    
          }
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal1);
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal2);
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal3);
    
          __VOLK_ATTR_ALIGNED(16) float dotProductVector[4];
    
          _mm_store_ps(dotProductVector,
    
                       dotProdVal0); // Store the results back into the dot product vector
    
      2
          dotProduct = dotProductVector[0];
    
      2
          dotProduct += dotProductVector[1];
    
      2
          dotProduct += dotProductVector[2];
    
      2
          dotProduct += dotProductVector[3];
    
      2
          number = sixteenthPoints * 16;
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (; number < num_points; number++) {
    
      30
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      2
          *result = dotProduct;
    
      2
      }
    
      #endif /*LV_HAVE_SSE*/
    
      #ifdef LV_HAVE_SSE3
    
      #include <pmmintrin.h>
    
      2
      static inline void volk_32f_x2_dot_prod_32f_a_sse3(float* result,
    
                                                         const float* input,
    
                                                         const float* taps,
    
                                                         unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          float dotProduct = 0;
    
      2
          const float* aPtr = input;
    
      2
          const float* bPtr = taps;
    
          __m128 a0Val, a1Val, a2Val, a3Val;
    
          __m128 b0Val, b1Val, b2Val, b3Val;
    
          __m128 c0Val, c1Val, c2Val, c3Val;
    
      2
          __m128 dotProdVal0 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal1 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal2 = _mm_setzero_ps();
    
      2
          __m128 dotProdVal3 = _mm_setzero_ps();
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (; number < sixteenthPoints; number++) {
    
      16382
              a0Val = _mm_load_ps(aPtr);
    
      16382
              a1Val = _mm_load_ps(aPtr + 4);
    
      16382
              a2Val = _mm_load_ps(aPtr + 8);
    
      32764
              a3Val = _mm_load_ps(aPtr + 12);
    
      16382
              b0Val = _mm_load_ps(bPtr);
    
      16382
              b1Val = _mm_load_ps(bPtr + 4);
    
      16382
              b2Val = _mm_load_ps(bPtr + 8);
    
      32764
              b3Val = _mm_load_ps(bPtr + 12);
    
      16382
              c0Val = _mm_mul_ps(a0Val, b0Val);
    
      16382
              c1Val = _mm_mul_ps(a1Val, b1Val);
    
      16382
              c2Val = _mm_mul_ps(a2Val, b2Val);
    
      16382
              c3Val = _mm_mul_ps(a3Val, b3Val);
    
      16382
              dotProdVal0 = _mm_add_ps(dotProdVal0, c0Val);
    
      16382
              dotProdVal1 = _mm_add_ps(dotProdVal1, c1Val);
    
      16382
              dotProdVal2 = _mm_add_ps(dotProdVal2, c2Val);
    
      16382
              dotProdVal3 = _mm_add_ps(dotProdVal3, c3Val);
    
      16382
              aPtr += 16;
    
      16382
              bPtr += 16;
    
          }
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal1);
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal2);
    
      2
          dotProdVal0 = _mm_add_ps(dotProdVal0, dotProdVal3);
    
          __VOLK_ATTR_ALIGNED(16) float dotProductVector[4];
    
          _mm_store_ps(dotProductVector,
    
                       dotProdVal0); // Store the results back into the dot product vector
    
      2
          dotProduct = dotProductVector[0];
    
      2
          dotProduct += dotProductVector[1];
    
      2
          dotProduct += dotProductVector[2];
    
      2
          dotProduct += dotProductVector[3];
    
      2
          number = sixteenthPoints * 16;
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (; number < num_points; number++) {
    
      30
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      2
          *result = dotProduct;
    
      2
      }
    
      #endif /*LV_HAVE_SSE3*/
    
      #ifdef LV_HAVE_SSE4_1
    
      #include <smmintrin.h>
    
      2
      static inline void volk_32f_x2_dot_prod_32f_a_sse4_1(float* result,
    
                                                           const float* input,
    
                                                           const float* taps,
    
                                                           unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          float dotProduct = 0;
    
      2
          const float* aPtr = input;
    
      2
          const float* bPtr = taps;
    
          __m128 aVal1, bVal1, cVal1;
    
          __m128 aVal2, bVal2, cVal2;
    
          __m128 aVal3, bVal3, cVal3;
    
          __m128 aVal4, bVal4, cVal4;
    
      2
          __m128 dotProdVal = _mm_setzero_ps();
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (; number < sixteenthPoints; number++) {
    
      16382
              aVal1 = _mm_load_ps(aPtr);
    
      16382
              aPtr += 4;
    
      16382
              aVal2 = _mm_load_ps(aPtr);
    
      16382
              aPtr += 4;
    
      16382
              aVal3 = _mm_load_ps(aPtr);
    
      16382
              aPtr += 4;
    
      16382
              aVal4 = _mm_load_ps(aPtr);
    
      16382
              aPtr += 4;
    
      16382
              bVal1 = _mm_load_ps(bPtr);
    
      16382
              bPtr += 4;
    
      16382
              bVal2 = _mm_load_ps(bPtr);
    
      16382
              bPtr += 4;
    
      16382
              bVal3 = _mm_load_ps(bPtr);
    
      16382
              bPtr += 4;
    
      16382
              bVal4 = _mm_load_ps(bPtr);
    
      16382
              bPtr += 4;
    
      16382
              cVal1 = _mm_dp_ps(aVal1, bVal1, 0xF1);
    
      16382
              cVal2 = _mm_dp_ps(aVal2, bVal2, 0xF2);
    
      16382
              cVal3 = _mm_dp_ps(aVal3, bVal3, 0xF4);
    
      16382
              cVal4 = _mm_dp_ps(aVal4, bVal4, 0xF8);
    
      16382
              cVal1 = _mm_or_ps(cVal1, cVal2);
    
      16382
              cVal3 = _mm_or_ps(cVal3, cVal4);
    
      16382
              cVal1 = _mm_or_ps(cVal1, cVal3);
    
      16382
              dotProdVal = _mm_add_ps(dotProdVal, cVal1);
    
          }
    
          __VOLK_ATTR_ALIGNED(16) float dotProductVector[4];
    
          _mm_store_ps(dotProductVector,
    
                       dotProdVal); // Store the results back into the dot product vector
    
      2
          dotProduct = dotProductVector[0];
    
      2
          dotProduct += dotProductVector[1];
    
      2
          dotProduct += dotProductVector[2];
    
      2
          dotProduct += dotProductVector[3];
    
      2
          number = sixteenthPoints * 16;
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (; number < num_points; number++) {
    
      30
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      2
          *result = dotProduct;
    
      2
      }
    
      #endif /*LV_HAVE_SSE4_1*/
    
      #ifdef LV_HAVE_AVX
    
      #include <immintrin.h>
    
      2
      static inline void volk_32f_x2_dot_prod_32f_a_avx(float* result,
    
                                                        const float* input,
    
                                                        const float* taps,
    
                                                        unsigned int num_points)
    
      {
    
      2
          unsigned int number = 0;
    
      2
          const unsigned int sixteenthPoints = num_points / 16;
    
      2
          float dotProduct = 0;
    
      2
          const float* aPtr = input;
    
      2
          const float* bPtr = taps;
    
          __m256 a0Val, a1Val;
    
          __m256 b0Val, b1Val;
    
          __m256 c0Val, c1Val;
    
      2
          __m256 dotProdVal0 = _mm256_setzero_ps();
    
      2
          __m256 dotProdVal1 = _mm256_setzero_ps();
    
        2/2✓ Branch 0 taken 16382 times.
✓ Branch 1 taken 2 times.

      16384
          for (; number < sixteenthPoints; number++) {
    
      16382
              a0Val = _mm256_load_ps(aPtr);
    
      32764
              a1Val = _mm256_load_ps(aPtr + 8);
    
      16382
              b0Val = _mm256_load_ps(bPtr);
    
      32764
              b1Val = _mm256_load_ps(bPtr + 8);
    
      16382
              c0Val = _mm256_mul_ps(a0Val, b0Val);
    
      16382
              c1Val = _mm256_mul_ps(a1Val, b1Val);
    
      16382
              dotProdVal0 = _mm256_add_ps(c0Val, dotProdVal0);
    
      16382
              dotProdVal1 = _mm256_add_ps(c1Val, dotProdVal1);
    
      16382
              aPtr += 16;
    
      16382
              bPtr += 16;
    
          }
    
      2
          dotProdVal0 = _mm256_add_ps(dotProdVal0, dotProdVal1);
    
          __VOLK_ATTR_ALIGNED(32) float dotProductVector[8];
    
          _mm256_store_ps(dotProductVector,
    
                          dotProdVal0); // Store the results back into the dot product vector
    
      2
          dotProduct = dotProductVector[0];
    
      2
          dotProduct += dotProductVector[1];
    
      2
          dotProduct += dotProductVector[2];
    
      2
          dotProduct += dotProductVector[3];
    
      2
          dotProduct += dotProductVector[4];
    
      2
          dotProduct += dotProductVector[5];
    
      2
          dotProduct += dotProductVector[6];
    
      2
          dotProduct += dotProductVector[7];
    
      2
          number = sixteenthPoints * 16;
    
        2/2✓ Branch 0 taken 30 times.
✓ Branch 1 taken 2 times.

      32
          for (; number < num_points; number++) {
    
      30
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      2
          *result = dotProduct;
    
      2
      }
    
      #endif /*LV_HAVE_AVX*/
    
      #if LV_HAVE_AVX2 && LV_HAVE_FMA
    
      #include <immintrin.h>
    
      2
      static inline void volk_32f_x2_dot_prod_32f_a_avx2_fma(float* result,
    
                                                             const float* input,
    
                                                             const float* taps,
    
                                                             unsigned int num_points)
    
      {
    
          unsigned int number;
    
      2
          const unsigned int eighthPoints = num_points / 8;
    
      2
          const float* aPtr = input;
    
      2
          const float* bPtr = taps;
    
      2
          __m256 dotProdVal = _mm256_setzero_ps();
    
          __m256 aVal1, bVal1;
    
        2/2✓ Branch 0 taken 32766 times.
✓ Branch 1 taken 2 times.

      32768
          for (number = 0; number < eighthPoints; number++) {
    
      32766
              aVal1 = _mm256_load_ps(aPtr);
    
      32766
              bVal1 = _mm256_load_ps(bPtr);
    
      32766
              aPtr += 8;
    
      32766
              bPtr += 8;
    
      32766
              dotProdVal = _mm256_fmadd_ps(aVal1, bVal1, dotProdVal);
    
          }
    
          __VOLK_ATTR_ALIGNED(32) float dotProductVector[8];
    
          _mm256_store_ps(dotProductVector,
    
                          dotProdVal); // Store the results back into the dot product vector
    
      2
          float dotProduct = dotProductVector[0] + dotProductVector[1] + dotProductVector[2] +
    
      2
                             dotProductVector[3] + dotProductVector[4] + dotProductVector[5] +
    
      2
                             dotProductVector[6] + dotProductVector[7];
    
        2/2✓ Branch 0 taken 14 times.
✓ Branch 1 taken 2 times.

      16
          for (number = eighthPoints * 8; number < num_points; number++) {
    
      14
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      2
          *result = dotProduct;
    
      2
      }
    
      #endif /* LV_HAVE_AVX2 && LV_HAVE_FMA */
    
      #if LV_HAVE_AVX512F
    
      #include <immintrin.h>
    
      ✗
      static inline void volk_32f_x2_dot_prod_32f_a_avx512f(float* result,
    
                                                            const float* input,
    
                                                            const float* taps,
    
                                                            unsigned int num_points)
    
      {
    
          unsigned int number;
    
      ✗
          const unsigned int sixteenthPoints = num_points / 16;
    
      ✗
          const float* aPtr = input;
    
      ✗
          const float* bPtr = taps;
    
      ✗
          __m512 dotProdVal = _mm512_setzero_ps();
    
          __m512 aVal1, bVal1;
    
      ✗
          for (number = 0; number < sixteenthPoints; number++) {
    
      ✗
              aVal1 = _mm512_load_ps(aPtr);
    
      ✗
              bVal1 = _mm512_load_ps(bPtr);
    
      ✗
              aPtr += 16;
    
      ✗
              bPtr += 16;
    
      ✗
              dotProdVal = _mm512_fmadd_ps(aVal1, bVal1, dotProdVal);
    
          }
    
          __VOLK_ATTR_ALIGNED(64) float dotProductVector[16];
    
          _mm512_store_ps(dotProductVector,
    
                          dotProdVal); // Store the results back into the dot product vector
    
      ✗
          float dotProduct = dotProductVector[0] + dotProductVector[1] + dotProductVector[2] +
    
      ✗
                             dotProductVector[3] + dotProductVector[4] + dotProductVector[5] +
    
      ✗
                             dotProductVector[6] + dotProductVector[7] + dotProductVector[8] +
    
      ✗
                             dotProductVector[9] + dotProductVector[10] + dotProductVector[11] +
    
      ✗
                             dotProductVector[12] + dotProductVector[13] +
    
      ✗
                             dotProductVector[14] + dotProductVector[15];
    
      ✗
          for (number = sixteenthPoints * 16; number < num_points; number++) {
    
      ✗
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
      ✗
          *result = dotProduct;
    
      ✗
      }
    
      #endif /* LV_HAVE_AVX512F */
    
      #ifdef LV_HAVE_NEON
    
      #include <arm_neon.h>
    
      static inline void volk_32f_x2_dot_prod_32f_neonopts(float* result,
    
                                                           const float* input,
    
                                                           const float* taps,
    
                                                           unsigned int num_points)
    
      {
    
          unsigned int quarter_points = num_points / 16;
    
          float dotProduct = 0;
    
          const float* aPtr = input;
    
          const float* bPtr = taps;
    
          unsigned int number = 0;
    
          float32x4x4_t a_val, b_val, accumulator0;
    
          accumulator0.val[0] = vdupq_n_f32(0);
    
          accumulator0.val[1] = vdupq_n_f32(0);
    
          accumulator0.val[2] = vdupq_n_f32(0);
    
          accumulator0.val[3] = vdupq_n_f32(0);
    
          // factor of 4 loop unroll with independent accumulators
    
          // uses 12 out of 16 neon q registers
    
          for (number = 0; number < quarter_points; ++number) {
    
              a_val = vld4q_f32(aPtr);
    
              b_val = vld4q_f32(bPtr);
    
              accumulator0.val[0] = vmlaq_f32(accumulator0.val[0], a_val.val[0], b_val.val[0]);
    
              accumulator0.val[1] = vmlaq_f32(accumulator0.val[1], a_val.val[1], b_val.val[1]);
    
              accumulator0.val[2] = vmlaq_f32(accumulator0.val[2], a_val.val[2], b_val.val[2]);
    
              accumulator0.val[3] = vmlaq_f32(accumulator0.val[3], a_val.val[3], b_val.val[3]);
    
              aPtr += 16;
    
              bPtr += 16;
    
          }
    
          accumulator0.val[0] = vaddq_f32(accumulator0.val[0], accumulator0.val[1]);
    
          accumulator0.val[2] = vaddq_f32(accumulator0.val[2], accumulator0.val[3]);
    
          accumulator0.val[0] = vaddq_f32(accumulator0.val[2], accumulator0.val[0]);
    
          __VOLK_ATTR_ALIGNED(32) float accumulator[4];
    
          vst1q_f32(accumulator, accumulator0.val[0]);
    
          dotProduct = accumulator[0] + accumulator[1] + accumulator[2] + accumulator[3];
    
          for (number = quarter_points * 16; number < num_points; number++) {
    
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
          *result = dotProduct;
    
      }
    
      #endif
    
      #ifdef LV_HAVE_NEON
    
      static inline void volk_32f_x2_dot_prod_32f_neon(float* result,
    
                                                       const float* input,
    
                                                       const float* taps,
    
                                                       unsigned int num_points)
    
      {
    
          unsigned int quarter_points = num_points / 8;
    
          float dotProduct = 0;
    
          const float* aPtr = input;
    
          const float* bPtr = taps;
    
          unsigned int number = 0;
    
          float32x4x2_t a_val, b_val, accumulator_val;
    
          accumulator_val.val[0] = vdupq_n_f32(0);
    
          accumulator_val.val[1] = vdupq_n_f32(0);
    
          // factor of 2 loop unroll with independent accumulators
    
          for (number = 0; number < quarter_points; ++number) {
    
              a_val = vld2q_f32(aPtr);
    
              b_val = vld2q_f32(bPtr);
    
              accumulator_val.val[0] =
    
                  vmlaq_f32(accumulator_val.val[0], a_val.val[0], b_val.val[0]);
    
              accumulator_val.val[1] =
    
                  vmlaq_f32(accumulator_val.val[1], a_val.val[1], b_val.val[1]);
    
              aPtr += 8;
    
              bPtr += 8;
    
          }
    
          accumulator_val.val[0] = vaddq_f32(accumulator_val.val[0], accumulator_val.val[1]);
    
          __VOLK_ATTR_ALIGNED(32) float accumulator[4];
    
          vst1q_f32(accumulator, accumulator_val.val[0]);
    
          dotProduct = accumulator[0] + accumulator[1] + accumulator[2] + accumulator[3];
    
          for (number = quarter_points * 8; number < num_points; number++) {
    
              dotProduct += ((*aPtr++) * (*bPtr++));
    
          }
    
          *result = dotProduct;
    
      }
    
      #endif /* LV_HAVE_NEON */
    
      #ifdef LV_HAVE_NEONV7
    
      extern void volk_32f_x2_dot_prod_32f_a_neonasm(float* cVector,
    
                                                     const float* aVector,
    
                                                     const float* bVector,
    
                                                     unsigned int num_points);
    
      #endif /* LV_HAVE_NEONV7 */
    
      #ifdef LV_HAVE_NEONV7
    
      extern void volk_32f_x2_dot_prod_32f_a_neonasm_opts(float* cVector,
    
                                                          const float* aVector,
    
                                                          const float* bVector,
    
                                                          unsigned int num_points);
    
      #endif /* LV_HAVE_NEONV7 */
    
      #endif /*INCLUDED_volk_32f_x2_dot_prod_32f_a_H*/