GCC Code Coverage Report

Directory:	./
File:	kernels/volk/volk_32f_cos_32f.h
Date:	2023-10-23 23:10:04
	Exec	Total	Coverage
Lines:	356	453	78.6%
Functions:	8	10	80.0%
Branches:	45	58	77.6%
  
      Line
      Branch
      Exec
      Source
    
      /* -*- c++ -*- */
    
      /*
    
       * Copyright 2014 Free Software Foundation, Inc.
    
       *
    
       * This file is part of VOLK
    
       *
    
       * SPDX-License-Identifier: LGPL-3.0-or-later
    
       */
    
      /*!
    
       * \page volk_32f_cos_32f
    
       *
    
       * \b Overview
    
       *
    
       * Computes cosine of the input vector and stores results in the output vector.
    
       *
    
       * <b>Dispatcher Prototype</b>
    
       * \code
    
       * void volk_32f_cos_32f(float* bVector, const float* aVector, unsigned int num_points)
    
       * \endcode
    
       *
    
       * \b Inputs
    
       * \li aVector: The input vector of floats.
    
       * \li num_points: The number of data points.
    
       *
    
       * \b Outputs
    
       * \li bVector: The vector where results will be stored.
    
       *
    
       * \b Example
    
       * Calculate cos(theta) for common angles.
    
       * \code
    
       *   int N = 10;
    
       *   unsigned int alignment = volk_get_alignment();
    
       *   float* in = (float*)volk_malloc(sizeof(float)*N, alignment);
    
       *   float* out = (float*)volk_malloc(sizeof(float)*N, alignment);
    
       *
    
       *   in[0] = 0.000;
    
       *   in[1] = 0.524;
    
       *   in[2] = 0.786;
    
       *   in[3] = 1.047;
    
       *   in[4] = 1.571;
    
       *   in[5] = 1.571;
    
       *   in[6] = 2.094;
    
       *   in[7] = 2.356;
    
       *   in[8] = 2.618;
    
       *   in[9] = 3.142;
    
       *
    
       *   volk_32f_cos_32f(out, in, N);
    
       *
    
       *   for(unsigned int ii = 0; ii < N; ++ii){
    
       *       printf("cos(%1.3f) = %1.3f\n", in[ii], out[ii]);
    
       *   }
    
       *
    
       *   volk_free(in);
    
       *   volk_free(out);
    
       * \endcode
    
       */
    
      #include <inttypes.h>
    
      #include <math.h>
    
      #include <stdio.h>
    
      #ifndef INCLUDED_volk_32f_cos_32f_a_H
    
      #define INCLUDED_volk_32f_cos_32f_a_H
    
      #ifdef LV_HAVE_AVX512F
    
      #include <immintrin.h>
    
      ✗
      static inline void volk_32f_cos_32f_a_avx512f(float* cosVector,
    
                                                    const float* inVector,
    
                                                    unsigned int num_points)
    
      {
    
      ✗
          float* cosPtr = cosVector;
    
      ✗
          const float* inPtr = inVector;
    
      ✗
          unsigned int number = 0;
    
      ✗
          unsigned int sixteenPoints = num_points / 16;
    
      ✗
          unsigned int i = 0;
    
          __m512 aVal, s, r, m4pi, pio4A, pio4B, pio4C, cp1, cp2, cp3, cp4, cp5, ffours, ftwos,
    
              fones, sine, cosine;
    
          __m512i q, zeros, ones, twos, fours;
    
      ✗
          m4pi = _mm512_set1_ps(1.273239544735162542821171882678754627704620361328125);
    
      ✗
          pio4A = _mm512_set1_ps(0.7853981554508209228515625);
    
      ✗
          pio4B = _mm512_set1_ps(0.794662735614792836713604629039764404296875e-8);
    
      ✗
          pio4C = _mm512_set1_ps(0.306161699786838294306516483068750264552437361480769e-16);
    
      ✗
          ffours = _mm512_set1_ps(4.0);
    
      ✗
          ftwos = _mm512_set1_ps(2.0);
    
      ✗
          fones = _mm512_set1_ps(1.0);
    
      ✗
          zeros = _mm512_setzero_epi32();
    
      ✗
          ones = _mm512_set1_epi32(1);
    
      ✗
          twos = _mm512_set1_epi32(2);
    
      ✗
          fours = _mm512_set1_epi32(4);
    
      ✗
          cp1 = _mm512_set1_ps(1.0);
    
      ✗
          cp2 = _mm512_set1_ps(0.08333333333333333);
    
      ✗
          cp3 = _mm512_set1_ps(0.002777777777777778);
    
      ✗
          cp4 = _mm512_set1_ps(4.96031746031746e-05);
    
      ✗
          cp5 = _mm512_set1_ps(5.511463844797178e-07);
    
          __mmask16 condition1, condition2;
    
      ✗
          for (; number < sixteenPoints; number++) {
    
      ✗
              aVal = _mm512_load_ps(inPtr);
    
              // s = fabs(aVal)
    
      ✗
              s = (__m512)(_mm512_and_si512((__m512i)(aVal), _mm512_set1_epi32(0x7fffffff)));
    
              // q = (int) (s * (4/pi)), floor(aVal / (pi/4))
    
      ✗
              q = _mm512_cvtps_epi32(_mm512_floor_ps(_mm512_mul_ps(s, m4pi)));
    
              // r = q + q&1, q indicates quadrant, r gives
    
      ✗
              r = _mm512_cvtepi32_ps(_mm512_add_epi32(q, _mm512_and_si512(q, ones)));
    
      ✗
              s = _mm512_fnmadd_ps(r, pio4A, s);
    
      ✗
              s = _mm512_fnmadd_ps(r, pio4B, s);
    
      ✗
              s = _mm512_fnmadd_ps(r, pio4C, s);
    
      ✗
              s = _mm512_div_ps(
    
                  s,
    
                  _mm512_set1_ps(8.0f)); // The constant is 2^N, for 3 times argument reduction
    
      ✗
              s = _mm512_mul_ps(s, s);
    
              // Evaluate Taylor series
    
      ✗
              s = _mm512_mul_ps(
    
                  _mm512_fmadd_ps(
    
                      _mm512_fmsub_ps(
    
                          _mm512_fmadd_ps(_mm512_fmsub_ps(s, cp5, cp4), s, cp3), s, cp2),
    
                      s,
    
                      cp1),
    
                  s);
    
      ✗
              for (i = 0; i < 3; i++)
    
      ✗
                  s = _mm512_mul_ps(s, _mm512_sub_ps(ffours, s));
    
      ✗
              s = _mm512_div_ps(s, ftwos);
    
      ✗
              sine = _mm512_sqrt_ps(_mm512_mul_ps(_mm512_sub_ps(ftwos, s), s));
    
      ✗
              cosine = _mm512_sub_ps(fones, s);
    
              // if(((q+1)&2) != 0) { cosine=sine;}
    
      ✗
              condition1 = _mm512_cmpneq_epi32_mask(
    
                  _mm512_and_si512(_mm512_add_epi32(q, ones), twos), zeros);
    
              // if(((q+2)&4) != 0) { cosine = -cosine;}
    
      ✗
              condition2 = _mm512_cmpneq_epi32_mask(
    
                  _mm512_and_si512(_mm512_add_epi32(q, twos), fours), zeros);
    
      ✗
              cosine = _mm512_mask_blend_ps(condition1, cosine, sine);
    
      ✗
              cosine = _mm512_mask_mul_ps(cosine, condition2, cosine, _mm512_set1_ps(-1.f));
    
              _mm512_store_ps(cosPtr, cosine);
    
      ✗
              inPtr += 16;
    
      ✗
              cosPtr += 16;
    
          }
    
      ✗
          number = sixteenPoints * 16;
    
      ✗
          for (; number < num_points; number++) {
    
      ✗
              *cosPtr++ = cosf(*inPtr++);
    
          }
    
      ✗
      }
    
      #endif
    
      #if LV_HAVE_AVX2 && LV_HAVE_FMA
    
      #include <immintrin.h>
    
      static inline void
    
      2
      volk_32f_cos_32f_a_avx2_fma(float* bVector, const float* aVector, unsigned int num_points)
    
      {
    
      2
          float* bPtr = bVector;
    
      2
          const float* aPtr = aVector;
    
      2
          unsigned int number = 0;
    
      2
          unsigned int eighthPoints = num_points / 8;
    
      2
          unsigned int i = 0;
    
          __m256 aVal, s, r, m4pi, pio4A, pio4B, pio4C, cp1, cp2, cp3, cp4, cp5, ffours, ftwos,
    
              fones, fzeroes;
    
          __m256 sine, cosine;
    
          __m256i q, ones, twos, fours;
    
      2
          m4pi = _mm256_set1_ps(1.273239544735162542821171882678754627704620361328125);
    
      2
          pio4A = _mm256_set1_ps(0.7853981554508209228515625);
    
      2
          pio4B = _mm256_set1_ps(0.794662735614792836713604629039764404296875e-8);
    
      2
          pio4C = _mm256_set1_ps(0.306161699786838294306516483068750264552437361480769e-16);
    
      2
          ffours = _mm256_set1_ps(4.0);
    
      2
          ftwos = _mm256_set1_ps(2.0);
    
      2
          fones = _mm256_set1_ps(1.0);
    
      2
          fzeroes = _mm256_setzero_ps();
    
      2
          __m256i zeroes = _mm256_set1_epi32(0);
    
      2
          ones = _mm256_set1_epi32(1);
    
      2
          __m256i allones = _mm256_set1_epi32(0xffffffff);
    
      2
          twos = _mm256_set1_epi32(2);
    
      2
          fours = _mm256_set1_epi32(4);
    
      2
          cp1 = _mm256_set1_ps(1.0);
    
      2
          cp2 = _mm256_set1_ps(0.08333333333333333);
    
      2
          cp3 = _mm256_set1_ps(0.002777777777777778);
    
      2
          cp4 = _mm256_set1_ps(4.96031746031746e-05);
    
      2
          cp5 = _mm256_set1_ps(5.511463844797178e-07);
    
          union bit256 condition1;
    
          union bit256 condition3;
    
        2/2✓ Branch 0 taken 32766 times.
✓ Branch 1 taken 2 times.

      32768
          for (; number < eighthPoints; number++) {
    
      32766
              aVal = _mm256_load_ps(aPtr);
    
              // s = fabs(aVal)
    
      98298
              s = _mm256_sub_ps(aVal,
    
                                _mm256_and_ps(_mm256_mul_ps(aVal, ftwos),
    
      32766
                                              _mm256_cmp_ps(aVal, fzeroes, _CMP_LT_OS)));
    
              // q = (int) (s * (4/pi)), floor(aVal / (pi/4))
    
      65532
              q = _mm256_cvtps_epi32(_mm256_floor_ps(_mm256_mul_ps(s, m4pi)));
    
              // r = q + q&1, q indicates quadrant, r gives
    
      98298
              r = _mm256_cvtepi32_ps(_mm256_add_epi32(q, _mm256_and_si256(q, ones)));
    
      32766
              s = _mm256_fnmadd_ps(r, pio4A, s);
    
      32766
              s = _mm256_fnmadd_ps(r, pio4B, s);
    
      32766
              s = _mm256_fnmadd_ps(r, pio4C, s);
    
      65532
              s = _mm256_div_ps(
    
                  s,
    
                  _mm256_set1_ps(8.0)); // The constant is 2^N, for 3 times argument reduction
    
      32766
              s = _mm256_mul_ps(s, s);
    
              // Evaluate Taylor series
    
      131064
              s = _mm256_mul_ps(
    
                  _mm256_fmadd_ps(
    
                      _mm256_fmsub_ps(
    
                          _mm256_fmadd_ps(_mm256_fmsub_ps(s, cp5, cp4), s, cp3), s, cp2),
    
                      s,
    
                      cp1),
    
                  s);
    
        2/2✓ Branch 0 taken 98298 times.
✓ Branch 1 taken 32766 times.

      131064
              for (i = 0; i < 3; i++)
    
      196596
                  s = _mm256_mul_ps(s, _mm256_sub_ps(ffours, s));
    
      32766
              s = _mm256_div_ps(s, ftwos);
    
      98298
              sine = _mm256_sqrt_ps(_mm256_mul_ps(_mm256_sub_ps(ftwos, s), s));
    
      32766
              cosine = _mm256_sub_ps(fones, s);
    
              // if(((q+1)&2) != 0) { cosine=sine;}
    
      32766
              condition1.int_vec =
    
      65532
                  _mm256_cmpeq_epi32(_mm256_and_si256(_mm256_add_epi32(q, ones), twos), zeroes);
    
      65532
              condition1.int_vec = _mm256_xor_si256(allones, condition1.int_vec);
    
              // if(((q+2)&4) != 0) { cosine = -cosine;}
    
      65532
              condition3.int_vec = _mm256_cmpeq_epi32(
    
                  _mm256_and_si256(_mm256_add_epi32(q, twos), fours), zeroes);
    
      32766
              condition3.int_vec = _mm256_xor_si256(allones, condition3.int_vec);
    
      98298
              cosine = _mm256_add_ps(
    
                  cosine, _mm256_and_ps(_mm256_sub_ps(sine, cosine), condition1.float_vec));
    
      163830
              cosine = _mm256_sub_ps(cosine,
    
                                     _mm256_and_ps(_mm256_mul_ps(cosine, _mm256_set1_ps(2.0f)),
    
                                                   condition3.float_vec));
    
              _mm256_store_ps(bPtr, cosine);
    
      32766
              aPtr += 8;
    
      32766
              bPtr += 8;
    
          }
    
      2
          number = eighthPoints * 8;
    
        2/2✓ Branch 0 taken 14 times.
✓ Branch 1 taken 2 times.

      16
          for (; number < num_points; number++) {
    
      14
              *bPtr++ = cos(*aPtr++);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_AVX2 && LV_HAVE_FMA for aligned */
    
      #ifdef LV_HAVE_AVX2
    
      #include <immintrin.h>
    
      static inline void
    
      2
      volk_32f_cos_32f_a_avx2(float* bVector, const float* aVector, unsigned int num_points)
    
      {
    
      2
          float* bPtr = bVector;
    
      2
          const float* aPtr = aVector;
    
      2
          unsigned int number = 0;
    
      2
          unsigned int eighthPoints = num_points / 8;
    
      2
          unsigned int i = 0;
    
          __m256 aVal, s, r, m4pi, pio4A, pio4B, pio4C, cp1, cp2, cp3, cp4, cp5, ffours, ftwos,
    
              fones, fzeroes;
    
          __m256 sine, cosine;
    
          __m256i q, ones, twos, fours;
    
      2
          m4pi = _mm256_set1_ps(1.273239544735162542821171882678754627704620361328125);
    
      2
          pio4A = _mm256_set1_ps(0.7853981554508209228515625);
    
      2
          pio4B = _mm256_set1_ps(0.794662735614792836713604629039764404296875e-8);
    
      2
          pio4C = _mm256_set1_ps(0.306161699786838294306516483068750264552437361480769e-16);
    
      2
          ffours = _mm256_set1_ps(4.0);
    
      2
          ftwos = _mm256_set1_ps(2.0);
    
      2
          fones = _mm256_set1_ps(1.0);
    
      2
          fzeroes = _mm256_setzero_ps();
    
      2
          __m256i zeroes = _mm256_set1_epi32(0);
    
      2
          ones = _mm256_set1_epi32(1);
    
      2
          __m256i allones = _mm256_set1_epi32(0xffffffff);
    
      2
          twos = _mm256_set1_epi32(2);
    
      2
          fours = _mm256_set1_epi32(4);
    
      2
          cp1 = _mm256_set1_ps(1.0);
    
      2
          cp2 = _mm256_set1_ps(0.08333333333333333);
    
      2
          cp3 = _mm256_set1_ps(0.002777777777777778);
    
      2
          cp4 = _mm256_set1_ps(4.96031746031746e-05);
    
      2
          cp5 = _mm256_set1_ps(5.511463844797178e-07);
    
          union bit256 condition1;
    
          union bit256 condition3;
    
        2/2✓ Branch 0 taken 32766 times.
✓ Branch 1 taken 2 times.

      32768
          for (; number < eighthPoints; number++) {
    
      32766
              aVal = _mm256_load_ps(aPtr);
    
              // s = fabs(aVal)
    
      98298
              s = _mm256_sub_ps(aVal,
    
                                _mm256_and_ps(_mm256_mul_ps(aVal, ftwos),
    
      32766
                                              _mm256_cmp_ps(aVal, fzeroes, _CMP_LT_OS)));
    
              // q = (int) (s * (4/pi)), floor(aVal / (pi/4))
    
      65532
              q = _mm256_cvtps_epi32(_mm256_floor_ps(_mm256_mul_ps(s, m4pi)));
    
              // r = q + q&1, q indicates quadrant, r gives
    
      98298
              r = _mm256_cvtepi32_ps(_mm256_add_epi32(q, _mm256_and_si256(q, ones)));
    
      65532
              s = _mm256_sub_ps(s, _mm256_mul_ps(r, pio4A));
    
      65532
              s = _mm256_sub_ps(s, _mm256_mul_ps(r, pio4B));
    
      65532
              s = _mm256_sub_ps(s, _mm256_mul_ps(r, pio4C));
    
      65532
              s = _mm256_div_ps(
    
                  s,
    
                  _mm256_set1_ps(8.0)); // The constant is 2^N, for 3 times argument reduction
    
      32766
              s = _mm256_mul_ps(s, s);
    
              // Evaluate Taylor series
    
      262128
              s = _mm256_mul_ps(
    
                  _mm256_add_ps(
    
                      _mm256_mul_ps(
    
                          _mm256_sub_ps(
    
                              _mm256_mul_ps(
    
                                  _mm256_add_ps(
    
                                      _mm256_mul_ps(_mm256_sub_ps(_mm256_mul_ps(s, cp5), cp4),
    
                                                    s),
    
                                      cp3),
    
                                  s),
    
                              cp2),
    
                          s),
    
                      cp1),
    
                  s);
    
        2/2✓ Branch 0 taken 98298 times.
✓ Branch 1 taken 32766 times.

      131064
              for (i = 0; i < 3; i++)
    
      196596
                  s = _mm256_mul_ps(s, _mm256_sub_ps(ffours, s));
    
      32766
              s = _mm256_div_ps(s, ftwos);
    
      98298
              sine = _mm256_sqrt_ps(_mm256_mul_ps(_mm256_sub_ps(ftwos, s), s));
    
      32766
              cosine = _mm256_sub_ps(fones, s);
    
              // if(((q+1)&2) != 0) { cosine=sine;}
    
      32766
              condition1.int_vec =
    
      65532
                  _mm256_cmpeq_epi32(_mm256_and_si256(_mm256_add_epi32(q, ones), twos), zeroes);
    
      65532
              condition1.int_vec = _mm256_xor_si256(allones, condition1.int_vec);
    
              // if(((q+2)&4) != 0) { cosine = -cosine;}
    
      65532
              condition3.int_vec = _mm256_cmpeq_epi32(
    
                  _mm256_and_si256(_mm256_add_epi32(q, twos), fours), zeroes);
    
      32766
              condition3.int_vec = _mm256_xor_si256(allones, condition3.int_vec);
    
      98298
              cosine = _mm256_add_ps(
    
                  cosine, _mm256_and_ps(_mm256_sub_ps(sine, cosine), condition1.float_vec));
    
      163830
              cosine = _mm256_sub_ps(cosine,
    
                                     _mm256_and_ps(_mm256_mul_ps(cosine, _mm256_set1_ps(2.0f)),
    
                                                   condition3.float_vec));
    
              _mm256_store_ps(bPtr, cosine);
    
      32766
              aPtr += 8;
    
      32766
              bPtr += 8;
    
          }
    
      2
          number = eighthPoints * 8;
    
        2/2✓ Branch 0 taken 14 times.
✓ Branch 1 taken 2 times.

      16
          for (; number < num_points; number++) {
    
      14
              *bPtr++ = cos(*aPtr++);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_AVX2 for aligned */
    
      #ifdef LV_HAVE_SSE4_1
    
      #include <smmintrin.h>
    
      static inline void
    
      2
      volk_32f_cos_32f_a_sse4_1(float* bVector, const float* aVector, unsigned int num_points)
    
      {
    
      2
          float* bPtr = bVector;
    
      2
          const float* aPtr = aVector;
    
      2
          unsigned int number = 0;
    
      2
          unsigned int quarterPoints = num_points / 4;
    
      2
          unsigned int i = 0;
    
          __m128 aVal, s, r, m4pi, pio4A, pio4B, pio4C, cp1, cp2, cp3, cp4, cp5, ffours, ftwos,
    
              fones, fzeroes;
    
          __m128 sine, cosine;
    
          __m128i q, ones, twos, fours;
    
      2
          m4pi = _mm_set1_ps(1.273239544735162542821171882678754627704620361328125);
    
      2
          pio4A = _mm_set1_ps(0.7853981554508209228515625);
    
      2
          pio4B = _mm_set1_ps(0.794662735614792836713604629039764404296875e-8);
    
      2
          pio4C = _mm_set1_ps(0.306161699786838294306516483068750264552437361480769e-16);
    
      2
          ffours = _mm_set1_ps(4.0);
    
      2
          ftwos = _mm_set1_ps(2.0);
    
      2
          fones = _mm_set1_ps(1.0);
    
      2
          fzeroes = _mm_setzero_ps();
    
      2
          __m128i zeroes = _mm_set1_epi32(0);
    
      2
          ones = _mm_set1_epi32(1);
    
      2
          __m128i allones = _mm_set1_epi32(0xffffffff);
    
      2
          twos = _mm_set1_epi32(2);
    
      2
          fours = _mm_set1_epi32(4);
    
      2
          cp1 = _mm_set1_ps(1.0);
    
      2
          cp2 = _mm_set1_ps(0.08333333333333333);
    
      2
          cp3 = _mm_set1_ps(0.002777777777777778);
    
      2
          cp4 = _mm_set1_ps(4.96031746031746e-05);
    
      2
          cp5 = _mm_set1_ps(5.511463844797178e-07);
    
          union bit128 condition1;
    
          union bit128 condition3;
    
        2/2✓ Branch 0 taken 65534 times.
✓ Branch 1 taken 2 times.

      65536
          for (; number < quarterPoints; number++) {
    
      65534
              aVal = _mm_load_ps(aPtr);
    
              // s = fabs(aVal)
    
      262136
              s = _mm_sub_ps(aVal,
    
                             _mm_and_ps(_mm_mul_ps(aVal, ftwos), _mm_cmplt_ps(aVal, fzeroes)));
    
              // q = (int) (s * (4/pi)), floor(aVal / (pi/4))
    
      131068
              q = _mm_cvtps_epi32(_mm_floor_ps(_mm_mul_ps(s, m4pi)));
    
              // r = q + q&1, q indicates quadrant, r gives
    
      196602
              r = _mm_cvtepi32_ps(_mm_add_epi32(q, _mm_and_si128(q, ones)));
    
      131068
              s = _mm_sub_ps(s, _mm_mul_ps(r, pio4A));
    
      131068
              s = _mm_sub_ps(s, _mm_mul_ps(r, pio4B));
    
      131068
              s = _mm_sub_ps(s, _mm_mul_ps(r, pio4C));
    
      131068
              s = _mm_div_ps(
    
                  s, _mm_set1_ps(8.0)); // The constant is 2^N, for 3 times argument reduction
    
      65534
              s = _mm_mul_ps(s, s);
    
              // Evaluate Taylor series
    
      524272
              s = _mm_mul_ps(
    
                  _mm_add_ps(
    
                      _mm_mul_ps(
    
                          _mm_sub_ps(
    
                              _mm_mul_ps(
    
                                  _mm_add_ps(_mm_mul_ps(_mm_sub_ps(_mm_mul_ps(s, cp5), cp4), s),
    
                                             cp3),
    
                                  s),
    
                              cp2),
    
                          s),
    
                      cp1),
    
                  s);
    
        2/2✓ Branch 0 taken 196602 times.
✓ Branch 1 taken 65534 times.

      262136
              for (i = 0; i < 3; i++)
    
      393204
                  s = _mm_mul_ps(s, _mm_sub_ps(ffours, s));
    
      65534
              s = _mm_div_ps(s, ftwos);
    
      196602
              sine = _mm_sqrt_ps(_mm_mul_ps(_mm_sub_ps(ftwos, s), s));
    
      65534
              cosine = _mm_sub_ps(fones, s);
    
              // if(((q+1)&2) != 0) { cosine=sine;}
    
      65534
              condition1.int_vec =
    
      131068
                  _mm_cmpeq_epi32(_mm_and_si128(_mm_add_epi32(q, ones), twos), zeroes);
    
      131068
              condition1.int_vec = _mm_xor_si128(allones, condition1.int_vec);
    
              // if(((q+2)&4) != 0) { cosine = -cosine;}
    
      65534
              condition3.int_vec =
    
      131068
                  _mm_cmpeq_epi32(_mm_and_si128(_mm_add_epi32(q, twos), fours), zeroes);
    
      65534
              condition3.int_vec = _mm_xor_si128(allones, condition3.int_vec);
    
      196602
              cosine = _mm_add_ps(cosine,
    
                                  _mm_and_ps(_mm_sub_ps(sine, cosine), condition1.float_vec));
    
      327670
              cosine = _mm_sub_ps(
    
                  cosine,
    
                  _mm_and_ps(_mm_mul_ps(cosine, _mm_set1_ps(2.0f)), condition3.float_vec));
    
              _mm_store_ps(bPtr, cosine);
    
      65534
              aPtr += 4;
    
      65534
              bPtr += 4;
    
          }
    
      2
          number = quarterPoints * 4;
    
        2/2✓ Branch 0 taken 6 times.
✓ Branch 1 taken 2 times.

      8
          for (; number < num_points; number++) {
    
      6
              *bPtr++ = cosf(*aPtr++);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_SSE4_1 for aligned */
    
      #endif /* INCLUDED_volk_32f_cos_32f_a_H */
    
      #ifndef INCLUDED_volk_32f_cos_32f_u_H
    
      #define INCLUDED_volk_32f_cos_32f_u_H
    
      #ifdef LV_HAVE_AVX512F
    
      #include <immintrin.h>
    
      ✗
      static inline void volk_32f_cos_32f_u_avx512f(float* cosVector,
    
                                                    const float* inVector,
    
                                                    unsigned int num_points)
    
      {
    
      ✗
          float* cosPtr = cosVector;
    
      ✗
          const float* inPtr = inVector;
    
      ✗
          unsigned int number = 0;
    
      ✗
          unsigned int sixteenPoints = num_points / 16;
    
      ✗
          unsigned int i = 0;
    
          __m512 aVal, s, r, m4pi, pio4A, pio4B, pio4C, cp1, cp2, cp3, cp4, cp5, ffours, ftwos,
    
              fones, sine, cosine;
    
          __m512i q, zeros, ones, twos, fours;
    
      ✗
          m4pi = _mm512_set1_ps(1.273239544735162542821171882678754627704620361328125);
    
      ✗
          pio4A = _mm512_set1_ps(0.7853981554508209228515625);
    
      ✗
          pio4B = _mm512_set1_ps(0.794662735614792836713604629039764404296875e-8);
    
      ✗
          pio4C = _mm512_set1_ps(0.306161699786838294306516483068750264552437361480769e-16);
    
      ✗
          ffours = _mm512_set1_ps(4.0);
    
      ✗
          ftwos = _mm512_set1_ps(2.0);
    
      ✗
          fones = _mm512_set1_ps(1.0);
    
      ✗
          zeros = _mm512_setzero_epi32();
    
      ✗
          ones = _mm512_set1_epi32(1);
    
      ✗
          twos = _mm512_set1_epi32(2);
    
      ✗
          fours = _mm512_set1_epi32(4);
    
      ✗
          cp1 = _mm512_set1_ps(1.0);
    
      ✗
          cp2 = _mm512_set1_ps(0.08333333333333333);
    
      ✗
          cp3 = _mm512_set1_ps(0.002777777777777778);
    
      ✗
          cp4 = _mm512_set1_ps(4.96031746031746e-05);
    
      ✗
          cp5 = _mm512_set1_ps(5.511463844797178e-07);
    
          __mmask16 condition1, condition2;
    
      ✗
          for (; number < sixteenPoints; number++) {
    
      ✗
              aVal = _mm512_loadu_ps(inPtr);
    
              // s = fabs(aVal)
    
      ✗
              s = (__m512)(_mm512_and_si512((__m512i)(aVal), _mm512_set1_epi32(0x7fffffff)));
    
              // q = (int) (s * (4/pi)), floor(aVal / (pi/4))
    
      ✗
              q = _mm512_cvtps_epi32(_mm512_floor_ps(_mm512_mul_ps(s, m4pi)));
    
              // r = q + q&1, q indicates quadrant, r gives
    
      ✗
              r = _mm512_cvtepi32_ps(_mm512_add_epi32(q, _mm512_and_si512(q, ones)));
    
      ✗
              s = _mm512_fnmadd_ps(r, pio4A, s);
    
      ✗
              s = _mm512_fnmadd_ps(r, pio4B, s);
    
      ✗
              s = _mm512_fnmadd_ps(r, pio4C, s);
    
      ✗
              s = _mm512_div_ps(
    
                  s,
    
                  _mm512_set1_ps(8.0f)); // The constant is 2^N, for 3 times argument reduction
    
      ✗
              s = _mm512_mul_ps(s, s);
    
              // Evaluate Taylor series
    
      ✗
              s = _mm512_mul_ps(
    
                  _mm512_fmadd_ps(
    
                      _mm512_fmsub_ps(
    
                          _mm512_fmadd_ps(_mm512_fmsub_ps(s, cp5, cp4), s, cp3), s, cp2),
    
                      s,
    
                      cp1),
    
                  s);
    
      ✗
              for (i = 0; i < 3; i++)
    
      ✗
                  s = _mm512_mul_ps(s, _mm512_sub_ps(ffours, s));
    
      ✗
              s = _mm512_div_ps(s, ftwos);
    
      ✗
              sine = _mm512_sqrt_ps(_mm512_mul_ps(_mm512_sub_ps(ftwos, s), s));
    
      ✗
              cosine = _mm512_sub_ps(fones, s);
    
              // if(((q+1)&2) != 0) { cosine=sine;}
    
      ✗
              condition1 = _mm512_cmpneq_epi32_mask(
    
                  _mm512_and_si512(_mm512_add_epi32(q, ones), twos), zeros);
    
              // if(((q+2)&4) != 0) { cosine = -cosine;}
    
      ✗
              condition2 = _mm512_cmpneq_epi32_mask(
    
                  _mm512_and_si512(_mm512_add_epi32(q, twos), fours), zeros);
    
      ✗
              cosine = _mm512_mask_blend_ps(condition1, cosine, sine);
    
      ✗
              cosine = _mm512_mask_mul_ps(cosine, condition2, cosine, _mm512_set1_ps(-1.f));
    
              _mm512_storeu_ps(cosPtr, cosine);
    
      ✗
              inPtr += 16;
    
      ✗
              cosPtr += 16;
    
          }
    
      ✗
          number = sixteenPoints * 16;
    
      ✗
          for (; number < num_points; number++) {
    
      ✗
              *cosPtr++ = cosf(*inPtr++);
    
          }
    
      ✗
      }
    
      #endif
    
      #if LV_HAVE_AVX2 && LV_HAVE_FMA
    
      #include <immintrin.h>
    
      static inline void
    
      2
      volk_32f_cos_32f_u_avx2_fma(float* bVector, const float* aVector, unsigned int num_points)
    
      {
    
      2
          float* bPtr = bVector;
    
      2
          const float* aPtr = aVector;
    
      2
          unsigned int number = 0;
    
      2
          unsigned int eighthPoints = num_points / 8;
    
      2
          unsigned int i = 0;
    
          __m256 aVal, s, r, m4pi, pio4A, pio4B, pio4C, cp1, cp2, cp3, cp4, cp5, ffours, ftwos,
    
              fones, fzeroes;
    
          __m256 sine, cosine;
    
          __m256i q, ones, twos, fours;
    
      2
          m4pi = _mm256_set1_ps(1.273239544735162542821171882678754627704620361328125);
    
      2
          pio4A = _mm256_set1_ps(0.7853981554508209228515625);
    
      2
          pio4B = _mm256_set1_ps(0.794662735614792836713604629039764404296875e-8);
    
      2
          pio4C = _mm256_set1_ps(0.306161699786838294306516483068750264552437361480769e-16);
    
      2
          ffours = _mm256_set1_ps(4.0);
    
      2
          ftwos = _mm256_set1_ps(2.0);
    
      2
          fones = _mm256_set1_ps(1.0);
    
      2
          fzeroes = _mm256_setzero_ps();
    
      2
          __m256i zeroes = _mm256_set1_epi32(0);
    
      2
          ones = _mm256_set1_epi32(1);
    
      2
          __m256i allones = _mm256_set1_epi32(0xffffffff);
    
      2
          twos = _mm256_set1_epi32(2);
    
      2
          fours = _mm256_set1_epi32(4);
    
      2
          cp1 = _mm256_set1_ps(1.0);
    
      2
          cp2 = _mm256_set1_ps(0.08333333333333333);
    
      2
          cp3 = _mm256_set1_ps(0.002777777777777778);
    
      2
          cp4 = _mm256_set1_ps(4.96031746031746e-05);
    
      2
          cp5 = _mm256_set1_ps(5.511463844797178e-07);
    
          union bit256 condition1;
    
          union bit256 condition3;
    
        2/2✓ Branch 0 taken 32766 times.
✓ Branch 1 taken 2 times.

      32768
          for (; number < eighthPoints; number++) {
    
      32766
              aVal = _mm256_loadu_ps(aPtr);
    
              // s = fabs(aVal)
    
      98298
              s = _mm256_sub_ps(aVal,
    
                                _mm256_and_ps(_mm256_mul_ps(aVal, ftwos),
    
      32766
                                              _mm256_cmp_ps(aVal, fzeroes, _CMP_LT_OS)));
    
              // q = (int) (s * (4/pi)), floor(aVal / (pi/4))
    
      65532
              q = _mm256_cvtps_epi32(_mm256_floor_ps(_mm256_mul_ps(s, m4pi)));
    
              // r = q + q&1, q indicates quadrant, r gives
    
      98298
              r = _mm256_cvtepi32_ps(_mm256_add_epi32(q, _mm256_and_si256(q, ones)));
    
      32766
              s = _mm256_fnmadd_ps(r, pio4A, s);
    
      32766
              s = _mm256_fnmadd_ps(r, pio4B, s);
    
      32766
              s = _mm256_fnmadd_ps(r, pio4C, s);
    
      65532
              s = _mm256_div_ps(
    
                  s,
    
                  _mm256_set1_ps(8.0)); // The constant is 2^N, for 3 times argument reduction
    
      32766
              s = _mm256_mul_ps(s, s);
    
              // Evaluate Taylor series
    
      131064
              s = _mm256_mul_ps(
    
                  _mm256_fmadd_ps(
    
                      _mm256_fmsub_ps(
    
                          _mm256_fmadd_ps(_mm256_fmsub_ps(s, cp5, cp4), s, cp3), s, cp2),
    
                      s,
    
                      cp1),
    
                  s);
    
        2/2✓ Branch 0 taken 98298 times.
✓ Branch 1 taken 32766 times.

      131064
              for (i = 0; i < 3; i++)
    
      196596
                  s = _mm256_mul_ps(s, _mm256_sub_ps(ffours, s));
    
      32766
              s = _mm256_div_ps(s, ftwos);
    
      98298
              sine = _mm256_sqrt_ps(_mm256_mul_ps(_mm256_sub_ps(ftwos, s), s));
    
      32766
              cosine = _mm256_sub_ps(fones, s);
    
              // if(((q+1)&2) != 0) { cosine=sine;}
    
      32766
              condition1.int_vec =
    
      65532
                  _mm256_cmpeq_epi32(_mm256_and_si256(_mm256_add_epi32(q, ones), twos), zeroes);
    
      65532
              condition1.int_vec = _mm256_xor_si256(allones, condition1.int_vec);
    
              // if(((q+2)&4) != 0) { cosine = -cosine;}
    
      65532
              condition3.int_vec = _mm256_cmpeq_epi32(
    
                  _mm256_and_si256(_mm256_add_epi32(q, twos), fours), zeroes);
    
      32766
              condition3.int_vec = _mm256_xor_si256(allones, condition3.int_vec);
    
      98298
              cosine = _mm256_add_ps(
    
                  cosine, _mm256_and_ps(_mm256_sub_ps(sine, cosine), condition1.float_vec));
    
      163830
              cosine = _mm256_sub_ps(cosine,
    
                                     _mm256_and_ps(_mm256_mul_ps(cosine, _mm256_set1_ps(2.0f)),
    
                                                   condition3.float_vec));
    
              _mm256_storeu_ps(bPtr, cosine);
    
      32766
              aPtr += 8;
    
      32766
              bPtr += 8;
    
          }
    
      2
          number = eighthPoints * 8;
    
        2/2✓ Branch 0 taken 14 times.
✓ Branch 1 taken 2 times.

      16
          for (; number < num_points; number++) {
    
      14
              *bPtr++ = cos(*aPtr++);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_AVX2 && LV_HAVE_FMA for unaligned */
    
      #ifdef LV_HAVE_AVX2
    
      #include <immintrin.h>
    
      static inline void
    
      2
      volk_32f_cos_32f_u_avx2(float* bVector, const float* aVector, unsigned int num_points)
    
      {
    
      2
          float* bPtr = bVector;
    
      2
          const float* aPtr = aVector;
    
      2
          unsigned int number = 0;
    
      2
          unsigned int eighthPoints = num_points / 8;
    
      2
          unsigned int i = 0;
    
          __m256 aVal, s, r, m4pi, pio4A, pio4B, pio4C, cp1, cp2, cp3, cp4, cp5, ffours, ftwos,
    
              fones, fzeroes;
    
          __m256 sine, cosine;
    
          __m256i q, ones, twos, fours;
    
      2
          m4pi = _mm256_set1_ps(1.273239544735162542821171882678754627704620361328125);
    
      2
          pio4A = _mm256_set1_ps(0.7853981554508209228515625);
    
      2
          pio4B = _mm256_set1_ps(0.794662735614792836713604629039764404296875e-8);
    
      2
          pio4C = _mm256_set1_ps(0.306161699786838294306516483068750264552437361480769e-16);
    
      2
          ffours = _mm256_set1_ps(4.0);
    
      2
          ftwos = _mm256_set1_ps(2.0);
    
      2
          fones = _mm256_set1_ps(1.0);
    
      2
          fzeroes = _mm256_setzero_ps();
    
      2
          __m256i zeroes = _mm256_set1_epi32(0);
    
      2
          ones = _mm256_set1_epi32(1);
    
      2
          __m256i allones = _mm256_set1_epi32(0xffffffff);
    
      2
          twos = _mm256_set1_epi32(2);
    
      2
          fours = _mm256_set1_epi32(4);
    
      2
          cp1 = _mm256_set1_ps(1.0);
    
      2
          cp2 = _mm256_set1_ps(0.08333333333333333);
    
      2
          cp3 = _mm256_set1_ps(0.002777777777777778);
    
      2
          cp4 = _mm256_set1_ps(4.96031746031746e-05);
    
      2
          cp5 = _mm256_set1_ps(5.511463844797178e-07);
    
          union bit256 condition1;
    
          union bit256 condition3;
    
        2/2✓ Branch 0 taken 32766 times.
✓ Branch 1 taken 2 times.

      32768
          for (; number < eighthPoints; number++) {
    
      32766
              aVal = _mm256_loadu_ps(aPtr);
    
              // s = fabs(aVal)
    
      98298
              s = _mm256_sub_ps(aVal,
    
                                _mm256_and_ps(_mm256_mul_ps(aVal, ftwos),
    
      32766
                                              _mm256_cmp_ps(aVal, fzeroes, _CMP_LT_OS)));
    
              // q = (int) (s * (4/pi)), floor(aVal / (pi/4))
    
      65532
              q = _mm256_cvtps_epi32(_mm256_floor_ps(_mm256_mul_ps(s, m4pi)));
    
              // r = q + q&1, q indicates quadrant, r gives
    
      98298
              r = _mm256_cvtepi32_ps(_mm256_add_epi32(q, _mm256_and_si256(q, ones)));
    
      65532
              s = _mm256_sub_ps(s, _mm256_mul_ps(r, pio4A));
    
      65532
              s = _mm256_sub_ps(s, _mm256_mul_ps(r, pio4B));
    
      65532
              s = _mm256_sub_ps(s, _mm256_mul_ps(r, pio4C));
    
      65532
              s = _mm256_div_ps(
    
                  s,
    
                  _mm256_set1_ps(8.0)); // The constant is 2^N, for 3 times argument reduction
    
      32766
              s = _mm256_mul_ps(s, s);
    
              // Evaluate Taylor series
    
      262128
              s = _mm256_mul_ps(
    
                  _mm256_add_ps(
    
                      _mm256_mul_ps(
    
                          _mm256_sub_ps(
    
                              _mm256_mul_ps(
    
                                  _mm256_add_ps(
    
                                      _mm256_mul_ps(_mm256_sub_ps(_mm256_mul_ps(s, cp5), cp4),
    
                                                    s),
    
                                      cp3),
    
                                  s),
    
                              cp2),
    
                          s),
    
                      cp1),
    
                  s);
    
        2/2✓ Branch 0 taken 98298 times.
✓ Branch 1 taken 32766 times.

      131064
              for (i = 0; i < 3; i++)
    
      196596
                  s = _mm256_mul_ps(s, _mm256_sub_ps(ffours, s));
    
      32766
              s = _mm256_div_ps(s, ftwos);
    
      98298
              sine = _mm256_sqrt_ps(_mm256_mul_ps(_mm256_sub_ps(ftwos, s), s));
    
      32766
              cosine = _mm256_sub_ps(fones, s);
    
              // if(((q+1)&2) != 0) { cosine=sine;}
    
      32766
              condition1.int_vec =
    
      65532
                  _mm256_cmpeq_epi32(_mm256_and_si256(_mm256_add_epi32(q, ones), twos), zeroes);
    
      65532
              condition1.int_vec = _mm256_xor_si256(allones, condition1.int_vec);
    
              // if(((q+2)&4) != 0) { cosine = -cosine;}
    
      65532
              condition3.int_vec = _mm256_cmpeq_epi32(
    
                  _mm256_and_si256(_mm256_add_epi32(q, twos), fours), zeroes);
    
      32766
              condition3.int_vec = _mm256_xor_si256(allones, condition3.int_vec);
    
      98298
              cosine = _mm256_add_ps(
    
                  cosine, _mm256_and_ps(_mm256_sub_ps(sine, cosine), condition1.float_vec));
    
      163830
              cosine = _mm256_sub_ps(cosine,
    
                                     _mm256_and_ps(_mm256_mul_ps(cosine, _mm256_set1_ps(2.0f)),
    
                                                   condition3.float_vec));
    
              _mm256_storeu_ps(bPtr, cosine);
    
      32766
              aPtr += 8;
    
      32766
              bPtr += 8;
    
          }
    
      2
          number = eighthPoints * 8;
    
        2/2✓ Branch 0 taken 14 times.
✓ Branch 1 taken 2 times.

      16
          for (; number < num_points; number++) {
    
      14
              *bPtr++ = cos(*aPtr++);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_AVX2 for unaligned */
    
      #ifdef LV_HAVE_SSE4_1
    
      #include <smmintrin.h>
    
      static inline void
    
      2
      volk_32f_cos_32f_u_sse4_1(float* bVector, const float* aVector, unsigned int num_points)
    
      {
    
      2
          float* bPtr = bVector;
    
      2
          const float* aPtr = aVector;
    
      2
          unsigned int number = 0;
    
      2
          unsigned int quarterPoints = num_points / 4;
    
      2
          unsigned int i = 0;
    
          __m128 aVal, s, m4pi, pio4A, pio4B, cp1, cp2, cp3, cp4, cp5, ffours, ftwos, fones,
    
              fzeroes;
    
          __m128 sine, cosine, condition1, condition3;
    
          __m128i q, r, ones, twos, fours;
    
      2
          m4pi = _mm_set1_ps(1.273239545);
    
      2
          pio4A = _mm_set1_ps(0.78515625);
    
      2
          pio4B = _mm_set1_ps(0.241876e-3);
    
      2
          ffours = _mm_set1_ps(4.0);
    
      2
          ftwos = _mm_set1_ps(2.0);
    
      2
          fones = _mm_set1_ps(1.0);
    
      2
          fzeroes = _mm_setzero_ps();
    
      2
          ones = _mm_set1_epi32(1);
    
      2
          twos = _mm_set1_epi32(2);
    
      2
          fours = _mm_set1_epi32(4);
    
      2
          cp1 = _mm_set1_ps(1.0);
    
      2
          cp2 = _mm_set1_ps(0.83333333e-1);
    
      2
          cp3 = _mm_set1_ps(0.2777778e-2);
    
      2
          cp4 = _mm_set1_ps(0.49603e-4);
    
      2
          cp5 = _mm_set1_ps(0.551e-6);
    
        2/2✓ Branch 0 taken 65534 times.
✓ Branch 1 taken 2 times.

      65536
          for (; number < quarterPoints; number++) {
    
      65534
              aVal = _mm_loadu_ps(aPtr);
    
      262136
              s = _mm_sub_ps(aVal,
    
                             _mm_and_ps(_mm_mul_ps(aVal, ftwos), _mm_cmplt_ps(aVal, fzeroes)));
    
      131068
              q = _mm_cvtps_epi32(_mm_floor_ps(_mm_mul_ps(s, m4pi)));
    
      131068
              r = _mm_add_epi32(q, _mm_and_si128(q, ones));
    
      196602
              s = _mm_sub_ps(s, _mm_mul_ps(_mm_cvtepi32_ps(r), pio4A));
    
      196602
              s = _mm_sub_ps(s, _mm_mul_ps(_mm_cvtepi32_ps(r), pio4B));
    
      131068
              s = _mm_div_ps(
    
                  s, _mm_set1_ps(8.0)); // The constant is 2^N, for 3 times argument reduction
    
      65534
              s = _mm_mul_ps(s, s);
    
              // Evaluate Taylor series
    
      524272
              s = _mm_mul_ps(
    
                  _mm_add_ps(
    
                      _mm_mul_ps(
    
                          _mm_sub_ps(
    
                              _mm_mul_ps(
    
                                  _mm_add_ps(_mm_mul_ps(_mm_sub_ps(_mm_mul_ps(s, cp5), cp4), s),
    
                                             cp3),
    
                                  s),
    
                              cp2),
    
                          s),
    
                      cp1),
    
                  s);
    
        2/2✓ Branch 0 taken 196602 times.
✓ Branch 1 taken 65534 times.

      262136
              for (i = 0; i < 3; i++) {
    
      393204
                  s = _mm_mul_ps(s, _mm_sub_ps(ffours, s));
    
              }
    
      65534
              s = _mm_div_ps(s, ftwos);
    
      196602
              sine = _mm_sqrt_ps(_mm_mul_ps(_mm_sub_ps(ftwos, s), s));
    
      65534
              cosine = _mm_sub_ps(fones, s);
    
      262136
              condition1 = _mm_cmpneq_ps(
    
                  _mm_cvtepi32_ps(_mm_and_si128(_mm_add_epi32(q, ones), twos)), fzeroes);
    
      262136
              condition3 = _mm_cmpneq_ps(
    
                  _mm_cvtepi32_ps(_mm_and_si128(_mm_add_epi32(q, twos), fours)), fzeroes);
    
      196602
              cosine = _mm_add_ps(cosine, _mm_and_ps(_mm_sub_ps(sine, cosine), condition1));
    
      262136
              cosine = _mm_sub_ps(
    
                  cosine, _mm_and_ps(_mm_mul_ps(cosine, _mm_set1_ps(2.0f)), condition3));
    
              _mm_storeu_ps(bPtr, cosine);
    
      65534
              aPtr += 4;
    
      65534
              bPtr += 4;
    
          }
    
      2
          number = quarterPoints * 4;
    
        2/2✓ Branch 0 taken 6 times.
✓ Branch 1 taken 2 times.

      8
          for (; number < num_points; number++) {
    
      6
              *bPtr++ = cosf(*aPtr++);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_SSE4_1 for unaligned */
    
      #ifdef LV_HAVE_GENERIC
    
      /*
    
       * For derivation see
    
       * Shibata, Naoki, "Efficient evaluation methods of elementary functions
    
       * suitable for SIMD computation," in Springer-Verlag 2010
    
       */
    
      2
      static inline void volk_32f_cos_32f_generic_fast(float* bVector,
    
                                                       const float* aVector,
    
                                                       unsigned int num_points)
    
      {
    
      2
          float* bPtr = bVector;
    
      2
          const float* aPtr = aVector;
    
      2
          float m4pi = 1.273239544735162542821171882678754627704620361328125;
    
      2
          float pio4A = 0.7853981554508209228515625;
    
      2
          float pio4B = 0.794662735614792836713604629039764404296875e-8;
    
      2
          float pio4C = 0.306161699786838294306516483068750264552437361480769e-16;
    
      2
          int N = 3; // order of argument reduction
    
          unsigned int number;
    
        2/2✓ Branch 0 taken 262142 times.
✓ Branch 1 taken 2 times.

      262144
          for (number = 0; number < num_points; number++) {
    
      262142
              float s = fabs(*aPtr);
    
      262142
              int q = (int)(s * m4pi);
    
      262142
              int r = q + (q & 1);
    
      262142
              s -= r * pio4A;
    
      262142
              s -= r * pio4B;
    
      262142
              s -= r * pio4C;
    
      262142
              s = s * 0.125; // 2^-N (<--3)
    
      262142
              s = s * s;
    
      262142
              s = ((((s / 1814400. - 1.0 / 20160.0) * s + 1.0 / 360.0) * s - 1.0 / 12.0) * s +
    
      262142
                   1.0) *
    
                  s;
    
              int i;
    
        2/2✓ Branch 0 taken 786426 times.
✓ Branch 1 taken 262142 times.

      1048568
              for (i = 0; i < N; ++i) {
    
      786426
                  s = (4.0 - s) * s;
    
              }
    
      262142
              s = s / 2.0;
    
      262142
              float sine = sqrt((2.0 - s) * s);
    
      262142
              float cosine = 1 - s;
    
        2/2✓ Branch 0 taken 56035 times.
✓ Branch 1 taken 206107 times.

      262142
              if (((q + 1) & 2) != 0) {
    
      56035
                  s = cosine;
    
      56035
                  cosine = sine;
    
      56035
                  sine = s;
    
              }
    
        1/2✗ Branch 0 not taken.
✓ Branch 1 taken 262142 times.

      262142
              if (((q + 2) & 4) != 0) {
    
      ✗
                  cosine = -cosine;
    
              }
    
      262142
              *bPtr = cosine;
    
      262142
              bPtr++;
    
      262142
              aPtr++;
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_GENERIC */
    
      #ifdef LV_HAVE_GENERIC
    
      static inline void
    
      2
      volk_32f_cos_32f_generic(float* bVector, const float* aVector, unsigned int num_points)
    
      {
    
      2
          float* bPtr = bVector;
    
      2
          const float* aPtr = aVector;
    
      2
          unsigned int number = 0;
    
        2/2✓ Branch 0 taken 262142 times.
✓ Branch 1 taken 2 times.

      262144
          for (; number < num_points; number++) {
    
      262142
              *bPtr++ = cosf(*aPtr++);
    
          }
    
      2
      }
    
      #endif /* LV_HAVE_GENERIC */
    
      #ifdef LV_HAVE_NEON
    
      #include <arm_neon.h>
    
      #include <volk/volk_neon_intrinsics.h>
    
      static inline void
    
      volk_32f_cos_32f_neon(float* bVector, const float* aVector, unsigned int num_points)
    
      {
    
          unsigned int number = 0;
    
          unsigned int quarter_points = num_points / 4;
    
          float* bVectorPtr = bVector;
    
          const float* aVectorPtr = aVector;
    
          float32x4_t b_vec;
    
          float32x4_t a_vec;
    
          for (number = 0; number < quarter_points; number++) {
    
              a_vec = vld1q_f32(aVectorPtr);
    
              // Prefetch next one, speeds things up
    
              __VOLK_PREFETCH(aVectorPtr + 4);
    
              b_vec = _vcosq_f32(a_vec);
    
              vst1q_f32(bVectorPtr, b_vec);
    
              // move pointers ahead
    
              bVectorPtr += 4;
    
              aVectorPtr += 4;
    
          }
    
          // Deal with the rest
    
          for (number = quarter_points * 4; number < num_points; number++) {
    
              *bVectorPtr++ = cosf(*aVectorPtr++);
    
          }
    
      }
    
      #endif /* LV_HAVE_NEON */
    
      #endif /* INCLUDED_volk_32f_cos_32f_u_H */