README.md

float dotprod_v8f(const float* a, const float* b, int n) {
  // Local var declarations
  int i;
  v8f va, vb, s;
  m8f vmask;

  // initialization
  s = v8f_zero();

  // main loop
  for (i = 0; i < n - 8; i += 8) {
    va = v8f_loadu(&a[i]);
    vb = v8f_loadu(&b[i]);
    s = v8f_fmadd(va, vb, s);

  } /* remainder */ {
    vmask = m8f_cvt_m8i(m8i_gt(v8i_set1(n-i), v8i_set(0, 1, 2, 3, 4, 5, 6, 7)));
    va = v8f_loadu(&a[i]);
    vb = v8f_loadu(&b[i]);
    va = v8f_maskz_move(vmask, va);
    s = v8f_fmadd(va, vb, s);
  }

  // reduce s
  return sf_reduce_add_v8f(s);
}