Remove the UT hard limit on number of hits per module.
This MR removes the UT hard limit on number of hits per module, which existed only due to using shared memory in the permutation finder (akin to the VELO case). Performance is not affected:
A40 │████████████████████████████████████████████ 223.02 kHz (1.01x)
GeForce RTX 3090 │███████████████████████████████████████████ 216.50 kHz (1.01x)
RTX A6000 │██████████████████████████████████████████ 212.24 kHz (1.00x)
GeForce RTX 3080 │████████████████████████████████████████ 204.08 kHz (1.01x)
Quadro RTX 6000 │█████████████████████████████████ 165.97 kHz (1.00x)
GeForce RTX 2080 Ti │███████████████████████████████ 157.57 kHz (1.00x)
Tesla V100-PCIE-32GB │█████████████████████████████ 146.99 kHz (0.99x)
MI100 │████████████████████████████ 143.72 kHz (1.05x)
AMD EPYC 7502 32-Core │████ 22.51 kHz (1.00x)
Intel Xeon E5-2630 v4 │▌ 4.62 kHz (0.99x)
┼────┴────┼────┴────┼────┴────┼────┴────┼────┴────┼
0 50 100 150 200 250
Edited by Daniel Hugo Campora Perez