Multi-node slurm training and improved slurm submission (!219) · Merge requests · atlas-flavor-tagging-tools / algorithms / Salt

Nicholas Luongo requested to merge nicholas/salt:ddp into main Jan 31, 2024

Allow for multi-node training when submitting to Slurm batch system by changing training strategy to DDP (DistributedDataParellel). Add new run_slurm.sh to ensure consistency of arguments passed to Slurm and salt.

Work towards #44

Edited Feb 26, 2024 by Samuel Van Stroud

Multi-node slurm training and improved slurm submission

Merge request reports