-
Notifications
You must be signed in to change notification settings - Fork 23
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Doc 24 many tasks per gpu #228
Doc 24 many tasks per gpu #228
Conversation
…icace en lancant plusieurs jobs par GPU, avec des "task" SLURM)
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Merci!
@obilaniu si jamais tu as un meilleur wording à proposer pour index.rst ça pourrait être utile. Sinon no worries.
Êtes-vous au courant de
? |
Salut, @obilaniu ! En effet, je ne connaissais pas Je note par contre que le combo |
-#SBATCH --gpus-per-task=rtx8000:1 | ||
-#SBATCH --cpus-per-task=4 | ||
-#SBATCH --ntasks-per-node=1 | ||
+#SBATCH --gpus=1 | ||
+#SBATCH --ntasks-per-gpu=2 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Pourquoi pas garder --gres=gpu:rtx8000:1 --ntasks-per-gpu=2 --cpus-per-task=4
? Ils servent tous à quelque chose.
J'ai une légère aversion à --gpus
/-G
parce que ce flag-là indique le nombre de GPUs total dans la job, et ne contraint pas SLURM à les allouer tous sur un noeud, ou même également sur plusieurs noeuds.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Un petit détail: C'est important que dans cet exemple les gens demandent un type de GPU spécifique à sbatch, parce qu'on veut qu'ils aient une idée de combien de VRAM une "task" a besoin, et donc on veut qu'ils sachent combien de tasks ils pourraient fitter confortablement sur le type de GPU choisi.
BTW, pas rapport, mais je vais faire un autre PR bientôt qui change un peu la narrative des exemples, pour rendre ça plus comme un "walkthrough", où les usagers commencent par apprendre à monitor leur utilisation des ressources et identifier les bottlenecks, ensuite comment utiliser efficacement le GPU (cet exemple-ci), et ensuite lancer plusieurs jobs avec un job array.
Ceci serait une des "trames narratives" présentes dans les exemples.
Signed-off-by: Fabrice Normandin <[email protected]>
Signed-off-by: Fabrice Normandin <[email protected]>
Salut @lebrice ! Voici du code de base pour DOC-24 (Exemple: utiliser un gros GPU de manière efficace en lancant plusieurs jobs par GPU, avec des "task" SLURM).
Je ne suis pas sûr que le code soit bon: quand je le tests, j'ai l'impression que les tasks sont toujours roulées de façon séquentielle. Je ne comprends pas encore pourquoi.