Part 6 : Conclusion

Nous avons vu dans ce cours comment optimiser, vectoriser (voire plus en fonctions intrinsèques) et paralléliser un calcul qui nécéssite les informations de données voisines.

En résumé nous sommes parti d'une implémentation naïve faisant un calcul donné en 2h43min30s et nous l'avons réduit à 9min49s sur un seul thread et 6min41s sur 8 threads.

Nous verrons dans un prochain cours comment compiler ce programme avec nvc++ et l'option --stdpar qui permet de porter automatiquement du C++17 sur GPU, depuis sa version de novembre 2020.

Pour les impatients, tout est abordé dans le blog développeur de NVidia.