3.2.2 Limites

Un SM étant composé de 8 SP, on sera donc limité à l'exécution de 8 blocs en simultané. De plus, l'exécution est limitée à 65536 blocs et 512 threads par bloc au total.

Vous n'avez pas encore eu un aperçu du temps consacré au calcul en fonction des différents paramètres.

En faisant varier le nombre de blocs de calcul sur un même problème, voici les résultats que l'on peut obtenir, avec de simples opérations d'entrée/sortie dans une table. Un bloc correspond à un thread sur un CPU, que l'on peut affecter à un cœur. Variation du temps de calcul en fonction du nombre de blocs

plop

Le processeur utilisé ici est un simple cœur, ses performances en fonction du nombre de threads restent donc stables. S'il s'agissait d'un quad-core, le minimum serait situé à 4 threads.

La carte graphique, une GeForce 8800 GTX, possède 16 processeurs, qui ne donnent leur pleine puissance qu'à deux blocs chacun. NVIDIA recommande toutefois d'utiliser au moins une centaine de blocs, afin de pouvoir utiliser la puissance de chipsets plus récents à venir.