4.2.1.2.2 : La fonction de calcul vectorisée
Commençons avec la documentation (j'insisterai toujours) suivit de la définition de notre fonction :
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
|
///Propagate the U and V species in the matU and matV
/** @param[out] poutMatU : updated matrix U version
* @param[out] poutMatV : updated matrix V version
* @param pmatU : input of matrix U
* @param pmatV : input of matrix V
* @param nbRow : number of rows of the matrices
* @param nbCol : number of columns of the matrices
* @param matDeltaSquare : matrix of the delta square values
* @param nbStencilRow : number of rows of the matrix matDeltaSquare
* @param nbStencilCol : number of columns of the matrix matDeltaSquare
* @param diffudionRateU : diffusion rate of the U specie
* @param diffudionRateV : diffusion rate of the V specie
* @param feedRate : rate of the process which feeds U and drains U, V and P
* @param killRate : rate of the process which converts V into P
* @param dt : time interval between two steps
*/
void grayscott_propagation(float * __restrict__ poutMatU, float * __restrict__ poutMatV, const float * __restrict__ pmatU, const float * __restrict__ pmatV,
long nbRow, long nbCol,
const float * matDeltaSquare, long nbStencilRow, long nbStencilCol,
float diffudionRateU, float diffusionRateV, float feedRate, float killRate, float dt)
{
|
Il faut indiquer au compilateur que les pointeurs que l'on utilise sont alignés sur
PLIB_VECTOR_SIZE_BYTE_FLOAT octets. C'est basiquement la seule différence avec notre implémentation naïve :
1
2
3
4
|
const float* matU = (const float*)__builtin_assume_aligned(pmatU, PLIB_VECTOR_SIZE_BYTE_FLOAT);
const float* matV = (const float*)__builtin_assume_aligned(pmatV, PLIB_VECTOR_SIZE_BYTE_FLOAT);
float* outMatU = (float*)__builtin_assume_aligned(poutMatU, PLIB_VECTOR_SIZE_BYTE_FLOAT);
float* outMatV = (float*)__builtin_assume_aligned(poutMatV, PLIB_VECTOR_SIZE_BYTE_FLOAT);
|
Nous déterminons les
offset de notre
stencil (le nombre de couches à partir de la cellule centrale) :
1
2
|
long offsetStencilRow((nbStencilRow - 1l)/2l);
long offsetStencilCol((nbStencilCol - 1l)/2l);
|
Nous bouclons sur les lignes de nos matrices pour mettre à jour toutes nos cellules :
1
|
for(long i(0l); i < nbRow; ++i){
|
Il faut maintenant déterminer les bornes de nos calculs en ligne (voir section
4.1.1.1) :
1
2
|
long firstRowStencil(std::max(i - offsetStencilRow, 0l));
long lastRowStencil(std::min(i + offsetStencilRow + 1l, nbRow));
|
Nous bouclons sur les colonnes de nos matrices pour mettre à jour toutes nos cellules :
1
|
for(long j(0l); j < nbCol; ++j){
|
Il faut maintenant déterminer les bornes de nos calculs en colonne (voir section
4.1.1.1) :
1
2
|
long firstColStencil(std::max(j - offsetStencilCol, 0l));
long lastColStencil(std::min(j + offsetStencilCol + 1l, nbCol));
|
Définissons quelques variables temporaires :
1
2
3
|
long stencilIndexRow(0l);
float u(matU[i*nbCol + j]), v(matV[i*nbCol + j]);
float fullU(0.0f), fullV(0.0f);
|
Nous devons maintenant boucler sur les lignes et les colonnes de notre
stencil :
1
2
3
|
for(long k(firstRowStencil); k < lastRowStencil; ++k){
long stencilIndexCol(0l);
for(long l(firstColStencil); l < lastColStencil; ++l){
|
Nous pouvons enfin calculer notre gradient :
1
2
3
|
float deltaSquare(matDeltaSquare[stencilIndexRow*nbStencilCol + stencilIndexCol]);
fullU += (matU[k*nbCol + l] - u)*deltaSquare;
fullV += (matV[k*nbCol + l] - v)*deltaSquare;
|
Il ne faut pas oublier d'incrémenter les indices qui nous permettent de parcourir la matrice
matDeltaSquare] :
1
2
3
4
|
++stencilIndexCol;
}
++stencilIndexRow;
}
|
On finalise le calcul :
1
2
3
|
float uvSquare(u*v*v);
float du(diffudionRateU*fullU - uvSquare + feedRate*(1.0f - u));
float dv(diffusionRateV*fullV + uvSquare - (feedRate + killRate)*v);
|
Et on sauvegarde le résultat :
1
2
|
outMatU[i*nbCol + j] = u + du*dt;
outMatV[i*nbCol + j] = v + dv*dt;
|
Fin des deux boucles sur les lignes et les colonnes :
Fin de la fonction :