NVIDIA GeForce GTX 980: al doilea act al lui Maxwell

Maxwell pentru a doua oară

Desigur, în comparație cu arhitectura originală Maxwell dezvăluită la începutul acestui an, designul de a doua generație s-a schimbat oarecum, dar utilizarea energiei absolut eficiente a ieșit în prim plan. Noul GM204 denumit în cod are cifre de consum foarte bune în comparație cu dimensiunea sa. Nu este surprinzător faptul că tehnologia de fabricație de 28 nm a supraviețuit, astfel încât cipul de 398 mm², care este format din 5,2 miliarde de tranzistoare, a reușit să încorporeze 16 multiprocesoare de streaming, pe care NVIDIA le numește SMM sau multiprocesor de streaming Maxwell, pentru Maxwell.

Structura multiprocesoarelor de streaming s-a schimbat cu greu în comparație cu soluția cunoscută în GM107. Ca rezultat, patru blocuri de calcul mai mari au fost create într-o astfel de unitate care utilizează un cache de instrucțiuni comun. Fiecare bloc de calcul are un buffer de instrucțiuni care aparent preia informațiile necesare pentru jobul curent din memoria cache a instrucțiunilor. Întregul sistem folosește un program complex, care este implementat parțial în hardware și parțial în software. Partea hardware este responsabilitatea motorului GigaThread deja familiar, în timp ce partea programată a programului este, desigur, o parte a compilatorului de drivere. Prin utilizarea acestuia din urmă, se poate economisi o cantitate relativ mare de energie.

Bună r de t și

Un bloc de calcul utilizează două unități de expediere și un planificator warp care alimentează 32 de așa-numitele nuclee CUDA, astfel încât cuvintele de instrucțiune să fie executate pe 2 procesoare cu 16 căi în paralel. Fiecare nucleu CUDA are un executor în virgulă mobilă pe 32 de biți, compatibil IEEE754-2008, care acceptă instrucțiunile MAD (Multiply-Add) și FMA (Fused Multiply-Add). Fiecare bloc de calcul are o zonă de registru comună, cu o capacitate de 64 kB. Există încă 8 unități funcționale speciale (SFU) în cadrul blocului de calcul, care efectuează sarcina de interpolare în plus față de instrucțiunile trigonometrice și transcendente.

GM204 copiază și GM107 în zona capacităților de texturare, astfel încât fiecare multiprocesor de streaming include două blocuri de texturare cu patru adrese de textură și un filtru de textură, fiecare cu patru eșantioane pe canal. Un bloc de texturare este utilizat de două blocuri de calcul în același timp. Este conectat la nivel hardware, deci se poate spune că SMM este împărțit în două tablouri mari de procesare care conțin două calcule și un bloc de texturare. Cu toate acestea, în cazul lui Maxwell, cache-ul de 12 kB pentru texturare rămâne din punct de vedere tehnic un cache de date, ceea ce înseamnă că poate, desigur, să stocheze și informații despre textură, dar poate fi folosit și pentru datele necesare pentru calcul. Zestrea acestui fapt este că această memorie cache nu este doar lizibilă, ci și scrisă.

Evident, nu este favorabil pentru calcule dacă doar două din cele patru blocuri de calcul pot scrie pe propriul teritoriu la un moment dat, deși GM204 poate împărți în continuare cota de date locale de 96 kB în două secțiuni de 48 kB, care rulează încă două blocuri de calcul, dar cu stocare relativ mare. Cu toate acestea, o opțiune alternativă este împărțirea LDS în trei secțiuni de 32 kB, care pot conține până la trei din cele patru blocuri de calcul. Desigur, pe alte interfețe de calcul, partajarea locală a datelor poate fi utilizată în continuare mult mai flexibil, deoarece operațiunea de mai sus se datorează în principal limitărilor standardului DirectCompute 5.0.

În ceea ce privește ierarhia memoriei, GM204 este neschimbat față de GM107, astfel încât arhitectura include încă o memorie cache L2 partajată de 2 MB care poate fi accesată de fiecare multiprocesor de streaming și poate fi scrisă și prin nucleele CUDA. Unele dintre acestea ajută încă la optimizarea mozaicului, ca un fel de memorie dedicată în cip.

În ceea ce privește controlerul de memorie, NVIDIA a rămas pe bara transversală. GM204 utilizează o magistrală largă de 256 de biți care este distribuită pe canale pe 64 de biți. Fiecare canal are un bloc ROP. Există un total de 4 dintre acestea din urmă, rezultând 64 de unități de amestecare și 256 Z de eșantionare.

Schiță completă a noului SMM [+]

NVIDIA rezolvă o precizie dublă pentru GM204 la fel ca în chip-ul GK110. În acest caz, fiecare bloc de calcul are un nucleu CUDA special. În termeni tehnici, acestea sunt părți ale SMM, dar două nuclee speciale CUDA sunt partajate de două blocuri de calcul. Ca rezultat, un SMM conține un total de patru nuclee cu precizie dublă, rezultând 64 de procesoare pentru întregul cip. Aceasta înseamnă că rata teoretică de calcul realizabilă cu o precizie dublă este de 32 de ori viteza teoretică afișată cu o singură precizie.

Articolul nu s-a terminat încă, vă rugăm să derulați!