Tesla paketon 50 miliard transistorë në një çip për trajnimin e inteligjencës artificiale
Inteligjenca artificiale (AI) ka parë një adoptim të gjerë gjatë dy viteve të fundit. Në Tesla, e cila siç e dinë shumë është një kompani që punon në automjete elektrike dhe autonome, AI ka një vlerë masive për çdo aspekt të punës së kompanisë. Për të përshpejtuar ngarkesat e softuerit AI, Tesla ka prezantuar sot qarkun e integruar të aplikacionit të personalizuar D1 Dojo (ASIC) për trajnimin e AI.
Aktualisht ka shumë kompani që ndërtojnë ASIC për ngarkesat e punës me AI. Të gjithë nga një numër i panumërt i bizneseve të reja, deri tek lojtarët e mëdhenj si Amazon, Baidu, Intel dhe NVIDIA. Sidoqoftë, jo të gjithë e marrin formulën siç duhet dhe jo të gjithë mund të kënaqin çdo ngarkesë pune në mënyrë perfekte. Kjo është arsyeja pse Tesla zgjodhi të zhvillojë ASIC -in e saj për qëllime trajnimi të AI.
I quajtur D1, çipi i ngjan një pjese të superkompjuterit Dojo të përdorur për të trajnuar modele të Inteligjencës Artificiale brenda Tesla HQ, të cilat më vonë u vendosën në aplikacione të ndryshme. Çipi D1 është produkt i përpjekjeve prodhuese të TSMC, i falsifikuar në një nyje gjysmëpërçuese 7nm. Duke paketuar mbi 50 miliardë transistorë, çipi krenohet me një madhësi të madhe të bazës prej 645 mm^2.
Çipi ka disa pretendime mbresëlënëse të performancës, ku Tesla deklaron se mund të prodhojë deri në 362 TeraFLOP me saktësi FP16/CFP8 ose rreth 22.6 TeraFLOP me detyra FP32 me një precizion të vetëm. Shtë e qartë se Tesla është optimizuar për llojet e të dhënave FP16, ku ata kanë arritur të mposhtin edhe udhëheqësin aktual në fuqinë llogaritëse – Nvidia. GPU A100 Ampere e Nvidia është e aftë të prodhojë “vetëm” 312 TeraFLOP të energjisë në ngarkesat e punës FP16 – dhe me pakicë, mund të bëjë deri në dyfishin e saj.
Duke shkuar në nivelin e silikonit, ne shohim që Tesla ndërtoi një rrjet njësish funksionale (FU) që janë të ndërlidhura së bashku për të formuar një çip masiv. Çdo FU përmban një CPU 64-bit me ISA të personalizuar, e krijuar për transpozime, mbledhje, transmetime dhe kalime lidhëse. Dizajni i CPU-së në vetvete është një zbatim supersklar me tubacione vektoriale 4 shkallëshe dhe 2 të gjera. Duke parë imazhet më poshtë, mund të shihni se FU është ndërtuar me një bllok të madh për udhëzime të vetme të dhëna të shumëfishta (SIMD) me elementë lundrues dhe elementë të përpunimit të numrave të plotë. Çdo FU ka kujtesën e vet 1.25MB SRAM scratchpad.
Vetë FU është i aftë të kryejë një TeraFLOP të BF16 ose CFP8, 64 GigaFLOP të llogaritjes FP32, dhe ka 512 GB/s bandwidth në çdo drejtim në rrjetë. Rrjeti është krijuar për të përshkuar FU -të në një cikël të vetëm të orës, që do të thotë se vonesat zvogëlohen dhe performanca rritet. Për më shumë detaje, mund të shikoni përsëritjen e ditës së Tesla AI këtu.