Arm Mali-G77 GPU - komplette inn- og utspill

Forfatter: Randy Alexander
Opprettelsesdato: 3 April 2021
Oppdater Dato: 1 Juli 2024
Anonim
Arm Mali-G77 GPU - komplette inn- og utspill - Teknologier
Arm Mali-G77 GPU - komplette inn- og utspill - Teknologier

Innhold


Ved siden av sin nye Cortex-A77 CPU-kjerne, har Arm avduket en neste generasjons GPU bestemt til neste generasjons SoC-smarttelefon. Mali-G77, for ikke å forveksle med den nye Mali-D77-skjermprosessoren, markerer avgangen til Arm's Bifrost-arkitektur og flytten over til Valhall.

Vi kommer inn på de fine detaljene i den nye arkitekturen om et øyeblikk. Først spretter vi rett inn på hva brukere kan forvente når det gjelder ytelsesgevinster.

Mali-G77 ytelsesoversikt

Arm kan skryte av opptil 40 prosent grafikkytelse med neste generasjons Mali-G77-enheter sammenlignet med dagens Mali-G76-modeller. Dette nummeret tar hensyn til prosess så vel som arkitektoniske forbedringer. Mali-G77 er konfigurerbar fra 7 til 16 skyggekjerner, og hver kjerne har nesten nøyaktig samme størrelse som G76-kjernen. Dette betyr at avanserte smarttelefoner sannsynligvis vil sende seg med samme GPU-kjernetelling som de gjør i dag - et sted i de lave tenårene. Dette lar oss praktisk gjøre noen spekulative ytelsesvurderinger mot eksisterende brikkesett.


Ser vi på det populære Manhattan GFXBench-referanseporteføljen, åpner en 40 prosent ytelsesøkning en betydelig ledelse mot nåværende generasjons maskinvare. Qualcomms neste generasjons Adreno-brikke vil trenge sin egen betydningsfulle ytelsesoppgradering for å holde spillfeltet nivå. Tabellene ser ut til å snu til fordel for Arm.

Arkitekturmessig øker spillytelsen 20 til 40%, mens maskinlæring tjener 60% boost

Basert på denne ganske rå ballparkeringen ser en 10-kjerners Mali-G77 (en konfigurasjon vi ofte ser fra Huawei) ut til å omtrent fjerne denne generasjonens topp grafiske maskinvare for linjen. En 12-kjerne konfigurasjon, vanligvis sett i Samsungs Exynos, gir en stor ledelse for Arm's siste GPU. Selvfølgelig vil reelle benchmarks avhenge av andre faktorer, inkludert prosessknute, GPU-hurtigminne, LPDDR-minnekonfigurasjon og typen applikasjon du tester. Så ta grafen over med en heftig dose salt.


Når det gjelder den nye arkitekturen alene, uttaler Arm at Mali-G77 gir en gjennomsnittlig forbedring på 30 prosent til energieffektivitet og ytelse tetthet. Det er også et enormt løft på 60 prosent for applikasjoner for maskinlæring, takket være INT8 dot-produktstøtte. Forventningene til spillytelse stilles et sted mellom 20 og 40 prosent økning, avhengig av tittel og hvilken type grafisk arbeidsmengde som tilbys.

For å forstå nøyaktig hvordan Arm har oppnådd denne ytelsen, kan vi ta et dypere dykk inn i arkitekturen.

Møt Valhall, Bifrosts etterfølger

Vahall er Arms andre generasjons skalær GPU-arkitektur. Det er en 16-bredt varp-utførelsesmotor, som egentlig betyr at GPU utfører 16 instruksjoner parallelt per syklus, per behandlingsenhet, per kjerne. Det er opp fra 4 og 8 bredt på Bifrost.

Andre nye arkitektoniske funksjoner inkluderer dynamisk instruksjonsplanlegging som styres helt i maskinvare og et helt nytt instruksjonssett som beholder driftsekvivalensen til Bifrost. Andre inkluderer støtte for armens AFBC1.3-komprimeringsformat, FP16-gjengivelsesmål, lagdelte gjengivelser og toppunkt-skyggerutganger.

Mali-G77 gjør 33% mer matematikk parallelt enn G76.

Nøklene til å forstå de store arkitektoniske endringene blir funnet ved å undersøke utførelsesenheten inne i kjernen. Denne delen av GPU er ansvarlig for antall knusing.

Inne i utførelsesmotoren

I Bifrost inneholdt hver GPU-kjerne tre utførelsesmotorer eller to i tilfelle noen nedre ende Mali-G52-design. Hver motor inneholder en i-cache, registerfil og varpkontrollenhet. I Mali-G72 håndterer hver motor fire instruksjoner per syklus, som økte til 8 i fjorårets Mali-G76. Spredt over disse tre kjernene tillater 12 og 24 32-biters flytende punkt (FP32) fused multiply-accumulate (FMA) instruksjoner per syklus.

Med Valhall og Mali-G77 er det bare en utførelsesmotor i hver GPU-kjerne. Som før rommer denne motoren varpkontrollenheten, registeret og icache, som nå er delt på to prosesseringsenheter. Hver behandlingsenhet håndterer 16 varpinstruksjoner per syklus, for en total gjennomstrømning på 32 FP32 FMA-instruksjoner per kjerne. Det er et 33 prosent løft for instruksjonsgjennomstrømning over Mali-G76.

Arm har overført fra tre til bare en utførelsesenhet per GPU-kjerne, men det er nå to behandlingsenheter innenfor en G77-kjerne.

I tillegg inneholder hver av disse behandlingsenhetene to nye matematiske funksjonsblokker. Den nye konverteringsenheten (CVT) håndterer grunnleggende instruksjoner for heltall, logikk, gren og konvertering. Den spesielle funksjonsenheten (SFU) akselererer heltallmultiplikasjon, divisjoner, kvadratrot, logaritmer og andre komplekse heltallfunksjoner.

Standard FMA-enhet har sett noen få justeringer, som støtter 16 FP32-instruksjoner per syklus, 32 FP16 eller 64 INT8-punkt produktinstruksjoner. Disse optimaliseringene gir 60 prosent ytelsesløft i applikasjoner for maskinlæring.

Quad Texture Mapper

Den andre viktige endringen i Mali-G77 er introduksjonen av en quad texture mapper, opp fra en dual texture mapper i forrige generasjon. Teksturmapper er ansvarlig for å kartlegge 3D-polygonene i en scene i 2D-representasjonen som du ser på en skjerm. Det er ansvarlig for prøvetaking, interpolering og filtrering for å jevne ut vinklet og bevegende innhold for å unngå tøffe kanter av lav kvalitet.

Rimelig anti-aliasing forblir på plass for å hjelpe til med bildekvalitet, men doblingen av strukturets ytelse er den største fordelen her. Teksturenheten behandler nå 4 bilinære texler per klokke opp fra 2 tidligere, 2 trekanten teksteller per klokke, og håndterer raskere FP16 og FP32-filtrering.

Quad-teksturmapperen er delt i to baner, og gir en kortere rørledning for tråder som treffer innhold i hurtigbufferen. Miss path, som håndterer formatkonvertering og dekompresjon av tekstur, har et bredere grensesnitt til L2-cache. Dette er også nyttig for maskinlæring arbeidsmengder som ofte kan trenge å hente inn nye data fra minnet.

Å bringe alt sammen i Mali-G77

Arm har laget en rekke andre finjusteringer til Mali-G77 for å sammenfalle med de store endringene i Valhall-arkitekturen. Kontrollblokken er forenklet takket være designen av én utførelsesenhet, mens den interne dynamiske planleggeren faktisk gir mulighet for en mer fleksibel instruksjon som blir gitt i hver kjerne. Med en høyere gjennomstrømning i hver kjerne, er datapaten også kortere og lavere i latensen, ned til bare 4-sykluser fra 8 tidligere.

Den nye designen er også bedre tilpasset Vulkan API, noe som forenkler driverbeskrivelser for å senke førerens overhead for forbedret ytelse "til metall".

Oppsummert gjør Mali-G72 og Valhall viktige endringer fra Bifrost som lover betydelige ytelsesforbedringer for spill- og maskinlæringsapplikasjoner. Viktigere at designen passer innenfor de samme kraft- og områdebudsjettene som Bifrost, og sikrer at mobile enheter vil kunne tilby mer topp ytelse uten å bekymre deg for varme, strøm og silisiumkostnader. Basert på ytelsesprognosene, skal Mali-G77 kunne gi Qualcomms neste generasjons Adreno et godt løp for pengene.

Det er pennende å fly den førte dronen. Kankje har du et mindre leketøy, eller har du part opp til å kjøpe den DJI Mavic 2 Pro, eller en enda kraftigere drone. Uanett hva du k...

En av de bete bærbare datamakiner du kan kjøpe blir enda bedre! På IFA vite Dell frem en oppgradert XP 13 om holder det amme uteendet om forrige utgivele i 2019 fra CE, men nå pak...

Våre Råd