Slik fungerer Android 10s Live Caption faktisk

Forfatter: Peter Berry
Opprettelsesdato: 16 Lang L: none (month-012) 2021
Oppdater Dato: 1 Juli 2024
Anonim
Laser cleaning a rusty Range Rover chassis - Edd China’s Workshop Diaries 42
Video: Laser cleaning a rusty Range Rover chassis - Edd China’s Workshop Diaries 42

Innhold


Live Caption er en av de kuleste Android-funksjonene ennå, og bruker maskinlæring på enheten til å generere bildetekster for lokale videoer og webklipp.

Google har publisert et blogginnlegg som beskriver nøyaktig hvordan denne nifty-funksjonen fungerer, og den består faktisk av tre maskinlæringsmodeller på enheten, for det første.

Det er en tilbakevendende nevral nettverkssekvenstransduksjonsmodell (RNN-T) for selve taleigenkjenningen, men Google bruker også et tilbakevendende nevralt nettverk for å forutsi tegnsetting.

Den tredje maskinlæringsmodellen på maskinen er et innviklet nevralt nettverk (CNN) for lydhendelser, for eksempel fuglekvitring, folk klapper og musikk. Google sier at denne tredje maskinlæringsmodellen er avledet fra arbeidet med Live Transcribe-tilgjengelighetsappen, som er i stand til å transkribere tale- og lydhendelser.

Redusere virkningen av Live Caption

Selskapet sier at det er iverksatt en rekke tiltak for å redusere Live Captions batteriforbruk og krav til ytelse.For det første kjører den komplette motoren for automatisk talegjenkjenning (ASR) automatisk når tale faktisk blir oppdaget, i motsetning til å hele tiden gå i bakgrunnen.


Når for eksempel musikk blir oppdaget og det ikke er tale i lydstrømmen, vil etiketten vises på skjermen, og ASR-modellen blir lastet av. ASR-modellen blir bare lastet inn i minnet når det er tale i lydstrømmen igjen, forklarer Google i blogginnlegget.

Google har også brukt teknikker som beskjæring av nevrale forbindelser (kutte ned størrelsen på talemodellen), redusert strømforbruket med 50% og tillatt Live Caption å løpe kontinuerlig.

Google forklarer at resultatene for talegjenkjenning blir oppdatert noen ganger hvert sekund når bildeteksten dannes, men tegnsetting forutsigelse er annerledes. Søkegiganten sier at den leverer tegnsetting prediksjon "på halen av teksten fra den sist anerkjente setningen" for å redusere ressurskrav.

Live Caption er nå tilgjengelig i Google Pixel 4-serien, og Google sier at den snart vil være tilgjengelig på Pixel 3-serien og andre enheter. Selskapet sier at det også jobber med støtte for andre språk og bedre støtte for innhold i flere høyttalere.


Vi har kjent på Google Pixel 3a XL på en tund nå, men den er nå offiiell. Den nye mellomtonen Pixel 3a XL har mye til felle med in eldre flaggkipbror, elv om det er noen få vi...

Hvi du er en eriø videokaper, er annynligvi ikke Google Pixel 4 marttelefonen for deg. Men Pixel 4 og Pixel 4 XL tøtter 4K- eller Ultra HD-videoopptak, amvarer de ikke med høy opplø...

Vi Anbefaler Deg Å Lese