Hur HomePod använder maskininlärning för att öka Siri-noggrannheten i fältet

I ett nytt inlägg som publicerades på måndag genom sin Machine Learning Journal-blogg, fortsätter Apple att detaljera hur HomePod, dess trådlösa smarta högtalare, använder maskininlärning för att öka exakt fältfält, vilket hjälper Siri att bortse från eller undertrycka bakgrundsljud för att bättre förstå ditt talade förfrågningar i bullriga miljöer.

Från artikeln:

Den typiska ljudmiljön för HomePod har många utmaningar - eko, efterklang och buller. Till skillnad från Siri på iPhone, som fungerar nära användarens mun, måste Siri på HomePod fungera bra i ett långtgående fält. Användare vill åberopa Siri från många platser, som soffan eller köket, utan hänsyn till var HomePod sitter.

Ett komplett online-system, som hanterar alla miljöfrågor som HomePod kan uppleva, kräver en tät integration av olika flerkanals signalbehandlingsteknologier. Följaktligen byggde Audio Software Engineering och Siri Speech-team ett system som integrerar både övervakade modeller för djup inlärning och oövervakade inlärningsalgoritmer online och som utnyttjar flera mikrofonsignaler.

Systemet väljer den optimala ljudströmmen för taligenkännaren med hjälp av top-down kunskap från "Hey Siri" trigger fraser detektorer.

Resten av artikeln diskuterar användning av olika maskininlärningstekniker för signalbehandling online, liksom de utmaningar Apple mötte och deras lösningar för att uppnå miljö- och algoritmisk robusthet samtidigt som energieffektivitet säkerställs.

Lång historia kort, Siri på HomePod implementerar multikanals Echo Cancellation (MCEC) algoritm som använder en uppsättning linjära adaptiva filter för att modellera flera akustiska banor mellan högtalarna och mikrofonerna för att avbryta den akustiska kopplingen.

På grund av högtalarnas närhet till mikrofonerna på HomePod kan uppspelningssignalen vara betydligt högre än användarens röstkommando vid mikrofonpositionerna, särskilt när användaren rör sig bort från enheten. I själva verket kan ekosignalerna vara 30-40 dB högre än talsignalerna i fjärrfältet, vilket resulterar i att triggfrasen inte kan upptäckas på mikrofonerna under hög musikuppspelning.

TLDR: MCEC ensam kan inte ta bort uppspelningssignalen helt från ditt röstkommando.


Siri-kommando inspelat i närvaro av hög uppspelningsmusik: mikrofonsignal (överst), utgång från MCEC (mitten) och signal förbättrad av Apples maskbaserade ekoundertryckning (botten)

För att ta bort återstående avspelningsinnehåll efter MCEC använder HomePod en återstående ekoundertryckare (RES) -metod med lite hjälp från Apples välutbildade maskininlärningsmodell. För framgångsrik upptäckt av triggfraser gör RES saker som att minska kvarvarande linjärt eko, särskilt i närvaro av förändringar i dubbelprat och eko.

Var noga med att läsa hela inlägget och bläddra ner till avsnitt 7, där du har bilder av flera färgglada vågformer tillsammans med länkar under dem så att du kan höra själv hur mycket av en användares begäran undertrycks av musik som spelas med hög volym och uppspelningssignal genererad av HomePods tweeters och woofer.

Tidbit: Apples multikanals signalbehandling körs på en kärna av 1,4 GHz dubbelkärnig A8-kisel och förbrukar upp till 15 procent av chipets enkelkärnprestanda.

HomePod använder maskininlärning för många saker, inte bara Siri.

Innehållsrekommendationsalgoritmer som körs på enheten drar nytta av maskininlärning, liksom HomePods digitala ljudbehandlings- och ljudoptimeringsmetoder..