Apple publicerade på onsdag tre nya artiklar som beskriver de djupa inlärningsteknikerna som användes för att skapa Siris nya syntetiska röster. Uppskrivningarna täcker också andra maskininlärningsämnen som den kommer att dela senare denna vecka på Interspeech 2017-konferensen i Stockholm, Sverige.
Följande nya artiklar från Siri-teamet är nu tillgängliga:
- Deep Learning för Siris röstinformation om hur djupa blandningsdensitetsnätverk på enheten används för syntes av hybridenhet
- Inverse Text Normalization-närmar sig från ett märkningsperspektiv
- Förbättra akustiska modeller för neuralt nätverk - genom att dra fördel av tvärbandsbredd och tvärspråklig initialisering, om du vet vad jag menar
Om du har problem med att ta itu med tekniken eller till och med förstå det högtekniska språket som används i de senaste uppskrivningarna är du inte ensam.
Jag har inga problem att dyka djupt in i Apples komplexa dokumentation för utvecklare och annan specialiserad dokumentation, men jag känner mig helt dum bara när jag läser de detaljerade förklaringarna.
Bland andra förbättringar ger iOS 11 mer intelligens och en ny röst för Siri.
Apples personliga assistent använder inte längre fraser och ord inspelade av röstspelare för att konstruera meningar och dess svar. Istället antar Siri på iOS 11 (och andra plattformar) programmatiskt skapade manliga och kvinnliga röster. Det är en mycket svårare röstsyntes-teknik, men den möjliggör några riktigt coola kreativa möjligheter.
Till exempel drar de nya Siri-rösterna fördel av maskininlärning på enheten och konstgjord intelligens för att anpassa intonation, tonhöjd, tonvikt och tempo samtidigt som man talar i realtid med hänsyn till konversationens kontext. Apples artikel med titeln "Deep Learning for Siri's Voice" beskriver de olika teknikerna för djup inlärning bakom iOS 11: s Siri-röstförbättringar.
Enligt första stycket:
Siri är en personlig assistent som kommunicerar med hjälp av talsyntes. Börjar i iOS 10 och fortsätter med nya funktioner i iOS 11 och baserar Siri-röster på djup inlärning. De resulterande rösterna är mer naturliga, smidigare och tillåter Siris personlighet att lysa igenom.
De nya uppskrivningarna publicerades på den officiella bloggen Apple Machine Learning Journal, som etablerades för några veckor sedan för att täcka företagets ansträngningar inom maskininlärning, artificiell intelligens och relaterad forskning.
Apple fortsatte med bloggen efter kritik att den inte kunde anställa de ljusaste sinnena inom konstgjord intelligens och maskininlärning eftersom det inte skulle låta dem publicera sina verk.
Det första inlägget, med titeln "Förbättra realismen av syntetiska bilder", publicerades i juli. Den fördjupade artikeln beskriver en ny metod för att förbättra realismen av syntetiska bilder från en simulator med användning av omärkt verklig data samtidigt som kommentarinformationen bevaras.