nl

NL

  • EN
  • DE
  • NL
£
nl

Startpagina / Blog / Interspeech 2019

Interspeech is een van de grootste congressen over spraakonderzoek. Alle marktleiders kwamen in september 2019 bij elkaar gedurende dit vierdaagse event om hun werk te presenteren. Ik deel graag mijn belangrijkste inzichten.

Spraaksynthese

De eerste dag was erg interessant. Graz was dit keer de locatie omdat Oostenrijk drie verschillende talen kent (een Romaanse, een Slavische en een Germaanse). De keynote spreker, ISCA medaille winnaar Keiichi Tokuda, deelde belangrijke inzichten op het gebied van statistische spraaksynthese.

Een voor mij belangrijk inzicht ging over de ontwikkelingen op het gebied van de huidige mogelijkheden voor de productie van emotie in spraaksynthese. Het belangrijkste aspect om een computerstem natuurlijk te laten klinken. Hiervoor wordt een zogenaamd 'Hidden Markov model' gebruikt om de stemmen te produceren. Zo kregen de deelnemers een voorbeeld te horen van een computer gegenereerde stem die kan zingen, en ongelooflijk natuurlijk klonk.

Zero resource ASR

De sessie over zero resource ASR draaide om dialecten en talen die uitsterven. In het laatste geval, kan dit worden gecombineerd met een spraak synthesizer om de taal te kunnen leren aan hen die interesse hebben dergelijke talen levend te houden. Door delen uit een andere taal te gebruiken kun je een nieuwe (zero resource) taal creëren.

Tijdens de sessie zagen we een soort woordenboek waarmee beelden kunnen worden gemaakt met gebruik van twee talen. Hiervoor is het wel noodzakelijk dat de talen overeenkomsten hebben. Het kan zeer interessant zijn deze technologie te gebruiken voor robotics, zodat een robot in een eigen 'taal' kan beschrijven wat het ziet.

Het is ook mogelijk om akoestische modellen (hoe woorden worden uitgesproken) samen te stellen uit een taal waarover veel informatie bekend is en een taalmodel (hoe woorden worden geschreven) van een zero resource taal. Hiervoor is een grote overeenkomst tussen de twee talen vereist. Bijvoorbeeld Nederlands en Afrikaans (waarbij het akoestische model van het Nederlands kan worden gehanteerd en een taalmodel van het Afrikaans). Dit principe zou kunnen helpen om een ASR te ontwikkelen voor nieuwe talen, maar je kunt het ook gebruiken voor bijvoorbeelden dialecten.

Far-field ASR

De far-field ASR presentatie draaide om stemassistenten. Tijdens de sessie zag ik diverse voorbeelden waarin spraak wordt beïnvloedt door geluid. Gecombineerd met weerkaatsing en echo heeft dit invloed op het audiosignaal, zij het dat dit duidelijker is bij far-field dan bij near field. Een combinatie van technieken, zoals deep learning, beamformer en Machine Learning modellen kunnen hier uitkomst bieden. Omdat beamformers direct op een apparaat kunnen worden geïnstalleerd en geen training nodig hebben levert dit enorme voordelen op.

Bronsplitsing

Bronsplitsing, alhoewel het veel overeenkomsten heeft met far-field ASR, gebruik je anders. In veel gevallen is hier geen sprake van weerkaatsing of echo, maar zijn er andere mensen die ook praten (ook wel bekend als het cocktailparty-effect). Voor dergelijke uitdagingen zagen we tijdens deze sessie voornamelijk oplossingen op het gebied van Machine Learning. Dit zouden we bij CTS kunnen gebruiken voor applicaties waar meerdere mensen tegelijkertijd spreken. In combinatie met een Dialogflow agent, kan ons dit helpen om een gesprek in een ruimte automatisch te transcriberen.

Geestelijke gezondheid

Er was ook een sessie over geestelijke gezondheid in relatie tot spraak. Spraak bevat allerlei kenmerken waaruit verschillende emoties te herkennen zijn, zodat het ingezet kan worden om te achterhalen wat iemands geestelijke gezondheid is.

Het voorspellen van depressie was een hot topic tijdens deze presentatie. Ik vond het interessant om te horen hoe technologie kan helpen om iemands geestelijke gezondheid vast te stellen op basis van onder meer spreeksnelheid en houding. In psychologische termen kun je aan iemands houding aflezen wat de affectieve dimensie van een persoon is. Dit betekent dat het herkennen van houding ook een positief effect heeft op spraakherkenning.

Heesheid

Wanneer je rigide modellen gebruikt, wordt spraakherkenning beïnvloedt door iemands accent en problemen aan de stembanden. Op dag drie van het congres woonde ik een presentatie bij over stembanden en hoe je die zou kunnen modelleren met gebruikmaking van een technologie die 3D fluid dynamics heet. Dit model liet het effect zien van heesheid en poliepen op de stembanden. We zagen dat door middel van hogesnelheid-endoscopie de snelheid van de stembanden kan worden bepaald. Deze blijken extreem snel te vibreren. Deze informatie kan helpen om een model te maken dat kleine variaties in de stem door een verkoudheid of stembandprobleem kan opsporen.

Spraak- en audioclassificatie

Spraak- en audioclassificatie gaat over datgene wat op de achtergrond van een opname gebeurt. Denk aan auto's die langsrijden, een klok die tikt of regendruppels op een dak. Als je weet wat de geluiden zijn dan helpt je dit om dergelijke geluiden te onderdrukken (onderdrukken van specifieke frequenties of gebeurtenissen) en ook om vast te kunnen stellen waar een opname werd gemaakt (in een café, op straat of in een kas).

De sessies die ik over dit onderwerp volgde waren erg interessant. Beveiligingsbedrijven zouden deze technologie goed in kunnen zetten om brand snel te ontdekken, of het geluid van brekend glas te herkennen en zo snel mensen naar de betreffende locatie kunnen sturen. Het gammatonegram vond ik bijzonder inspirerend om te zien. Dit heeft meer spectrale informatie in de lagere frequenties en kan worden gebruikt voor het verwijderen van weerkaatsing.

Spraakseparatie

De focus van deze presentatie was het oplossen van het eerder genoemde cocktailparty-effect. Het vaststellen waar een spreker in de ruimte staat maakt deze uitdaging makkelijker op te lossen. Het is natuurlijk ook onwaarschijnlijk dat twee mensen op exact dezelfde plaats staan. Beamforming kan worden gebruikt om datgene wat een specifieke spreker heeft gezegd vast te leggen, zelfs als de persoon zich door de ruimte heen beweegt. Dat laatste zou goed ingezet kunnen worden voor surveillance doeleinden, waar je door camera's en een microfoon te plaatsen een loopanalyse kunt uitvoeren.

Het is een kleine stap van spraakseparatie naar spraakherkenning. Hiermee kun je vaststellen of iemand is wie hij of zij zegt te zijn. Ik vond het geweldig om te leren hoe deze informatie veilig kan worden opgeslagen met tweestapsverificatie encryptie. Dit betekent dat niemand de informatie kan decrypten tenzij je allebei een wachtwoord hebt en de eigenaar van de dataset (of de stem) hier toestemming voor geeft.

Een andere interessante techniek die werd getoond was het verbeteren van spraak in een lawaaiige omgeving. Erg handig voor stemassistenten om achtergrondgeluid te filteren en hiermee de spraakherkenning te verbeteren.

Interface in natuurlijke taal

De laatste congresdag opende met een keynote over geluids- en spraakapplicaties. Natuurlijke taal helpt je om een interface met je eigen stem als primaire aansturing te maken. Tijdens deze sessie leerde ik over de sequence-2-sequence aanpak waarmee men uitgaat van een zin als geheel in plaats van de afzonderlijke woorden.

Een andere oplossing die je zou kunnen toepassen zijn scripts die vergelijkbare vragen beschrijven om zo snel de juiste informatie te achterhalen. Dit wordt dan gebruikt als input voor een sequence-to-sequence model. Bovendien kan de zin worden vertaald in een andere taal en dan terug worden vertaald om na te gaan of de zinsopbouw klopt.

Audiosignaal karakterisering

Deze presentatie gaf voornamelijk informatie over de scène classificering voor mensen die willen weten waar een geluidsfragment werd opgenomen. Audio event classificering kan een goede techniek zijn om vast te stellen wat er gebeurt in een audiofragment naast spraak. Ook hier kan het weer nuttig zijn dit te gebruiken in surveillance situaties waar een vreemd geluid een alarm zou kunnen triggeren.

Representatie leren en emotieherkenning

De laatste sessie van het congres behandelde twee onderwerpen die ik interessant vond. Representatie leren en emotieherkenning. Ik zou graag nog meer leren over dat laatste. In combinatie met representatie leren is het interessant om naar algoritmes te kijken en te zien hoe ik deze zou kunnen toepassen bij andere uitdagingen.

Ik vond het buitengewoon leerzame dagen. Mijn inzichten gebruik ik graag voor projecten waaraan ik bij CTS werk, en daarnaast voor mijn eind thesis.

Interspeech 2020 zal worden gehouden in Shanghai, China. Als ik daar ben geweest zal ik zeker weer mijn inzichten delen.

Vergelijkbare verhalen