Onderzoek naar “hooikoorts-tweets” in Australië met behulp van deep learning

Officiële titel van het onderzoek “Deep learning for pollen allergy surveillance from twitter in Australia“

Een paar vragen aan de onderzoekers van het Institute for Sustainable Industries & Liveable Cities, Victoria University, Melbourne. (Het is een vertaling vanuit het engelse interview op hayfeverradar.eu, dus mogelijk wat kromme zinnen, excuus hiervoor.)
1. wat was het doel van het onderzoek?

Er is onderzocht in hoeverre sociale media kan dienen als aanvulling op de bestaande methodes om hooikoorts te monitoren. De veronderstelling was dat mensen ook online informatie delen die relevant kan zijn voor professionele zorgverleners, beleidsmakers en allergie-patiënten. Het is echter nog steeds een flinke uitdaging om de meest relevante tweets te selecteren uit de toch vrij ongestructureerde stroom van door gebruikers geplaatste berichten. De berichten staan vol met spelfouten, afkortingen en een breed scala aan creatieve uitdrukkingen die verwijzen naar symptomen. Er zijn in dit onderzoek moderne deep-learning technieken toegepast om de berichten automatisch in te kunnen delen in bruikbare en niet bruikbare berichten. De in de tweet gebruikte woorden moeten daarvoor geïnterpreteerd worden als bijvoorbeeld een: symptoom, behandeling, nieuws-item, advertentie of als pollen-waarschuwing. Dit soort “gezondheids surveillance” op basis van sociale media is al eerder succesvol gebleken bij het opsporen van besmettelijke ziekten zoals griep. Naar het gebruik m.b.t. allergieën was echter nog niet veel onderzoek gedaan.

2. Welke sociale media kanalen zijn gebruikt, en welke niet?
Twitter is geselecteerd als een primaire bron voor het verzamelen van gegevens. Twitter is met name geschikt vanwege het wijdverbreide gebruik, het publiek karakter van de tweets en de beschikbaarheid van Api’s waarmee de gegevens gemakkelijk zijn te verkrijgen. Het onderzoek is uitgevoerd in Australië, Twitter heeft daar zo’n 5,3 mln actieve gebruikers (https://www.socialmedianews.com.au). Het korte tekstformat van Twitter is een ideale vorm voor real time analyse. Andere populaire social media platforms zoals Facebook, YouTube, Instagram en Snapchat zijn niet gebruikt. Facebook is niet gebruikt vanwege de beperkte beschikbaarheid van de gegevens voor grootschalig onderzoek. De content van Youtube, Instagram en Snapchat bestaat vooral uit plaatjes en video’s en is daardoor lastiger in te delen op basis van inhoud.

3. Heb je een correlatie kunnen vinden tussen de hoeveelheid berichten en het verschijnen van persberichten op het gebied van hooikoorts?
De persberichten over de hooikoorts zijn niet meegenomen in het onderzoek, maar het is zeker te overwegen bij vervolgonderzoek. Het zou interessant zijn om te zien of er een correlatie is tussen de media-aandacht voor hooikoorts en het werkelijke klachtenniveau. Het doel van de studie was persoonlijke berichten op het gebied van allergie te selecteren om een inschatting te kunnen maken van het aantal mensen met hooikoortsklachten. Nieuws-tweets, waarschuwingen en bijvoorbeeld reclame werd beschouwd als niet-relevant en uitgesloten van verdere analyse.

4. Welk gebied is onderzocht?
Het onderzoek had betrekking op heel Australië. Vergelijkbare studies zijn al uitgevoerd in het Verenigd Koninkrijk en de VS. Voor mogelijke correlatie met weersvariabelen werden de tweets verzameld van drie grote steden aan de Australische oostkust, Melbourne, Sydney en Brisbane. Deze werden vergeleken met de meteorologische informatie van de nabijgelegen weerstations.

5 hoeveel berichten heb je gebruikt? Was dat genoeg?
Er zijn ongeveer 4.000 tweets verzameld die aan de vooraf gespecificeerde criteria voldeden. Gezien de relatief geringe omvang van de Australische bevolking (in vergelijking met de US of VK), was het aantal tweets voldoende. De meeste op enquêtes gebaseerde methodes beslaan slechts een fractie van de bevolking. Gezondheids surveillances op basis van sociale media zijn bedoeld als aanvulling op de traditionele benadering en niet als vervanging ervan.

6. Een interessante invalshoek is hoe mensen hun “hooikoortsgevoel” op social media uiten. Is er een soort Top-10 van uitdrukkingen of metaforen die mensen veel online gebruiken? Kom je grappige of originele dingen tegen?
Door het informele karakter van Twitter worden symptomen, behandelingen en algemene gevoelens vaak letterlijk en creatief omschreven. Ze staan daardoor vaak behoorlijk ver af van de in medische kringen gebruikelijke termen. Daarom is ook gekozen voor de “deep-learning” methode om tweets automatisch goed te kunnen interpreteren en selecteren. Bijvoorbeeld uit een bericht zoals “ik huil niet, ik heb hooikoorts” blijkt duidelijk dat er last is van tranende ogen (een bekend symptoom van hooikoorts), zonder dit echter expliciet te benoemen. De informelere woorden zoals “snuiven”, “niezen”, “snot” en “snotteren” worden ingedeeld bij neusklachten. Woorden zoals “huilen”, “tranen” en “snikken” komen in de categorie oogklachten. De onderliggende techniek om de tweets in de juiste categorie in te delen zal echter nog verder ontwikkeld moeten worden. Selectie op basis van een kort lijstje medische termen volstaat in ieder geval niet om een compleet beeld te krijgen.

Wat staat er in tabel 6?
In deze tabel krijg je een inkijkje in de werking van het “deep learning” aspect van dit onderzoek. Deze techniek wordt vaak als een black-box beschouwd, omdat de uitkomst van een berekening niet altijd precies te herleiden is. In de tabel zie je dat een woord zoals “antihistamine” een sterke associatie heeft met verschillende merken hooikoortstabletten. De sterkte van de associatie wordt uitgedrukt in een getal, bijvoorbeeld 0.7. Hoe dichter bij 1, hoe sterker de relatie. Combinaties zoals “oog” en “ogen”, “neus” en “neuzen” zijn zeer sterk gerelateerd. Ook tussen “ogen”, “staren” en “tranen” is een sterke relatie, dus een relatief hoge waarde. Zo zal een tweet met de tekst “de tranen lopen over mijn wangen, #hooikoorts” ingedeeld worden in de categorie “oogklachten”. Deze correlaties worden doorlopen bijgesteld op basis van nieuwe gegevens en worden daardoor steeds beter, “zelflerend”. Een voorbeeldje:


Pollen allergie, ook wel hooikoorts genoemd, is een overgevoeligheid voor pollen”


Allergische Rhinitis, ook wel hooikoorts, is een overgevoeligheid voor stuifmeel”.

Het systeem kan bij het interpreteren van beide zinnen zelfstandig een relatie leggen tussen de termen “Pollen allergie” en “Allergische rhinitis” omdat de rest van de context vergelijkbaar is. Het woord "pollen" zal bijvorobeeld een sterke relatie hebben met "stuifmeel".

In deze tabel (zie origineel >>) is de correlatie weergegeven tussen verschillende woorden en categorieën zoals "oogklachten" en "neusklachten"

7. Wat zijn de meest gebruikte emoticons door hayfeverpatiënten?


Speciale tekens (inclusief emoticons) werden tijdens het selectieproces verwijderd uit de tweets. Hierdoor is er minder “ruis” en wordt het resultaat van het indelen beter. Er worden overigens ook behoorlijke hoeveelheden vloekwoorden zoals “shit” en “klote” aangetroffen in de tweets. Deze termen zijn trouwens ook nuttig voor het onderzoek, omdat ze duidelijk afkomstig zijn van privéberichten en niet van reclame of weersberichten.

Uit een ander onderzoek kwam deze top 4 van meest gebruikte emoticons:

1. Niezend

 2. Huilend

 3. Vermoeid

 4. met mondkapje

bron: References: Du, J., Michalska, S., Subramani, S., Wang, H. and Zhang, Y., 2019. Neural attention with character embeddings for hay fever detection from twitter. Health information science and systems, 7(1), p.21. //doi.org/10.1007/s13755-019-0084-2

8. Ben je nog grappige snapchat-filters tegenkomen?
Snapchat is niet meegenomen in het onderzoek. Het doel van het onderzoek was om op basis van woorden berichten te kunnen herkennen als zijnde een persoonlijke klachtenmelding of bijvoorbeeld een advertentie of nieuwsbericht. Daarbij lag vooral de focus op het gangbare twitter-jargon.

9. Is Twitter wel geschikt voor dit onderzoek omdat het vooral de meer extreme emoties zou kunnen laten zien?
Het is zeer waarschijnlijk dat mensen op Twitter wat meer hun extreme gevoelens tonen.  Het volledig ontbreken van tweets over hooikoorts gedurende een bepaalde periode kan overigens ook een belangrijke indicator zijn. Juist deze emotionelere tweets kunnen op een sterke toename van de ziektesymptomen in een bepaald gebied wijzen.  Zo kunnen mogelijk “nieuwe hotspots” in beeld worden gebracht. De geo-locatie functie van Twitter is dan ook een belangrijk voordeel van Twitter voor real-time gezondheids surveillance.  Over het algemeen zijn Social Media-gegevens vooral nuttig in noodsituaties zoals rampen, detectie van uitbraken, waarbij een snelle reactie van het grootste belang is.  Het wordt gezien als een aanvulling op de bestaande, vaak gebrekkige, gegevens.

Noot redactie:
In dit kader is het goed te weten dat in Australië extreem hoge concentraties pollen echt als een noodsituatie gezien worden. In de berichtgeving kom je koppen tegen als “‘Thunderstorm Asthma kills 8 in Australia” en   “Perfect storm: Asthma sufferers warned as extreme pollen alert issued”.

Dat blijkt ook uit dit soort artikels van het Australische astmafonds: https://www.nationalasthma.org.au/news/2019/record-pollen-fires-wind-and-storms-a-dangerous-mix-for-asthma 

10. Welk weersaspect (bijv. temperatuur, vochtigheid, windsnelheid) heeft de sterkste correlatie met het aantal tweets? 

Dat wisselt per stad. Niet alle weerparameters bleken overigens statistisch significant (p > 0.05). Een sterke positieve correlatie tussen het aantal hooikoorts-tweets werd gevonden voor verdamping (mm) en zon (uur). Een matig negatieve correlatie werd gevonden voor vochtigheid (%). Herkenbaar, tijdens droge omstandigheden werd er veel getwitterd over hooikoorts. Dit zijn overigens de resultaten van Melbourne, dat wordt beschouwd als de hooikoorts hoofdstad van de wereld.

Onderstaand de resultaten van de studie "Text Mining and Real-Time Analytics of Twitter Data: A Case Study of Australian Hay Fever Prediction"(//link.springer.com/chapter/10.1007/978-3-030-01078-2_12).

11. Zitten er verschillen tussen de steden?

Er zaten kleine verschillen tussen de steden. Er moet hierbij wel rekening gehouden worden met het totale aantal tweets per stad. (Melbourne ongeveer 2000, Sydney ongeveer 1000 en Brisbane ongeveer 200 tweets). Melbourne had het hoogste aantal significante correlaties, waardoor die het meest betrouwbaar zijn.

De onderstaande kaart is afkomstig van het onderzoek "Text Mining and Real-Time Analytics of Twitter Data: A Case Study of Australian Hay Fever Prediction". (//link.springer.com/chapter/10.1007/978-3-030-01078-2_12). De stippen geven de relatie weer tussen het aantal tweets over hooikoorts en de temperatuur.


Referentie:

Rong, J., Michalska, S., Subramani, S., Du, J. and Wang, H., 2019. Deep learning for pollen allergy surveillance from twitter in Australia. BMC medical informatics and decision making, 19(1), p.208.//doi.org/10.1186/s12911-019-0921-x

Subramani, S., Michalska, S., Wang, H., Whittaker, F. and Heyward, B., 2018, October. Text mining and real-time analytics of twitter data: A case study of australian hay fever prediction. In International Conference on Health Information Science (pp. 134-145). Springer, Cham. //doi.org/10.1007/978-3-030-01078-2_12

Australian Government Bureau of Meteorology //www.bom.gov.au/

The research was supported by “Australian Government Research Training Program Scholarship”.