Netspeak, schrijfassistent voor het Engels

01 Februari 2010, 18:02

Onderzoekers van de Web Technology & Information Systems onderzoeksgroep aan de Technische Universität Weimar hebben een tool ontwikkeld die je kan gebruiken als schrijfassistent. Netspeak is een webservice die (meer) intelligente queries zoals interested ? computers verwerkt en een lijst teruggeeft met de meest frequente woorden die in de plaats van het vraagteken kunnen komen. Er worden bovendien verschillende voorbeeldzinnen weergegeven, waardoor de gebruiker de woorden in context ziet. Wanneer er verschillende mogelijkheden zijn, is die context vaak doorslaggevend. (Vrouwen niet geïnteresseerd in computers? I beg ? disagree)

Interested ? computers

Op die manier ontsnapt de tool voor een stuk aan de kritiek die veel taalwetenschappers hebben op het 'Zoek het op in Google'-advies. Gewone Google-lookup - kijken welke van je opties (bijvoorbeeld interested in computers en interested at computers) het meest frequent voorkomt - heeft als nadeel dat je wel de meest frequente optie kiest, maar daarom niet de beste. Een derde, niet geteste, optie zou wel eens de juiste kunnen zijn.

De contextinformatie en frequenties zijn gebaseerd op een gigantische collectie van websites (gedownload en verwerkt door Google) waaruit n-grams werden geëxtraheerd. De frequentie van elk van de resulterende n-grams - opeenvolgingen van n woorden - wordt geteld in het ganse corpus. Zo bevat dit corpus een schat aan informatie over veel voorkomende uitdrukkingen (zogenamde multi-word expressions) en de meest frequente voorzetsels bij een werkwoord.

Meer weten? Bezoek de projectpagina.

Geschreven in Artificiële intelligentiePermalink


Taal&TechnologieBlog 2.0

01 Februari 2010, 17:58

2010 brengt niet alleen de wedergeboorte van de Taal&TechnologieBlog. Deze blog verhuist bovendien binnenkort naar de - nog op te richten - TechLogs, een categorie blogs die op www.scilogs.de reeds toegevoegd werd (zie www.techlogs.de). Vanaf maart hoort u er meer over!

Geschreven in TechnologiePermalink


Automatische tekstanalyse in verkiezingsstrijd McCain vs. Obama

12 September 2008, 17:52

Inwoners van de Verenigde Staten die een snel overzicht willen van de belangrijkste agendapunten van presidentskandidaten McCain en Obama, kunnen hun toevlucht zoeken tot Speech Wars. Daar kan je in word clouds (gemaakt met Wordle) zien welke woorden belangrijk zijn in de verkiezingsspeeches. Hieronder zie je de word clouds van McCain en Obama. De woorden die het vaakst voorkomen in hun speeches - maar dan zonder functiewoorden (vb. lidwoorden en voornaamwoorden) - worden het grootst getoond in de clouds.

Word cloud voor John McCain


Word cloud voor Barack Obama
Je kan ook zelf nagaan hoe vaak de twee het hebben over bij voorbeeld 'love' of over elkaar in de speeches van de afgelopen maanden (zie hieronder). Obama lijkt meer te praten over McCain dan die laatste over Obama. Om te weten of Obama veel positieve dingen over McCain zegt, moet je wel de teksten lezen.

McCain vs. Obama (1)

McCain vs. Obama (2)
 

Geschreven in TechnologiePermalink


Deel je kennis met anderen met knol.google.com

18 Augustus 2008, 17:48


Knol logo




Zeven jaar na de oprichting van Wikipedia komt Google met een antwoord: Knol. In Wikipedia staan fouten en onnauwkeurigheden die vaak schaamteloos overgenomen worden door anderen. Bovendien kan je niet achterhalen wie de artikels geschreven heeft. Het doel van Google Knol is om die fouten te voorkomen en mensen aan te moedigen hun kennis te delen met de wereld. In de Knol open-source kennisdatabank kan je zien wie de mensen zijn achter de artikels - de zogenaamde knols.



Opdat de knols authoriteit zouden krijgen, is het essentieel dat professionals en wetenschappers uit alle domeinen hun bijdrage leveren aan Knol. Voor tips over het schrijven van knols, kan je surfen naar http://www.writegreatknols.com
.

Geschreven in TaalgektePermalink


Op woordsafari

14 Juli 2008, 17:46

Taal toont zich in verschillende gedaantes: er is gesproken taal, geschreven taal, maar ook gebarentaal. Op een congres in Oulu, Finland (Digital Humanities 2008) waar yours truly aanwezig was, werd tijdens een van de sessies de Dictionary of Words in the Wild - een initiatief van Geoffrey Rockwell van McMaster University (Canada) - voorgesteld. Centraal in deze online toepassing is de geschreven taal zoals ze 'in het wild' voorkomt, weergegeven aan de hand van foto's. We lezen namelijk niet alleen taal via kranten, televisie, of internet, maar ook op straat. Een bezoek aan Finland is in dat opzicht behoorlijk confronterend aangezien Fins geen indo-Europese taal is, zoals de Germaanse en Romaanse talen. Concreet betekent dit dat je zonder de Engelse vertaling totaal clueless bent als je een woord 'in het wild' leest.

Parkeerautomaat

Het leuke aan de Dictionary of Words in the Wild - naast het wetenschappelijke doel - is dat iedereen foto's kan uploaden zodat je kan zoeken naar de tientallen manieren waarop het woord love voorgesteld wordt. Het lijkt me ook meteen een leuke bron voor foto's om presentaties op te smukken.

 

Geschreven in TaalgektePermalink


Verbale travestie

12 Juni 2008, 17:44

In tijden van toenemende taalliberalisering door de invloed van de snelle communicatiestroom (sms, e-mail, weblogs) zijn er - noem het een zegen of een vloek - ook mensen die een oogje in het zeil houden en taalkundige wanpraktijken aan de kaak stellen. Zo is er het Front tegen Verbale Travestie (FTVT), dat gaat hevig tekeer tegen de 'verharing' van de Nederlandse taal.

Verharing?

Het FTVT wijst consequent redacties van Nederlandse radio- en televisieomroepen, kranten en tijdschriften terecht. De handigste manier om het begrip 'verharing' - ook wel de 'haarziekte' genoemd - te verklaren, is dan ook aan de hand van een voorbeeld:

2002-06-10 aan de KRO
Geachte mevrouw, mijnheer,
Op uw web-site heb ik naar de volledige naam van de KRO gezocht, maar die helaas niet gevonden. Is het 'Katholieke Radio Omroep', 'Katholieke Radio Omroepvereniging' of iets anders?
Ik ben hiernaar op zoek, omdat ik wil weten met welk bezittelijk voornaamwoord ('zijn' of 'haar') ik naar de KRO moet verwijzen, als ik over deze omroep schrijf.
Met belangstelling zie ik uit naar uw antwoord.
Vriendelijk groetend,
Frans Beijersbergen
Front tegen Verbale Travestie

2002-06-11 van de KRO
Geachte heer Beijersbergen,
Hartelijk dank voor uw email. De betekenis van KRO luidt;
Katholieke Radio Omroep
U kunt verwijzen met "haar".
Hopend u hiermee voldoende te hebben geinformeerd.
Met vriendelijke groet,
Moniek Baggerman
KRO Servicelijn

2002-06-11 aan de KRO
Geachte mevrouw Baggerman,
Dank u voor uw antwoord. Het bevredigt mij echter niet geheel, want ik begrijp niet waarom u de verwijzing vrouwelijk wilt laten zijn. Volgens Van Dale is 'omroep' mannelijk:
   ’om·roep (de ~ (m.))
Het is mij opgevallen dat er op radio en televisie steeds meer gebruik wordt gemaakt van vrouwelijke verwijzingen naar onzijdige en mannelijke zelfstandige naamwoorden. Dat kwetst mijn taalgevoel en is een slecht voorbeeld voor de jeugd.
Vergeef me als ik hiermee een drammerige indruk maak. Wellicht ook zie ik iets over het hoofd, en in dat geval hoor ik dat graag van u.
Met vriendelijke groet,
Frans Beijersbergen
Front tegen Verbale Travestie

2002-06-11 van de KRO
Geachte heer Beijersbergen,
Vriendelijk bedankt voor uw antwoord. Wellicht is er enige verwarring onstaan, daar omroep inderdaad een mannelijk woord is, maar wij zijn een omroepvereniging, welke vrouwelijk is.
Hopend u hiermee meer duidelijkheid te hebben gegeven.
Met vriendelijke groet,
Moniek Baggerman
KRO Servicelijn

2002-06-11 aan de KRO
Geachte mevrouw Baggerman,
Dus de volledige naam van de KRO is 'Katholieke Radio Omroepvereniging'?
Met vriendelijke groet,
Frans Beijersbergen
Front tegen Verbale Travestie

2002-06-20 van de KRO
Geachte heer Beijersbergen,
Hartelijk dank voor uw reactie. De KRO is eeen omroepvereninging met als naam Katholieke Radio Omroep.
Hopend u hiermee voldoende te hebben geinformeerd.
Met vriendelijke groet,
Moniek Baggerman
KRO Servicelijn

Wie meer wil weten over Verbale Travestie of meer hilarische terechtwijzingen wil lezen, kan surfen naar de website van het FTVT (http://ftvt.yoll.net).

Met dank aan collega en neerlandica Hanne Kloots voor het leuke gespreks- en blogonderwerp.

 

Geschreven in TaalgektePermalink


Schrijfstijl ontmaskert misdadigers

28 Mei 2008, 17:42

In tijden van terrorisme en toenemende digitaal beschikbare informatie boomt de forensische linguïstiek. Aan de Aston Universiteit in Birmingham (UK) is er een nieuw centrum voor forensische linguïstiek opgericht. Het centrum analyseert bewijsstukken in rechtszaken en doet onderzoek naar auteurschap van e-mails binnen bedrijven. Naast brieven en e-mails krijgen forensische linguïsten steeds meer te maken met nieuwe technologieën op communicatievlak, zoals Facebook, LinkedIn en MySpace. Het gaat hier dus over een voortdurend evoluerend vakgebied.

Analyse van de schrijfstijl van een auteur draagt bij aan de bewijslast die de politie tegen iemand verzamelt. Het is een essentieel onderdeel van de bewijslast, maar is niet betrouwbaar genoeg om als enig bewijs iemand tot gevangenisstraf te veroordelen.

SmsSoms zijn het spellingfouten of -varianten die rechtszaken een nieuwe wending kunnen geven. Zo was er het geval van Danielle Jones, een vijftienjarig meisje dat in 2001 spoorloos verdween. Haar oom gaf als alibi twee sms'jes die Danielle zou gestuurd hebben na haar verdwijning. Forensici hebben echter kunnen vaststellen dat het woord what in deze sms'jes als wot werd geschreven, terwijl Danielle altijd wat gebruikte. Mede dankzij stylistische kenmerken werd de oom in 2002 veroordeeld tot een gevangenisstraf voor ontvoering en moord.

Bron: "Reading Between the Lines" door Kathryn Edwards, BBC News, http://news.bbc.co.uk/2/hi/uk_news/england/west_midlands/7411388.stm (met dank aan Reinout Verbeke voor de tip)

Geschreven in AI in het nieuwsPermalink


Over stylistische invariants

21 Mei 2008, 17:41

In deze eerste Taal&TechnologieBlog wil ik jullie bij wijze van introductie iets meer vertellen over computationele stylometrie, de computationele studie van stijl in tekst (en bij uitbreiding in muziek en schilderkunst).

Computerlinguïsten zitten op het raakvlak van de Artificiële Intelligentie en de Taalkunde. Centraal in AI staat het creëren van een systeem dat een vorm van intelligentie vertoont. Bij stylometrie verstaan we onder 'intelligentie' het vinden en toepassen van stijlkenmerken - stylistic invariants - die auteur x van auteur y kunnen onderscheiden. Onderzoekers zijn op zoek naar het stylistic genome van de auteur. Toepassingen van stylometrie vinden we onder andere in plagiaatdetectie, disputed authorship en forensische linguïstiek.

Stylometrie wordt vaak benaderd als een classificatietaak: gegeven een aantal voorbeeldteksten met auteurslabel probeert een systeem (gebaseerd op statistiek) een nieuwe tekst te classificeren als geschreven door auteur x dan wel auteur y. We onderscheiden dan ook twee stappen in de basismethodologie: 1- de automatische extractie en selectie van deze stijlkenmerken en 2- het inschakelen van een Machine Learning algoritme voor classificatie.

Voor stap 1 maken we gebruik van taaltechnologie voor automatische syntactische ontleding. Vele onderzoeksteams hebben daarvoor hun eigen tools ontwikkeld. Een voorbeeld uit eigen huis (CNTS, Universiteit Antwerpen) is de Memory-Based Shallow Parser (MBSP) (demo-versie voor het Engels: http://www.cnts.ua.ac.be/cgi-bin/jmeyhi/MBSP-instant-webdemo.cgi). De achterliggende idee van stylistic invariants is namelijk dat goed voorspellende stijlkenmerken niet van lexicale, maar wel van syntactische aard zijn. Syntactische kenmerken - zoals distributies van functiewoorden (alle woordsoorten behalve substantieven, adjectieven en werkwoorden) of zinsstructuren - zijn namelijk aspecten van de schrijfstijl waarover de auteur geen bewuste controle heeft.

Voor stap 2 passen we Machine Learning (ML) toe, een techniek die computers in staat stelt te leren uit voorbeelden en het geleerde toe te passen op nieuwe voorbeelden. Een eager ML algoritme neemt een lijst van stijlkenmerken met auteurslabel en maakt op basis van die voorbeelden een model voor auteur x en auteur y. Wanneer een ongeziene tekst naar het systeem wordt gestuurd, gebruikt het algoritme dat model om het voorbeeld een auteurslabel te geven. Een lazy ML algoritme generaliseert niet, maar onthoudt alle voorbeelden tot er een nieuwe tekst binnenkomt. Op dat moment vergelijkt het systeem de stijlkenmerken van de nieuwe tekst met die van de teksten in het geheugen.

In een volgende blog ga ik dieper in op auteursherkenning, een van de meest 'klassieke' toepassingen van de stylometrie.

Geschreven in Artificiële intelligentiePermalink