terug naar Anne Vermeer
Studies in Meertaligheid 6
Woorden in het basisonderwijs
15.000 woorden aangeboden aan leerlingen
Walter Schrooten
Anne Vermeer
TUP 1994

Op woordwerken zijn de woordenlijsten te downloaden

Voorwoord
Zo deden ze de hele lijst. Vaak stond er een woord dat ze niet kenden. Bij voorbeeld plateau. `Ung platoo!' riep Ok dan, `dat is een hoogvlakte.' Ze zochten het woord op en het bleek `theeblad' te kunnen betekenen, een blad om de theekopjes op te zetten. `Klopt!' `Maar het betekent óók hoogvlakte,' zei Ok, `ik hád het goed.' (Joke van Leeuwen, Het weer en de tijd, 1993)

Uit verschillende onderzoeken naar de prestaties van allochtone leerlingen is glashelder naar voren gekomen dat met name hun woordenschat in het Nederlands bedroevend laag is. Dat is mogelijk de belangrijkste oorzaak van hun falen in het onderwijs. Hoewel leerkrachten zeggen voortdurend met woordenschatonderwijs bezig te zijn, is die aandacht kennelijk niet voldoende om de achterstand in woordenschat bij allochtone kinderen in te halen. Daartoe ontbreekt er ook een systematisch opgebouwde onderwijsleerlijn die tevens voldoende woorden aanbiedt.

In dit boek wordt verslag gedaan van een onderzoek naar de selectie en ordening van woorden op basis van een inventarisatie van het taalaanbod dat leerlingen in het basisonderwijs krijgen. Uitgangspunt daarbij was dat inzicht verkregen zou worden in de diversiteit en frequentie van het aanbod voor de verschillende groepen in het basisonderwijs. Concreet houdt dat in dat de woorden in het aanbod uit verschillende domeinen (prentenboeken, rekenboeken, instructie door de leerkracht, etcetera) onderscheiden zijn naar betekenisnuance, bijvoorbeeld instrument (gereedschap) en instrument (muziek), en dat de herkomst (in welk domein, welke groep werd het gebruikt?) naspeurbaar blijft. Tevens diende het totaal aan verschillende woorden minimaal het aantal te zijn dat leerlingen gemiddeld aan het eind van het basisonderwijs receptief beheersen.

Naast een beschrijving en verantwoording van het onderzoek worden in dit boek verschillende gebruiksmogelijkheden beschreven voor het werken met de verschillende gegevensbestanden die op diskette beschikbaar zijn. Vanwege de enorme omvang van alle bestanden en het grotere gebruiksgemak van elektronisch opzoeken bevat dit boek alleen een alfabetische lijst van alle in het verzamelde aanbod meer dan één keer voorkomende woorden. Deze zijn voorzien van frequentie en geometrisch gemiddelde voor elk van de vier 'bouwen' in het basisonderwijs en voor het totaal. Dit boek fungeert daarmee als naslagwerk en opzoekboek bij de diskette waarop ook de verschillende domeinen apart als gegevensbestanden zijn opgenomen, naast lijsten met vaste uitdrukkingen, structureringswoorden, voorvoegsels, achtervoegsels en vaktaalwoorden. Ook bij deze lijsten wordt steeds de frequentie en het geometrisch gemiddelde per woord gegeven. Afhankelijk van de vraag die de leermiddelenontwikkelaar zich stelt, kan met deze bestanden gemanipuleerd worden. Wil men bijvoorbeeld weten wat de duizend meest frequente woorden in zaakvakteksten in groep 5/6 zijn, dan sorteert men het betreffende bestand op dalende frequentie. De te volgen procedures worden in hoofdstuk 4 besproken. De diskettes met daarop de verschillende gegevensbestanden zijn te bestellen via de bon in dit boek.

Verschillende mensen en instellingen hebben bijgedragen aan dit onderzoek. Aan de Letterenfaculteit in Tilburg waren Anneke Dunning, Patricia Grijpma, Mieke Heinen, Esther Hendriks en Irma Koerhuis betrokken bij de invoer en verwerking van de data, aan het Instituut voor Algemene Taalwetenschap in Amsterdam Sietske Bongenaar en Lijgien Bos, onder supervisie van Folkert Kuiken, die mede-aanvrager van het project was. Leerkrachten van basisscholen De Kajuit in Oisterwijk, De Christoffelschool in Tilburg, De Santekraam in Amsterdam en De Regenboog in Eindhoven waren bereid dagenlang hun taalaanbod te laten opnemen, dat door Mieke Wolff werd uitgetikt. Van het Steunpunt NT2 in Leuven leenden we opname-apparatuur. Resi Damhuis en Anne Kerkhoff stelden belangeloos hun interactiedata ter beschikking. Via José Pijen van de Provinciale Bibliotheek Centrale in Tilburg leenden we de prentenboeken en leesboeken. Van Uitgeverij Zwijsen kregen we de bestanden van `Allemaal Taal' en `Het ei van Columbus'. Veel dank zijn wij ook verschuldigd aan Hansje Braam, die de programmatuur ontwikkelde. Het project werd gefinancierd door het Ministerie van O&W via de Projectgroep NT2.

Walter Schrooten

Anne Vermeer

Tilburg, maart 1994

Inhoud
Voorwoord 1
1. Inleiding 5
1.1 Belang woordenschat 5
1.2 Selectie van woordenschat 7
Frequentie
Betrouwbaarheid
Representativiteit
Dekking van corpora
Geometrisch gemiddelde
1.3 Naar een woordenlijst voor het basisonderwijs 11
2. Woorden in het basisonderwijs 13
2.1 Inleiding en doelstelling 13
2.2 Databeschrijvingen 15
Literatuurtaal
Schoolboekentaal
Interactietaal
Overzicht
2.3 Databewerkingen: kwalitatieve aspecten 19
Uitgangspunten
Lemmatisering
Desambiguering
Idioom
Samenvatting van de bewerkingen
2.4 Databewerkingen: kwantitatieve aspecten 25
3. Data-analyse 27
3.1 Inleiding 27
3.2 Lemma's over groepen en domeinen 27
3.3 Onregelmatige vormen 28
3.4 Uitdrukkingen en zegswijzen 30
3.5 Voor- en achtervoegsels 30
3.6 Structureringswoorden 31
3.7 Algemene vaktaalwoorden 32
3.8 Validering van de lijsten 32
4. Gebruiksmogelijkheden 35
4.1 Inleiding 35
4.2 Opzoeken, sorteren en selecteren 36
Gebruiksklaar maken van de bestanden
Opzoeken van woorden
Sorteren van de bestanden
Selecteren van woorden
4.3 De bestanden op diskettes 39
Literatuur 41
Alfabetische woordenlijst van niet-hapaxen 43


1. Inleiding

Op een dag lag de eekhoorn in het gras aan de rand van het bos naar de lucht te kijken toen een woord hem ontschoot. Welk woord is het nou ook maar weer, dacht hij. Zand, gras, schors, krabben, dik... Hij kon zich het woord niet meer herinneren. Het was en bleef weg. Toen even later de zwaluw langskwam vertelde de eekhoorn wat hem overkomen was. `O,' zei de zwaluw, `dat gebeurt mij zo vaak. Ik ben vanochtend nog het woord ik vergeten. En gisteren ontschoot mij zo maar mijn naam.' `Zwaluw,' zei de eekhoorn. `Ja, dat weet ik nu ook wel weer,' zei de zwaluw. `Maar gisteren wist ik echt niet wie ik was.'

(Toon Tellegen, Toen niemand iets te doen had, 1988)





1.1 Belang woordenschat



Elke dag weer krijgen leerlingen in het basisonderwijs duizenden en nog eens duizenden woorden over zich uitgestort om kennis en vaardigheden op te doen, om de wereld rondom hen te ontdekken, en om greep te krijgen op het dagelijkse leven. Kinderen die weinig woorden kennen, slagen daarin veel minder, omdat de fijne nuanceringen van wat ze horen en lezen hen veelal ontgaan. Het vervelende is dat ze daardoor wéér minder leren en nog verder achterop raken. Dit proces van cumulatieve achterstand begint al vanaf de eerste stap in de basisschool. Woorden, betekenisdragers bij uitstek, spelen hierin een cruciale rol. Aan gegevens over de woordenschat in het Nederlands van allochtone leerlingen is dit goed te zien. Allochtone kinderen komen met een forse achterstand daarin het basisonderwijs binnen. Tot dan toe hebben zij hun taalaanbod voornamelijk in hun eerste taal (bijvoorbeeld Turks, Marokkaans-Arabisch, of Berber) gekregen. Maar in plaats van dat die achterstand in Nederlandse woordenschat kleiner wordt in de loop van het onderwijs, wordt die alleen maar groter. Aan het eind van het basisonderwijs hebben autochtone Nederlandse kinderen (laag SES) gemiddeld een passieve woordenschat van ruim 15.000 woorden. Tweetalige allochtonen kennen dan gemiddeld nog geen 10.000 woorden, terwijl ze gemiddeld bijna een half jaar ouder zijn dan hun klasgenoten (Verhoeven & Vermeer 1993).

In de onderbouw van het basisonderwijs lijkt het vaak alsof het verschil in woordenschat tussen allochtone en autochtone leerlingen geen noemenswaardige problemen oproept. In de kleutergroepen doen alle kinderen mee, ze moeten ook motorische en sociale vaardigheden opdoen, en kunnen veel nadoen. De verschillen tussen kinderen hoeven voor leerkrachten en leerlingen gezien de activiteiten in de kleuterklassen nog niet zo opvallend te zijn. Ook in groep drie, waar heel veel tijd besteed wordt aan het leren lezen (en weinig aan taalvaardigheid), levert het taalaanbod nog niet zoveel problemen op. De kinderen lezen dan verhaaltjes die simpel zijn omwille van het proces van leren lezen: relatief eenvoudige woorden, korte zinnen, en veel herhalingen, in korte teksten. Gezien de nadruk op het technisch leren lezen, hoeven ze vaak niet eens te begrijpen wat ze lezen. Maar in de midden- en bovenbouw van het basisonderwijs is dat begrip absoluut nodig, en heeft de inmiddels grotere achterstand in woordenschat een dramatisch effect op de leerprestaties van allochtone kinderen.

Dit is goed te illustreren aan het verschil in verloop van woordenschatontwikkeling tussen autochtone en allochtone kinderen. Autochtone kinderen versnellen, als ze de technische aspecten van het leren lezen achter de rug hebben, het tempo waarin ze hun woordenschat uitbreiden. Leerden zij er tot een jaar of acht hooguit 700 woorden per jaar bij, vanaf groep vier, als ze (veel) gaan lezen en bijna dagelijks zaakvakteksten krijgen, neemt hun woordenschat met zo'n 3.000 woorden per jaar toe. Autochtone leerlingen kunnen de 'gaten' (onbekende woorden) in hun teksten raden met behulp van de woorden er omheen. Omdat die teksten voor eerste-taalverwervers zijn geschreven, kennen ze namelijk daaruit de meeste woorden. Zo leren ze steeds weer nieuwe woorden. Maar voor de allochtone leerlingen zitten er zoveel 'gaten' in de teksten, dat ze de onbekende woorden niet meer kunnen afleiden uit de context. Op die manier leren ze er weer minder woorden bij, of erger, helemaal geen, omdat ze nauwelijks begrijpen waar de tekst over gaat. Hun woordenschat blijft in hetzelfde langzame tempo van zo'n 500 woorden per jaar groeien. Pas wanneer ze met een jaar of tien een basiswoordenschat van 5.000 woorden hebben, versnellen ze hun groei wat, zij het in een langzamer tempo dan autochtone leerlingen.

Het is dus zaak om meteen al bij intree in de basisschool veel aandacht te besteden aan het uitbreiden van de woordenschat in het Nederlands. Hoe eerder ze meer woorden kennen, hoe meer onbekende woorden ze correct kunnen raden, hoe eerder ze er meer zelf bijleren op basis van de context. Idealiter zouden allochtone leerlingen zo snel mogelijk een even grote woordenschat in het Nederlands moeten hebben als autochtone. Autochtone vierjarigen stappen met gemiddeld 3.000 woorden de kleuterschool binnen, en kennen er op het eind van groep vier zo'n 6.000. Er van uitgaande dat allochtone kinderen met weinig of geen beheersing van het Nederlands op school komen, moeten er vier jaar lang 1.500 woorden per jaar geleerd worden, willen zij hun achterstand inlopen. Maar ook daarna zal fors in het woordenschatonderwijs geïnvesteerd moeten worden, willen allochtonen de enorme toename in woordenschat van 3.000 per jaar kunnen bijhouden. Zij krijgen immers doorgaans minder aanbod en ondersteuning in het Nederlands buiten school. Daarom is expliciete aandacht voor het onderwijzen van woordenschat noodzakelijk. Bij een organisatorische en inhoudelijke aanpassing van het onderwijs is het mogelijk gebleken allochtone leerlingen hun achterstand in woordenschat op autochtone leerlingen grotendeels in te laten halen (zie hierover Appel & Vermeer 1993). De organisatorische aspecten betreffen bijvoorbeeld het werken in homogene groepen, in kleine groepjes van vier/vijf leerlingen met een extra leerkracht, en individueel in de luisterhoek. De inhoudelijke aspecten betreffen bijvoorbeeld het in verschillende didactische werkvormen en oefeningen, expliciet onderwijzen en impliciet verwerken van veel nieuwe woorden.





1.2 Selectie van woordenschat



Een uitgekiende woordenschatselectie is één van de elementen in de genoemde inhaalmanoeuvre. In z'n algemeenheid geldt bij selectie van leerstof dat op grond van een analyse van het te verwachten en gewenste gebruik (de behoefte) nuttige leerstof geselecteerd moet worden. De `Nieuwe Streeflijst woordenschat voor zesjarigen' (Kohnstamm e.a. 1981) is een voor basisschoolleerlingen veel gehanteerde lijst. De woorden in deze lijst zijn door leerkrachten beoordeeld of ze door zesjarigen begrepen moeten worden. Andere criteria zijn onder andere `moeilijkheidsgraad', `leerlast', `valentie' en `beschikbaarheid' (zie voor een bespreking van de verschillende criteria Willems & Oud-de Glas 1990). Over de vraag wat moeilijk of nuttig is kunnen de meningen nogal uiteenlopen. Toch dient het intuïtieve criterium `nut' altijd begin- en eindpunt bij selectie te zijn. Naast dit subjectieve criterium is er behoefte aan een objectieve maatstaf, waarmee het nuttigheidscriterium vergeleken kan worden. Frequentie en spreiding van voorkomen van woorden worden hiervoor het meest gebruikt. Zeker voor beginnende leerders kan het nuttig zijn de in het taalaanbod veel voorkomende woorden te kennen. Bovendien wordt wel verondersteld dat de frequentie van voorkomen van woorden in een taal ongeveer de verwervingsvolgorde van dat woord weergeeft. Dat wil zeggen dat de meest frequente woorden eerst verworven worden, en de minder frequente pas later. Dat geeft dubbele ondersteuning (vanuit het taalaanbod van de omgeving en het idee van verwervingsvolgorde van de leerder) voor het hanteren van frequentielijsten bij de selectie en ordening van leerstof.



Frequentie

Voor het samenstellen van een frequentielijst worden teksten verzameld, corpora genoemd, in de vorm van opgenomen gesprekken, kranten, romans, schoolboeken, enzovoorts. Uit deze corpora worden alle woordvormen (`tokens') bijeengebracht, en na bewerkingen (bijvoorbeeld het herleiden van alle werkwoordsvormen tot één vorm) wordt nagegaan hoe vaak elk verschillend woord (`type') voorkomt. Wanneer zo'n lijst is samengesteld en de woorden geordend worden naar frequentie, zakken de frequenties van de woorden na het begin vrij snel en blijven ze daarna constant laag met maar geringe onderlinge verschillen. De variatie in de frequentie van voorkomen van woorden vertoont namelijk in elke taal een wetmatige verdeling, waarbij er een relatief kleine groep woorden in een taal heel frequent voorkomen en een hele grote groep woorden heel weinig (de `wet van Zipf'). De eerste tweehonderd meest frequente woorden van zo'n lijst zijn voornamelijk functiewoorden (de, ik) en woorden met een algemene, breed inzetbare betekenis (gaan, doen). Er is dus geen dwingend verband tussen frequentie en nut. Daarna is er een groep van 2 à 5.000 woorden die gerekend kunnen worden tot de basiswoordenschat: ze komen redelijk vaak voor in allerlei contexten en situaties. Tenslotte zijn er vele duizenden woorden met relatief lage frequenties waarvan het voorkomen sterk afhangt van het soort tekst waaruit ze gekozen zijn. De woorden met die lagere frequenties hebben vaak juist een specifieke betekenis met een hoge informatiewaarde. Maar ze kunnen `toevallig' in die lijst gekomen zijn. Daarom moet met frequentie als criterium opgepast worden, om verschillende redenen die mede te maken hebben met de betrouwbaarheid en representativiteit van de gehanteerde lijsten.



Betrouwbaarheid

De betrouwbaarheid heeft te maken met de omvang van de rol die het toeval speelt in de gevonden frequenties. Een lijst is betrouwbaarder naarmate deze is gebaseerd op een groter corpus. Doorgaans wordt gesteld dat slechts die woorden betrouwbaar geacht worden die in een ander, vergelijkbaar corpus maximaal 30 of 33% in hun frequentie kunnen variëren in 95% van de gevallen: concreet betekent dat dat slechts die woorden voldoende betrouwbaar geacht mogen worden die in het corpus een frequentie van minimaal 40 of 35 hebben. De woorden die een lagere frequentie hebben, komen dus in principe niet voor selectie in aanmerking, omdat de kans dat ze door toeval in de lijst terecht gekomen zijn, te groot is. Zo'n betrouwbaarheidsgrens heeft grote gevolgen voor de omvang van het corpus woorden dat nodig is. Het corpus van Uit den Boogaart red. (1975) omvat bijvoorbeeld schriftelijke (605.733) en mondelinge (121.569) data van volwassenen, in totaal dus ruim 727.000 woorden, waarvan nog geen 1.400 met een frequentie van meer dan 40. Het corpus van Coenen & Vermeer (1988), bestaande uit opgenomen gesprekken van jonge T2-verwervers, heeft een omvang van ruim 455.000 woorden (tokens), met 4.332 verschillende woorden (types) waarvan maar 644 woorden met een frequentie van meer dan 40. 32% van de woorden uit die lijst komt maar één keer voor (`hapaxen'). Aangezien voor het vullen van een leergang een groot aantal woorden nodig is, moet het corpus een enorme omvang hebben om genoeg woorden te krijgen die die betrouwbaarheidstoets doorstaan.



Representativiteit

De representativiteit van een frequentielijst staat in verband met de diversiteit van situaties en contexten waaruit de woorden verzameld zijn. Een lijst is representatiever voor het algemene taalgebruik naarmate de woorden uit meer verschillende contexten komen. Een corpus dat alleen samengesteld is uit aardrijkskundeteksten levert een minder representatieve lijst voor het algemene taalgebruik op dan een corpus bestaande uit allerlei soorten teksten. In dat laatste geval kan men bovendien onderzoeken hoe de woordfrequenties over de soorten teksten zijn verdeeld, de zogenaamde spreiding van woordfrequentie. Naarmate een woord beter is gespreid (in meer soorten teksten voorkomt), is het minder afhankelijk van situatie en context, wint de frequentie aan stabiliteit, en volstaat voor een betrouwbare lijst ook een lagere frequentie. Vanzelfsprekend is er een samenhang tussen spreiding en frequentie: woorden die in meer teksten voorkomen, zullen frequenter gebruikt worden. Dat er in een zaakvaktekst (bijvoorbeeld een aardrijkskundeboek) heel andere woorden voorkomen dan in een literaire tekst is duidelijk, maar ook binnen een tekstsoort kunnen grote verschillen optreden. Bij gesprekken bijvoorbeeld is het onderwerp bepalend voor welke woorden uit welk domein aan bod komen. In het spreektaalcorpus van Uit den Boogaart red. (1975) komen een aantal woorden uit het studentenleven in Nijmegen veel voor, omdat het opnamen van veelal Nijmeegse studenten betreft. Bij representativiteit is niet alleen het onderwerp, maar ook de leeftijd van de doelgroep van belang. In de lijst van Coenen & Vermeer (1988) komen onder de honderd meest frequente woorden tien woorden voor die in het corpus van volwassen spreektaal in Uit den Boogaart een frequentie van 40 niet eens halen, zoals juffrouw, mevrouw, meisje, mam(ma), spelen, vallen. Onder andere aan deze woorden is te zien dat het gaat om een corpus van kinderen op school, waaruit de woorden niet representatief hoeven te zijn voor andere tekstsoorten.



Dekking van corpora

Een manier waarop de representativiteit van een corpus getoetst kan worden, is op grond van de zogenaamde `dekking' van een tekst, meestal uitgedrukt in een dekkingspercentage. Als een lijst alle woorden bevat die in een willekeurige tekst staan, dan is er sprake van een volledige dekking van die tekst: het dekkingspercentage is 100. Komt 20% van de woorden uit die tekst niet voor op de lijst, dan is de dekking van die lijst 80%. De notie dekking wordt ook gehanteerd om het begrip dat men van een tekst heeft te duiden. Als de betreffende lijst gelijk staat aan de woordkennis van iemand (het is met andere woorden de opsomming van alle woorden die hij kent), betekent dat in het laatste voorbeeld dat hij 80% van de woorden uit die tekst kent. Dat betekent geenszins dat hij 80% van die tekst begrijpt: sterker nog, bij een dekking van 80% wordt nog maar bitter weinig van een tekst begrepen. Pas bij 85% is er sprake van `globaal begrip' (zie onder anderen Sciarone 1979:52). Bij 90% wordt een `redelijk begrip' bereikt en bij 95% begrijpt men nagenoeg alles van een tekst. Als men in een willekeurige tekst de woorden telt die tot de eerste duizend hoogfrequente woorden behoren, dan zullen dat volgens Hartveldt (1990:71) zo'n 80% van alle woorden van die tekst zijn, volgens Guiraud (1959:93) 85%, en volgens Mackey (1965:170) 90%: een verschil van `begin van begrip' tot `redelijk begrip' voor hetzelfde aantal woorden!

Het is duidelijk dat de herkomst van de teksten een beslissende rol speelt. Wanneer een lijst samengesteld is uit literaire teksten, zal de dekking voor een willekeurige literaire tekst hoog zijn, maar voor een willekeurige krantetekst laag. Is de lijst gebaseerd op beide tekstsoorten, dan zal de dekking stabieler zijn en de representativiteit voor teksten uit beide domeinen groter. De diversiteit van de woordenschat verschilt echter in hoge mate tussen tekstsoorten: in literaire werken komen meer verschillende woorden voor dan in kranten. In kranten zal dus met minder woorden een hoge dekking behaald worden dan in literaire teksten. Dat er ook tussen mondelinge en schriftelijke taal een groot verschil in diversiteit van woordenschat is, wordt duidelijk in het onderzoek van Dahl (1979), die twee corpora van elk ruim 1 miljoen woorden vergelijkt, beide van volwassenen. Een dekking van 90% wordt in het gesproken corpus behaald met 848 verschillende woorden, en in het geschreven corpus pas met 7955 verschillende woorden (1979:vii), bijna tien maal zoveel. Volgens Alekseev (1984:12) dekken de eerste 1.000 woorden van het 1 miljoen tokens tellende Brown-corpus `present-day American English' van Kuera & Francis (1967) 70 à 80% in schriftelijk-literaire teksten, 92% in brieven, en bij mondeling taalgebruik zouden 737 woorden al 96% van deze tekstsoort dekken! Omdat de herkomst van de corpora zo bepalend is voor de lijst, is het doen van uitspraken als `737 woorden dekken 96% van het mondeling taalgebruik' twijfelachtig. Welke betekenissen van de woorden? Welke sprekers (kinderen of volwassenen) over welke onderwerpen (het weer of rekensommen)?

Zelfs gigantisch grote corpora laten een per tekstsoort sterk fluctuerende dekking zien. Hazenberg & Hulstijn (1992) onderzochten het uit ruim 42 miljoen woordtokens bestaande corpus hedendaags Nederlands van het Leidse Instituut voor Nederlandse Lexicografie (INL). Zij laten zien dat, in tegenstelling tot wat tot nu toe veelal aangenomen werd, frequentiewaarde niet alleen voor de eerste 1.000 tot 2.000 woorden informatief is in termen van nut/tekstdekking, maar dat zelfs tot het 11.123 ste woord de toename van het dekkingspercentage tamelijk gelijkmatig en substantieel is. Zo neemt bij een verdubbeling van woordenschat van ruim 2.000 tot zo'n 4.700 woorden het dekkingspercentage van het INL-corpus toe van 80,1 tot 85,6%. Bij het 11.123 ste woord is het percentage 88,9%, en de frequentie van die woorden in dat corpus is dan groter dan 100 (Hazenberg & Hulstijn 1992:5). Wanneer zij vervolgens hun lijst vergelijken met de woorden in een drietal korte stukjes tekst, leveren de 11.123 woorden met deze frequentie voor een kort verhaal van Elburg een tekstdekking op van 97,8%, maar voor een krante-artikel slechts 84,9%. Dat enorme verschil is niet zo verwonderlijk, omdat het INL-corpus louter opgebouwd is uit boeken (835 boeken, fictie en non-fictie); kranten maken er geen deel van uit. Overigens kwamen alle woorden wel voor in de totale lijst van 23.550 woorden (types). Dit voorbeeld laat eveneens zien dat er toch wel heel veel woorden (hier meer dan 10.000) nodig zijn om tot een substantiële dekking te komen van een willekeurige tekst.



Geometrisch gemiddelde

Om de mate van representativiteit aan te geven, wordt naast de frequentie in een lijst vaak ook de spreiding gegeven van de woorden, bijvoorbeeld in hoeveel verschillende domeinen of teksten ze voorkomen. Dat is echter geen bevredigende oplossing te noemen, omdat er dan in de beoordeling van de woorden uit de lijst steeds met beide gegevens, waarvan niet duidelijk is hoe die zich precies tot elkaar verhouden, rekening gehouden moet worden. Om die reden is een alternatieve maat ontwikkeld waarin de spreiding van de woordfrequenties over de deelcorpora direct van invloed is op de hoogte van deze maat, het zogenaamde geometrisch gemiddelde. Dit gemiddelde is gedefinieerd als de n-de machtswortel uit de vermenigvuldiging van de frequenties in n observaties. Elke observatie staat bijvoorbeeld voor een subcorpus teksten uit een bepaald domein, waarin de frequentie van een woord (f) berekend is. De formule luidt dan:

geometrisch gemiddelde = (f1 x f2 x f3 x .... x fn) ** 1/n

De n geobserveerde frequenties worden vermenigvuldigd, en het resultaat wordt in de bovenstaande formule verheven tot de macht 1/n, hetgeen hetzelfde is als het trekken van de n-de machtswortel. Het resultaat hiervan is dat woorden die heel frequent zijn in één subcorpus, en verder weinig voorkomen, omlaag duikelen in de rangorde, en dat woorden die niet zo frequent zijn maar in elk subcorpus voorkomen, hoger in de lijst komen te staan (zie Van Hout & Vermeer 1992 voor voorbeelden).

Nu kan het zo zijn dat één of ander woord in een bepaald subcorpus niet voorkomt en dat de betrokken frequentie dus een waarde van 0 heeft. Dan is de uitkomst van de totale vermeniguldiging ook 0. Om dit resultaat te vermijden wordt voor elke frequentie een minimale waarde van 0,5 gehanteerd. Per slot van rekening had het betrokken woord in theorie ook in dat subcorpus voor kunnen komen, al was het dan maar bij een uitzonderlijk grote steekproef. Verder kan de uitkomst van het geometrisch gemiddelde weer vermenigvuldigd worden met de n observaties. Dit levert in absolute cijfers een makkelijker vergelijking op met de totale woordfrequentie. Een voorbeeld kan dat verduidelijken. Een woord dat in 10 subcorpora elk 5 keer voorkomt, heeft een totale frequentie van 10 x 5 = 50. Door het geometrisch gemiddelde van dat woord in het corpus (de 10-de machtswortel uit 5 tot de macht 10 = 5) weer te vermenigvuldigen met het aantal subcorpora (10), is de uitkomst van frequentie en geometrisch gemiddelde gelijk: beide hebben de waarde 50. Door toepassing van de twee genoemde correcties (minimale frequentie in elk subcorpus is 0,5 en de uitkomst vermenigvuldigen met het aantal subcorpora) loopt de waarde van het geometrisch gemiddelde van een woord van maximaal iets onder de frequentie van dat woord tot minimaal de helft van het aantal subcorpora in die groep of dat domein. In het corpus dat in dit boek beschreven wordt, heeft het meest voorkomende woord de een frequentie van 69.642 en een geometrisch gemiddelde van 64.703; de woorden die maar één keer voorkomen hebben een geometrisch gemiddelde van 46, de helft van het aantal subcorpora (92).



1.3 Naar een woordenlijst voor het basisonderwijs



Het hierna beschreven onderzoek had tot doel een woordenlijst samen te stellen ten behoeve van de selectie van woordenschat voor met name allochtone kinderen in het basisonderwijs. Daarbij is gekozen voor een procedure waarin onderzocht wordt wat de frequentie en spreiding van woorden is in het taalaanbod aan basisschoolleerlingen. Omdat het gaat om allochtone kinderen, is primair het taalaanbod op school gekozen als referentiepunt voor selectie en niet het taalaanbod thuis of op straat. Thuistaalwoorden als lepel en vork staan dus lager in de lijst dan je als moedertaalspreker van het Nederlands zou verwachten. In een lijst voor moedertaalsprekers zoals de `Nieuwe Streeflijst' staan die woorden al bij de eerste duizend, en kunnen ze bekend verondersteld worden. Bij veel allochtone leerlingen echter dienen leerkrachten er van uit te gaan dat dit soort `gemakkelijke' woorden in het Nederlands onbekend zijn.

Gekozen is voor een selectie van woorden uit de domeinen `interactie' (taalaanbod van leerkrachten), `literatuurtaal' (prentenboeken en leesboeken) en `schoolboeken' (zaakvak- en Nederlandse-taalmethoden). Door voor een voldoende spreiding binnen die verschillende domeinen te zorgen, kan een betrouwbaar beeld verkregen worden van het taalaanbod op de basisschool. Onder `woorden' dient in dit verband ook steeds verstaan te worden de verschillende betekenisnuances van een woord en mogelijke vaste verbindingen en idiomatische uitdrukkingen. Verder moeten de woorden per domein en per bouw geordend kunnen worden, om een op de doelgroep toegesneden selectie en ordening van leerstof mogelijk te maken. Daarnaast is het zinvol aparte lijsten te maken van morfologische of textuele taalaspecten die sterk samenhangen met de opbouw van een woordenschat, zoals affixen (voor-, -erik) en structureringswoorden (in grote lijnen, zolang als). De omvang van de lijst dient zodanig te zijn dat deze voldoende materiaal biedt om de veronderstelde feitelijke grootte van de woordenschat van autochtone kinderen aan het eind van het basisonderwijs te evenaren, dat wil zeggen zo'n 15.000 woorden.

De frequenties en geometrische gemiddeldes zullen bij elk woord vermeld worden. Deze kunnen mede als selectiecriteria dienen. Ze worden steeds apart per bouw en voor het totaal berekend. Omdat de lijsten in electronische versie beschikbaar komen, kunnen ze steeds voor elke doelgroep of voor elk domein opnieuw geordend worden. Voor het gemak van de gebruiker zullen na de beschrijving van het onderzoek, van een aantal analyses en van de validiteit van de lijst, een aantal mogelijkheden van het werken met de verschillende lijsten gegeven worden.







2. Woorden in het basisonderwijs









2.1 Inleiding en doelstelling



Voor de selectie van woorden ten behoeve van een leergang Nederlands bestaan reeds een aantal woordenlijsten voor vier- tot twaalfjarigen. Deze lijsten verschillen nogal van elkaar. De `Nieuwe Streeflijst woordenschat voor zesjarigen' (Kohnstamm e.a. 1981) is gebaseerd op oordelen van leerkrachten, Coenen & Vermeer (1988) is een frequentielijst van de woorden die allochtone kinderen tussen zes en dertien jaar actief gebruiken, en de `Woordenlijst vier- tot zesjarigen' van het Projectbureau OVB (Damhuis e.a.1992) is eveneens een lijst met beoordeelde woorden. Wat ontbreekt is een woordenlijst van voldoende omvang, die een beeld geeft van het taalaanbod aan kinderen in de basisschool. Een woordenlijst die enkel woorden bevat die kinderen actief gebruiken, en dus al kennen, kan slechts in beperkte mate als criterium voor woordselectie gebruikt worden. Lijsten die gebaseerd zijn op oordelen over het nut van bepaalde woorden zijn subjectief om twee redenen: de beoordeling zelf gebeurt op subjectieve gronden en de woorden die ter beoordeling aangeboden worden zijn al het resultaat van een eerdere selectie waardoor bij voorbaat een groot aantal woorden uitgesloten zijn. Daarnaast is het aantal woorden in de genoemde lijsten te gering.

Om de geconstateerde leemte op te vullen, hebben we een woordenlijst samengesteld die frequentie- en spreidingsgegevens bevat van woorden afkomstig uit een groot aantal bronnen van taalaanbod aan vier- tot twaalfjarige kinderen. Geen van de woordenlijsten die dit onderzoek opgeleverd heeft, waaronder de lijst in dit boek, mag dan ook opgevat worden als een streeflijst. Het gaat uitsluitend om descriptieve lijsten die een beeld geven van de woordfrequenties uit een bepaald corpus. Dat corpus is echter van dien aard dat de kwantitatieve gegevens die bij de woorden gegeven worden een goed woordselectiecriterium voor de hierboven gespecifieerde doelgroep kunnen vormen. Dat is meteen de voornaamste doelstelling van het onderzoek: het aanbieden van een betrouwbare lijst van woorden die representatief zijn voor het taalaanbod aan kinderen op de basisschool, die bovendien minstens 15.000 verschillende woorden bevat, het aantal woorden dat autochtone kinderen aan het eind van het basisonderwijs zouden kennen (Verhoeven & Vermeer, 1993). Uiteindelijk werd een corpus van bijna 1,8 miljoen woordtokens verzameld, wat ongeveer 24.000 verschillende woorden opleverde, waarvan ruim 3.000 een frequentie groter dan 35 hadden.

Om een lijst te produceren die een representatief beeld geeft van het taalaanbod aan een bepaalde doelgroep moet in principe materiaal geselecteerd worden uit alle mogelijke contexten en situaties waarin die doelgroep met taal geconfronteerd wordt. Een corpus dat uitsluitend bestaat uit rekenboeken zal immers andere woorden opleveren dan een corpus dat uitsluitend taalboeken of mondelinge interactie bevat. Het selecteren van materiaal uit verschillende deelgebieden of domeinen biedt bovendien de mogelijkheid de spreiding van een woord over die domeinen te berekenen. Laagfrequente woorden die in elk domein voorkomen kunnen zo aan belang winnen ten opzichte van woorden die slechts in één domein hoogfrequent zijn. Als spreidingsmaat hebben we gekozen voor het geometrisch gemiddelde, dat in feite frequentie en spreiding verenigt (zie paragraaf 1.2).

Concreet hebben we de volgende domeinen onderscheiden:

- prentenboeken

- leesboeken

- zaakvakmethodes

- Nederlandse-taalmethodes

- interactietaal van leerkrachten in de klas

Prentenboeken en leesboeken vormen samen het domein `literatuurtaal', zaakvakmethodes en taalmethodes kunnen worden samengenomen in het domein `schoolboekentaal'.

Met de selectie van deze vijf domeinen pretenderen we volstrekt niet het volledige taalaanbod van de doelgroep in kwestie te bestrijken. Zo zijn bijvoorbeeld stripverhalen, televisie, thuistaal, en taalaanbod van leeftijdsgenoten niet in het corpus opgenomen, hoewel deze toch een aanzienlijk deel van het taalaanbod uitmaken. Het is echter niet doenlijk om materiaal te verzamelen uit alle mogelijke bronnen van taalaanbod die relevant zijn voor basisschoolleerlingen. Daarom is een selectie gemaakt op basis van de overweging dat de lijst in ieder geval een beeld moet geven van het schriftelijke en mondelinge taalaanbod waarmee kinderen op school geconfronteerd worden.



Vooraleer we in de volgende paragraaf dieper ingaan op de samenstelling van elk afzonderlijk domein geven we in het kort de verschillende stappen aan in de totstandkoming van de woordenlijst.

In een eerste fase werden de data verzameld. Wat het schriftelijke materiaal betreft werd een corpus aangelegd van prentenboeken, leesboeken, taalmethodes en zaakvakmethodes (rekenen, thematische wereldoriëntatie, aardrijkskunde, geschiedenis en natuurkennis) die, indien mogelijk, werden gescand of als het lay-out van het boek dit niet toeliet met de hand werden uitgetikt. Het mondelinge materiaal werd verzameld via bandopnames in vier scholen. Ter aanvulling werd bovendien gebruik gemaakt van (delen van) corpora die verzameld waren door Damhuis (1988), Vermeer (1986) en Kerkhoff (1988). Voor een gedetailleerde bespreking van de verschilllende deelcorpora verwijzen we naar 2.2.

In de verschillende domeinen werden de data onderverdeeld volgens de leeftijdscategorie waarvoor het betreffende taalaanbod bedoeld was. Elke leeftijdscategorie bestaat uit twee (school)jaargroepen zodat er in totaal vier categorieën (met respectievelijk de jaargroepen 1/2, 3/4, 5/6 en 7/8) ontstaan.

In een tweede onderzoeksfase werden de verzamelde data aan een aantal bewerkingen onderworpen: verschillende vormen van hetzelfde `woord' werden samengebracht onder één `lemma', betekenisaanduidingen werden toegevoegd en vaste uitdrukkingen werden onderscheiden. Bovendien werden de delen van scheidbare werkwoorden samengevoegd en werden verschillende vormen van sterke werkwoorden onderscheiden. Op al deze operaties zullen we nader ingaan in paragraaf 2.3.

Tenslotte werd op de aldus ontstane tekstbestanden een telling uitgevoerd waarbij frequentie en geometrisch gemiddelde berekend werden. Hierop komen we terug in 2.4.





2.2 Databeschrijvingen



In de vorige paragraaf hebben we de verschillende domeinen waaruit we data geselecteerd hebben reeds vermeld. In wat volgt willen we dieper ingaan op de kwantitatieve en kwalitatieve samenstelling van elk domein, met tot slot een overzicht van het totale aantal teksten en ruwe woordtokens per leeftijdsgroep en per domein.



Literatuurtaal

Het corpus literatuurtaal bestaat uit prentenboeken en leesboeken. Als prentenboeken beschouwen we boeken voor kinderen tot groep 4 van het basisonderwijs, die in eerste instantie bestemd zijn om voorgelezen te worden en waarbij de tekst begeleid wordt door bij het verhaal aansluitende illustraties. Leesboeken zijn boeken die bedoeld zijn om door de kinderen zelf gelezen te worden (vanaf groep 3/4) en waarbij er slechts een beperkte of helemaal geen visuele ondersteuning is. Voor een juiste interpretatie van de lijsten is het van belang om even bij deze definities stil te blijven staan. Prentenboeken komen per definitie alleen voor in de groepen 1/2 en 3/4. Leesboeken komen voor in de groepen 3/4, 5/6 en 6/7. Op het niveau van groep 3/4 is er dus een overlap van de twee domeinen. Wat woordenschat betreft zijn de prentenboeken op het niveau van groep 3/4 echter veel moeilijker dan de leesboeken op datzelfde niveau. Van de prentenboeken wordt immers verondersteld dat ze worden voorgelezen en een rijke visuele context bevatten. De leesboeken worden zelf gelezen en zijn vanwege de mindere technische leesvaardigheid van de kinderen vaak eenvoudiger van woordenschat; complexe en samengestelde woorden worden vermeden in boeken voor beginnende lezers. Dit leidt tot een vertekening in de betreffende lijsten. De prentenboekwoorden voor groep 3/4 (en groep 1/2) zijn misschien wel te moeilijk als ze zonder de rijke prentenboekcontext worden aangeboden en de leesboekwoorden voor groep 3/4 zijn waarschijnlijk te eenvoudig omdat de leesvaardigheid (op dat moment) achterloopt op de woordenschatontwikkeling. Met deze observaties moet rekening gehouden worden als de lijst gebruikt wordt voor woordselectie.

Voor de aanleg van het prentenboekencorpus zijn 238 prentenboeken met de hand ingetypt. Bij de selectie van de prentenboeken werd een zo groot mogelijke variatie qua auteur, vertaler, uitgeverij en thematiek nagestreefd. Bovendien zijn enkel boeken geselecteerd die op het moment van verwerking in de handel verkrijgbaar waren. De geselecteerde boeken werden in eerste instantie aan een bepaalde leeftijdsgroep (1/2 of 3/4) gekoppeld op basis van de informatie die door de bibliotheek werd verstrekt en de algemene indruk van de moeilijkheidsgraad van het boek. Ter controle daarvan is de lijst van alle opgenomen prentenboeken voorgelegd aan een aantal kinderliteratuurdeskundigen met de vraag om voor elk boek een niveaubepaling te geven.

Uiteindelijk leverden de 238 prentenboeken een corpus op van 255.530 ruwe tokens: 113.763 voor groep 1/2 en 141.767 voor groep 3/4. Onder ruwe tokens verstaan we de afzonderlijke woordvormen (liep, loop, lopen) inclusief eigennamen, klanknabootsingen en andere niet-lexicale elementen die later verwijderd werden (zie hiervoor paragraaf 2.3).

Het leesboekencorpus werd aangelegd met behulp van een scanner en het programma `omnipage-professional'. Hier stelde zich het probleem dat leesboeken zo veel tekst bevatten dat met een te beperkt aantal verschillende boeken te snel een groot aantal tokens wordt bereikt. Om voldoende (thematische) variatie te waarborgen hebben we dus geen volledige boeken ingevoerd maar uit elk boek ongeveer vijfentwintig bladzijden, afwisselend uit het begin, midden en einde, geselecteerd. Op die manier werden delen van 61 verschillende leesboeken verzameld, wat 529.727 ruwe tokens opleverde.



Schoolboekentaal

Het schoolboekencorpus kan opgesplitst worden in twee subcorpora: een met zaakvakmethodes en een met Nederlandse-taalmethodes. Het domein van de zaakvakmethodes beslaat de groepen 5/6 en 7/8 en bevat 158.974 (ruwe) tokens. De methodes zijn deels met de hand ingetypt en deels rechtstreeks op flop beschikbaar gesteld door de uitgever. Ook hier geldt dat we geen volledige boeken opgenomen hebben maar selecties uit de volgende methodes:



- aardrijkskunde: `Een wereld van verschil'

`Land in zicht'

- geschiedenis: `Bij de tijd'

`Een zee van tijd'

- natuurkennis: `Natuurlijk'

`In vogelvlucht'

- rekenen: `Een wereld in getallen'

- thematische w.o. `De wereld rond'



`Land in zicht', `Een zee van tijd', `In vogelvlucht' en `De wereld rond' maken deel uit van de methode `Het ei van Columbus'. De methodes werden uiteraard gewoon ingedeeld bij de groep waarvoor ze bedoeld zijn.

Het taalmethodecorpus beslaat de leeftijdsgroepen 3/4, 5/6 en 7/8. Het corpus bevat zowel methodes en boekjes voor aanvankelijk lezen (deeltjes van `de Leesbus' en `Lezen in Balans'), NT2-methodes (`Mondeling Nederlands bij Veilig Leren Lezen', `Allemaal Taal') als NT1-methodes (`Taalactief' en `Taalkabaal') en levert 332.576 ruwe tokens op.



Interactietaal

Naast het schriftelijke taalaanbod werd ook een corpus aangelegd van mondeling taalaanbod, meer bepaald van de taal die door de leerkrachten gehanteerd wordt bij interactie in de klas. Daarnaast zijn ook een klein aantal interactiesituaties van een leerkracht met een individueel kind in het corpus opgenomen. In alle gevallen is alleen het taalaanbod van de leerkracht in aanmerking genomen.

De door ons in de klas gemaakte bandopnames komen van vier verschillende basisscholen: `De Kajuit' in Oisterwijk, `De Santekraam' in Amsterdam, de `Christoffelschool' in Tilburg en `De Regenboog' in Eindhoven. In de twee laatstgenoemde scholen werden enkel opnames gemaakt in de groepen 7 en 8. Naast de geografische spreiding is er bij de selectie van de scholen ook rekening gehouden met het leerlingenpubliek, meer bepaald met het aandeel van allochtone kinderen daarin. De scholen in Amsterdam en Eindhoven hebben meer dan 60% allochtone leerlingen, de scholen in Oisterwijk en Tilburg hebben een overwegend 'wit' publiek (ongeveer 10% allochtonen). Tenslotte is ook naar een spreiding in de tijd gestreefd om te vermijden dat er te veel `seizoensgebonden' woorden in de lijsten zouden opduiken. De opnames op `De Kajuit' zijn gemaakt in april/mei 1993, op `De Santekraam' werd in juni materiaal verzameld, op de `Christoffelschool' in oktober en op `De Regenboog' in december van datzelfde jaar.

Voor het verzamelen van de data hebben we de volgende procedure gevolgd. Gedurende één week werden de leerkrachten van elke groep voorzien van een opnameapparaat met opspeldmicrofoontje. Op deze manier konden in vijf klassen gelijktijdig opnames gemaakt worden. Om de normale klassesituatie zo min mogelijk te verstoren was er tijdens de lessen geen onderzoeker in de klas aanwezig. De opnameapparatuur was zo afgesteld dat er 90 minuten aan één stuk opgenomen kon worden zonder tussenkomst van de leerkracht of de onderzoeker. Tabel 1 geeft een beeld van het aantal ruwe tokens dat op deze manier bij de leerkrachten van één school (`De Kajuit') verzameld is. Bovendien is in deze school 2,5 uur van een extra leerkracht NT2 opgenomen tijdens lessen met kleine groepjes allochtone leerlingen apart.



Tabel 1. Taalaanbod van leerkrachten op basisschool `De Kajuit'

GROEP AANTAL UREN AANTAL

RUWE TOKENS

AANTAL WOORDEN/UUR
1/2 9 41.347 4594.1
3 5.25 19.334 3682.7
4/5 9.5 30.747 3236.5
6/7 16.25 50.000 3076.9
8 2.25 3.206 1424.9
NT2-lk 2.5 6.234 2493.6
TOTAAL 44.75 150.868 3371.4



Uit de cijfers lijkt naarmate het onderwijs vordert een lichte afname van het aantal tokens per uur naar voren te komen. Dit is waarschijnlijk toe te schrijven aan het feit dat er in de hogere groepen meer zelfstandig gewerkt wordt dan in de lagere groepen.

Een probleem dat zich op deze school stelde was dat de indeling van de klassen in heterogene groepen niet overeenstemde met de door ons gehanteerde indeling van jaargroepen. Vaak was het echter zo dat de leerkracht zijn instructies overwegend tot een bepaalde groep richtte terwijl de andere groep met een zelfstandig uit te voeren opdracht bezig was. In dat geval werd de opname ingedeeld bij de leeftijdsgroep die rechtstreeks geïnstrueerd werd. De lessen waarin de leerkracht zich tot beide leeftijdsgroepen tegelijk richtte, werden gelijk verdeeld over de door ons gehanteerde leeftijdscategorieën: zo kwam dus een deel van het materiaal uit de klas met groepen 6/7 bij de leeftijdsgroep 5/6 en een deel bij de groep 7/8 terecht.

Naast de data uit de zelf gemaakte opnames (ongeveer 400.000 ruwe tokens) zijn ter aanvulling ook data uit vroegere onderzoeken in het interactiecorpus opgenomen. Enerzijds was dit een manier om snel een groter aantal tokens te verkrijgen, anderzijds leidde dit tot een nog grotere variatie wat betreft opnamemoment, opnameplaats en interactiesituatie (werkvorm). Op het niveau van groep 1/2 werd een selectie van zo'n 90.000 ruwe tokens gemaakt uit het corpus van Damhuis (1988). Dit corpus bestaat uit een groot aantal transcripten van klasseinteracties in de kleuterbouw. Uit deze transcripten werden de beurten van de leerkracht geselecteerd. Het gaat om een grote diversiteit van werkvormen (onderwijsleergesprekken, werken in kleine groepjes, vrije kringgesprekken, speciale lessen, taalontwikkelingsactiviteiten) verzameld op scholen verspreid over heel Nederland in drie periodes (september/oktober, januari/februari, en mei/juni) van het schooljaar 1985-86. Ter aanvulling van de door ons verzamelde data voor groep 3/4 werd een deel van het door Vermeer (1986) aangelegde corpus van transcripten toegevoegd. Dit corpus bevat dialogen van leerkrachten met allochtone kinderen (Turken en Marokkanen) uit Tilburg, opgenomen in de periode van januari 1982 tot juni 1984. Ook uit deze transcripten werden enkel de uitingen van de leerkracht geselecteerd, wat ongeveer 53.000 ruwe tokens opleverde. Tenslotte werden aan de data van groep 7/8 zo'n 15.000 ruwe tokens uit het corpus van Kerkhoff (1988) toegevoegd. Deze data zijn verzameld in oktober 1983, mei 1984 en maart 1985. Ook hier gaat het om dialogen met individuele allochtone kinderen (Turken, Marokkanen, Surinamers en Molukkers) afkomstig uit Tilburg en Breda. Omdat deze dialogen telkens volgens hetzelfde stramien verlopen, hebben we uit dit corpus slechts een beperkte selectie genomen.



Alles bij elkaar bestaat het interactiecorpus uit 540.422 tokens. De groepen 3/4, 5/6 en 7/8 bevatten elk ongeveer 120.000 tokens, terwijl in groep 1/2 bijna 180.000 tokens verzameld zijn. We hebben er immers naar gestreefd om in de totaallijst (die alle domeinen omvat) in elke groep ongeveer evenveel materiaal te verzamelen. Het grotere aantal tokens in groep 1/2 van het interactiecorpus moet het gebrek aan leesmateriaal en methodes in die groepen compenseren.



Overzicht

Tabel 2 geeft een overzicht van het aantal ruwe tokens per domein en leeftijdsgroep. In deze cijfers zijn dus alle eigennamen, cijfers en 'rommel' begrepen.





Tabel 2. Overzicht ruwe tokens per domein en groep

DOMEIN 1/2 3/4 5/6 7/8 TOTAAL
prentenboek 113.763 141.767 255.530
leesboek 160.239 182.724 186.764 529.727
zaakvak 80.194 78.780 158.974
taalmethode 83.413 106.310 142.853 332.576
interactie 178.474 118.761 125.745 127.442 540.422
TOTAAL 292.237 504.180 494.973 531.839 1.823.129


Zoals blijkt uit deze gegevens hebben we er naar gestreefd om in elke groep, met uitzondering van groep 1/2 eenzelfde aantal tokens te verzamelen. Per domein loopt het aantal tokens wel verder uiteen. Schriftelijk taalaanbod (leesboeken, prentenboeken, zaakvakmethodes en taalmethodes) maakt tweederde van het corpus uit. Meer mondeling taalaanbod zou echter alleen maar meer van hetzelfde opleveren. Zoals in hoofdstuk 1 al is aangegeven, is de diversiteit in woordenschat bij mondelinge interactie relatief gering, vergeleken bij schriftelijk aanbod. Omdat we op zoek waren naar een grote diversiteit, lag een nadruk op schriftelijk materiaal voor de hand. In dat schriftelijke aanbod is het aandeel van fictionele teksten beduidend groter dan dat van de non-fictionele teksten i.c. het materiaal uit de zaakvakken. De reden daarvoor is dat het niet de bedoeling was om een groot aantal vakspecifieke begrippen en termen te verzamelen die in de diverse zaakvakken zelf onderwezen dienen te worden (mechanisatie, quotiënt, urbanisatie), maar gemeenschappelijke zaakvakwoorden en instructietaal (interpreteren, aangeven, conclusie). Met dit doel voor ogen zijn we er ons inziens in geslaagd om een voldoende evenwichtige en representatieve verdeling van het aantal tokens over de verschillende domeinen te bekomen.





2.3 Databewerkingen: kwalitatieve aspecten



Nadat alle in 2.2 beschreven data waren ingevoerd, moesten de bestanden een aantal bewerkingen ondergaan. Deze hadden te maken met de lemmatisering en desambiguering van de woordtokens. Hieronder zullen we de verschillende bewerkingen bespreken.



Uitgangspunten

De verzamelde databestanden werden in eerste instantie allemaal in dezelfde vorm gebracht om een automatische bewerking mogelijk te maken. Om de ruwe woordtokens te herleiden tot ingangen in een frequentielijst moesten twee beslissingen genomen worden die in zekere zin tegengestelde effecten hadden. In dit verband komt de fundamentele vraag aan de orde wat de status is van de elementen die in de lijst zijn opgenomen.

Om te beginnen moest worden beslist of de tokens herleid zouden worden tot types en, zo ja, in welke mate dit moest gebeuren. Onder types verstaan we de `grondvormen' van de voorkomende woordtokens. Wanneer we het hebben over types als ingangen in een woordenboek of een frequentielijst zullen we er naar refereren als lemma's. De operatie waarbij van tokens types worden gemaakt noemen we de lemmatisering. Omdat we in de eerste plaats geïnteresseerd zijn in de woordenschat die in ons corpus voorkomt en minder in morfologische en morfo-syntactische aspecten van de data, besloten we om de tokens te herleiden tot types, met uitzondering van de sterke en onregelmatige werkwoordsvormen, die zowel afzonderlijk opgenomen zijn, als `opgeteld' tot een grondvorm. De reden daarvoor is dat het twijfelachtig is of kinderen vormen als gebracht of wist verwerven als afgeleide vormen van brengen en weten. Waarschijnlijk leren ze die gewoon als afzonderlijk woord, zonder een relatie te leggen met de andere vormen van het werkwoord. Het effect van de lemmatiseringsoperatie is dat het aantal ingangen in de uiteindelijke lijst aanzienlijk gereduceerd wordt. Hieronder gaan we nader in op de verschillende lemmatiseringen en de technische uitvoering ervan.

Toen eenmaal besloten was om een lijst van types te produceren restte nog de vraag in hoeverre verschillende betekenisonderscheidingen van deze types in de lijst moesten opgenomen worden. We zijn uitgegaan van het principe dat een woord zowel vorm als betekenis is. Helaas bestaat er geen één op één correspondentie tussen woordvormen en hun betekenissen: één vorm kan meer betekenissen hebben (polysemie en homonymie) en één betekenis kan uitgedrukt worden door meerdere vormen (synonymie). Dit laatste verschijnsel kunnen we verder buiten beschouwing laten: we maken immers een woordenlijst en geen `conceptenlijst'. Het aangeven van verschillende betekenisonderscheidingen bij vormelijk gelijke woorden leek ons echter wel relevant voor het doel van de lijst. Het is voor de gebruiker van een woordenlijst uiteraard prettig als hij de frequenties van het woord arm in de betekenis van niet rijk niet hoeft af te leiden uit de frequentie van een lemma arm waarin ook alle voorkomens van arm als lichaamsdeel zijn opgenomen. We zijn echter nog een stap verder gegaan en hebben voor vele woorden ook meer subtiele betekenisonderscheidingen aangegeven. Zo wordt bij arm niet alleen de betekenis niet rijk afzonderlijk geteld maar ook de betekenis zielig.

We zullen naar de operatie waarbij van types met meerdere betekenissen lemma's met een eenduidige betekenis gemaakt worden, verwijzen als `desambiguering'. Het effect van de desambiguering is dat het aantal lemma's weer groter wordt ten opzichte van het aantal types dat na de lemmatisering was ontstaan. Op de details van deze operatie gaan we hieronder in.

Tenslotte zijn ook collocaties en vaste uitdrukkingen als afzonderlijke lemma's in de lijst opgenomen. Hierbij speelden dezelfde overwegingen als bij de beslissing om woorden te desambigueren. De betekenis van de woordgroep iemand de hand boven het hoofd houden is immers niet gelijk aan de som van de betekenissen van de samenstellende delen en verdient dus een afzonderlijke behandeling in het woordenschatonderwijs.

Samenvattend: de lijsten, zoals de alfabetische lijst in dit boek, bevatten gelemmatiseerde woordtokens (types) die waar nodig (bij homoniemen en polyseme woorden) voorzien zijn van een betekenisomschrijving, naast vaste uitdrukkingen. Hieronder gaan we dieper in op de praktische en theoretische problemen die bij elk van de genoemde bewerkingen opduiken.



Lemmatisering

De lemmatisering van de woordtokens gebeurde deels automatisch, deels handmatig. Met behulp van een substitutieprogramma werden werkwoordsvormen, verkleinwoorden, meervoudsvormen en verbogen adjectieven herleid naar hun grondwoord. Hiervoor werd gebruik gemaakt van een lijst met woordvormen die opgesteld was ten behoeve van het project `Nederlandse Woordenschat Allochtone Kinderen' (Coenen & Vermeer, 1988). Deze lijst bevat de grondvormen van de meest frequente woorden. Vormen die niet in deze lijst voorkwamen, werden in de handmatige bewerkingsfase gelemmatiseerd. Op dat moment werden ook de samenstellende delen van scheidbare werkwoorden samengevoegd. Het scheidbare deel (meestal een voorzetsel) werd als afzonderlijk woord uit het bestand verwijderd en aan het bijhorende werkwoordelijke deel gehecht. Zo werd komt...aan gelemmatiseerd tot aankomen.

Terzelfdertijd werden ook persoonsnamen (met uitzondering van Sinterklaas, Zwarte Piet en Jezus), merknamen (met uitzondering van `geïnstitutionaliseerde' merknamen als Lego en Cola), aardrijkskundige namen (met uitzondering van de namen van landen en werelddelen) en niet-standaard klanknabootsingen (piewieiew) uit de bestanden verwijderd. In de prentenboeken kwam het vaak voor dat persoonsnamen samenvielen met soortnamen (een beer heette dan bijvoorbeeld `Beer'). In dat geval werd de persoonsnaam niet verwijderd. In de bestanden met interactiedata werden bovendien alle uitingen die rechtsreeks betrekking hadden op de opnamesituatie gemarkeerd (`Vandaag komen er mensen van de universiteit opnemen wat de meester allemaal vertelt'). De woorden uit deze uitingen werden niet in de uiteindelijke lijsten opgenomen.

Wat cijfers betreft namen we de volgende regels aan. Uit de rekenmethodes werden alle cijfers verwijderd. In de andere bestanden werden alle hoofd- en rangtelwoorden tot twintig opgenomen. Eenmaal boven de twintig werden alle getallen herleid tot hun tiental, honderdtal, duizendtal. Zesentwintig werd dus twintig en tweeduizend driehonderdvijftigste werd tweeduizendste.

Een aantal woordvormen, met name de onregelmatige trappen van vergelijking beter, best, liever en liefst, werden niet gelemmatiseerd maar als afzonderlijke lemma's behouden en geteld. Daarnaast werden ook samenstellingen niet herleid tot hun samenstellende delen en afleidingen niet tot hun grondwoord. De lijst bevat dus zowel reus en zwaai als reuzezwaai en reusachtig. Het behouden van afleidingen laat toe om woorden te selecteren op basis van hun morfologische opbouw. Het niet herleiden van samenstellingen heeft vooral te maken met praktische overwegingen en met het probleem dat er bij sommige samenstellingen betekenisspecialisatie optreedt: dat wil zeggen, de betekenis van de samenstelling is niet meer gelijk aan de som van de betekenissen van de samenstellende delen. Woorden als voetpad en voorpoot uit elkaar halen is duidelijk uit den boze maar wat te denken van kwartaalabonnement of kerktoren? Uiteindelijk hebben we ervoor gekozen om alleen heel extreme gevallen als kamelepootjeslotion uit elkaar te halen en de overige samenstellingen te behouden en als afzonderlijke lemma's te tellen.

Ook sterke en onregelmatige werkwoordsvormen zijn als afzonderlijke lemma's behouden. Naast de lijst met lemmatiseringssubstituties werd een gelijksoortige lijst met sterke en onregelmatige werkwoordsvormen gebruikt om deze vormen in de bestanden te coderen met een "*" gevolgd door een cijfer. Door deze procedure werden bijvoorbeeld liep en liepen vervangen door lopen*1 terwijl alle vormen van datzelfde werkwoord waarbij geen klinkerverandering optreedt vervangen werden door lopen*0. Onregelmatige en sterke voltooide deelwoorden als gevonden krijgen *2 als code. Naast deze gecodeerde vormen bevatten de uiteindelijke lijsten ook een niet gecodeerde vorm (zonder *) die de optelling van alle vormen weergeeft. De lijst met sterke vormen werd aangelegd op basis de lijst in Donaldson (1987) en later aangevuld indien nodig. Sterke scheidbare werkwoorden werden handmatig van een code voorzien.

Voor de meeste werkwoorden geldt dat sterke/onregelmatige persoonsvormen met *1 en sterke/onregelmatige voltooide deelwoorden met *2 aangegeven zijn. Een uitzondering hierop zijn de vormen van zijn, hebben en kunnen die als volgt gecodeerd worden:



zijn: zijn (inf): zijn*0, ben: zijn*1, bent: zijn*2, is: zijn*3, zijn (persoonsvorm): zijn*4, was: zijn*5, waren: zijn*6, geweest: zijn*7, wees: zijn*8, wezen: zijn*9

hebben: heeft: hebben*1, had/hadden: hebben*2, gehad: hebben*3

kunnen: kan: kunnen*1, kon/konden: kunnen*2





Desambiguering

Het besluit om woorden te gaan desambigueren doet twee belangrijke problemen rijzen. Om te beginnen is er de vraag tot op welk punt je de betekenis van een woord kan opsplitsen. De betekenis van een woord is immers steeds afhankelijk van de context waarin dat woord voorkomt. In theorie kan een woord dus een oneindig aantal betekenissen hebben, wat in de praktijk natuurlijk een onhandelbaar gegeven is. Vaak wordt een onderscheid gemaakt tussen homonymie en polysemie. Homoniemen zijn dan woorden die tot een duidelijk ander betekenisveld behoren (zoals een bank om op te zitten en een bank voor geld) terwijl polyseme woorden een aantal verschillende betekenissen hebben die dichter bij elkaar liggen (arm in de betekenis van zielig en in de betekenis van niet rijk). Het is duidelijk dat dit onderscheid het probleem alleen maar verschuift. In wat volgt zullen we dan ook de term homoniem gebruiken voor 'echte' homoniemen en voor polysemen. Strikt genomen worden trouwens alleen homografen, woorden die hetzelfde schriftbeeld hebben, gecodeerd en homofonen die geen homografen zijn niet. Bédelen en bedélen krijgen dus een codering, maar meid en mijt niet.

Daarnaast stelt zich ook het probleem dat om een betrouwbare telling mogelijk te maken eenzelfde woordbetekenis steeds op dezelfde manier gecodeerd moet worden. Zowel het afbakeningsprobleem als het uniformiteitsprobleem kunnen worden opgelost door gebruik te maken van een vast referentiepunt: een lijst die duidelijk stelt hoeveel en welke betekenissen bij elk woord onderscheiden worden en hoe die gecodeerd worden. Uit het onderzoek van Coenen & Vermeer (1988) was reeds een beperkte lijst van homoniemen voorhanden die echter al snel ontoereikend bleek. Omdat de woordenboeken die als computerbestand beschikbaar zijn voor ons doel te veel betekenissen per woord aanbieden, was de enige optie die overbleef zelf een lijst samen te stellen. Hiervoor hebben we ons gebaseerd op het Basiswoordenboek Nederlands van Van Dale (Huijgen & Verburg, 1987). Dit referentiepunt omdat de doelgroepen van dit woordenboek en onze frequentielijst dezelfde zijn en omdat het aantal in het Basiswoordenboek opgenomen trefwoorden (25.000) groot genoeg is om het door ons nagestreefde aantal lemma's (15.000) te omvatten en klein genoeg om het relatief snel samenstellen van een bruikbare homoniemenlijst mogelijk te maken. Voor sommige lemma's gaf ook het Basiswoordenboek voor ons doel te gedetailleerde betekenisonderscheidingen. In dat geval hebben we twee of meer betekenisonderscheidingen samengenomen. De geselecteerde betekenissen werden vervolgens gecodeerd en verzameld in een lijst. Deze lijst relateerde woordvormen aan types met een daaraan gekoppelde betekenis. Via een substitutieprogramma werden zo bij elke woordvorm in de oorspronkelijke tekstbestanden een aantal betekenisopties gegeven. Tijdens de handmatige bewerkingsfase moest dan, op basis van de context, een keuze uit deze opties gemaakt worden.

De betekenisomschrijvingen zijn via een "_" aan het lemma toegevoegd. Meestal bestaat deze omschrijving uit één woord (drogen_nat) maar soms ook uit meer woorden (laten_niet_verhinderen) of een aanduiding van de woordsoort (fiets_N, fietsen_V). Om alle verwarring uit te sluiten hebben we, hoewel alle werkwoordsvormen herleid zijn tot de infinitief, substantieven die vormelijk gelijk zijn aan een vervoegde werkwoordsvorm (fiets) toch de codering `N' gegeven. Omgekeerd hebben we ook werkwoorden die vormelijk overeenkomen met het meervoud van een substantief (fietsen) toch met een `V' gecodeerd, hoewel alle substantieven in principe naar het enkelvoud zijn omgezet. In een aantal gevallen moest een restcategorie voorzien worden waarin betekenissen ondergebracht worden die niet onder één van de voorhanden zijnde omschrijvingen te vatten zijn. Deze restcategorie wordt aangeduid door een "_" zonder omschrijving. Vaak gaat het hier om erg marginale betekenisonderscheidingen, soms om de `lege' betekenis van zeer hoogfrequente functiewoorden (op_, door_).

Hoewel we er steeds naar gestreefd hebben om een zo duidelijk mogelijke omschrijving van de bedoelde betekenis te geven, kan de interpretatie van de betekeniscoderingen zonder context in sommige gevallen toch moeilijk zijn. Dit is te wijten aan het feit dat we niet alleen rekening moesten houden met de accuraatheid maar ook met de lengte van de omschrijving. Een op het eerste gezicht onduidelijke betekenisomschrijving wordt echter meestal veel duidelijker in contrast met de overige betekenissen van eenzelfde woordvorm. Het volstaat om dit woord op te zoeken in de alfabetische totaallijst om een overzicht te krijgen van de verschillende coderingen voor dat woord. Daarnaast kan bij interpretatieproblemen ook steeds teruggegrepen worden naar het Basiswoordenboek.



Idioom

Tenslotte hebben we in de frequentielijsten idiomatische uitdrukkingen als afzonderlijke lemma's beschouwd. Ook in dit verband stelde zich het probleem van afbakening en uniformiteit en was dus een lijst nodig die als referentiepunt kon fungeren. Deze lijst werd zelf aangelegd tijdens het invoeren en handmatig bewerken van de bestanden en steeds aangevuld. Uiteindelijk bevatte deze lijst ongeveer 900 uitdrukkingen (boontje komt om zijn loontje), vaste formules (in feite, tot en met) en uit meer dan één woord bestaande concepten (centrale verwarming, bijvoeglijk naamwoord). In al deze gevallen is het criterium gehanteerd dat de betekenis van het geheel voldoende moest afwijken van de betekenis van de samenstellende delen, of dat een samenstellend deel zelden of nooit afzonderlijk voorkomt (als bij toverslag, in lichterlaaie staan).

Het lemmatiseren van vaste uitdrukkingen kon niet automatisch gebeuren. Tijdens de handmatige bewerkingsfase werden de elementen van uitdrukkingen met elkaar verbonden door een "_" en de afzonderlijke woorden uit het bestand verwijderd. De woorden in een uitdrukking worden dus niet nogmaals als aparte woorden geteld. Om te bepalen hoe een uitdrukking precies gelemmatiseerd moest worden, kon de samengestelde lijst worden geraadpleegd. Indien de betreffende uitdrukking hier nog niet in voorkwam, werd op basis van bovengenoemde criteria beslist of zij moest worden toegevoegd of niet. De uitdrukkingenlijst werd op deze manier voortdurend uitgebreid waardoor steeds kon worden gecontroleerd of de lemmatisering uniform gebeurde.



Samenvatting van de bewerkingen

We vatten de hierboven beschreven bewerkingsstappen die het corpus moest ondergaan nog eens kort samen.



1. De ingevoerde tekstbestanden werden door een substitutieprogramma gedeeltelijk gelemmatiseerd. Daarnaast werden ook sterke en onregelmatige werkwoordsvormen van een code voorzien. Tegelijkertijd werden bij elk token ook een aantal betekenisopties aangeboden.



2. Vervolgens werden de resulterende bestanden met de hand bewerkt om:

- Persoonsnamen en andere ongewenste woorden te verwijderen

- De correcte betekenisoptie te selecteren op basis van de context

- Nog niet gelemmatiseerde woorden handmatig te lemmatiseren

- Uit elkaar staande delen van scheidbare werkwoorden samen te voegen

- Idiomatische uitdrukkingen op te sporen en te lemmatiseren



3. Op basis van de bestanden die uit deze handmatige bewerking resulteren werd vervolgens een lijst van alle verschillende lemmata uitgedraaid. In deze lijst werden dan eventueel voorkomende fouten opgespoord, die vervolgens in de betreffende bestanden verbeterd werden. De verbeterde bestanden werden dan gebruikt om de kwantitatieve analyses op uit te voeren. Hiervoor verwijzen we naar 2.4. Tabel 3 geeft een beeld van het effect van de verschillende beschreven operaties op het aantal tokens en lemma's. Na het verwijderen van niet gewenste elementen uit de bestanden blijft er ongeveer 93% van de oorspronkelijke `ruwe' tokens over. Wanneer deze schone tokens gelemmatiseerd worden blijkt dat er, voor het totale corpus, slechts 1% overblijft. Met andere woorden: voor één lemma in de lijst moesten ongeveer honderd tokens verzameld worden. Dit komt overeen met de gegevens uit Coenen & Vermeer (1988:49), waar van 455.370 `ruwe' tokens 4332 lemma's overbleven.



Tabel 3. Overzicht van effect van bewerkingen op aantal tokens en lemma's

ruwe tokens 'schone' tokens procentueel lemma's procentueel
1/2 292.237 275.821 94% 6.744 2%
3/4 504.180 469.374 93% 10.318 2%
5/6 494.973 447.559 90% 13.079 3%
7/8 531.839 499.656 94% 16.937 3%
totaal 1.823.129 1.692.410 93% 24.844 1%


Aan de percentages voor de afzonderlijke groepen is goed te zien dat de diversiteit in woordenschat in de loop van het basisonderwijs toeneemt. Voor een deel hangt dit samen met de grotere diversiteit in de aangeboden onderwerpen, voor een ander deel met een verbreding in betekenisnuances van de aangeboden woorden.





2.4 Databewerkingen: kwantitatieve aspecten



In paragraaf 1.2 zijn frequentie en geometrisch gemiddelde als criteria voor woordselectie besproken. Het nadeel van een zuivere woordfrequentie is dat deze geen rekening houdt met de spreiding van dat woord. Daardoor wordt de kans dat woorden toevallig hoog scoren groter en worden woorden die weinig frequent zijn maar toch in een groot aantal verschillende situaties voorkomen ogenschijnlijk minder belangrijk. Daarom hebben we besloten om naast de frequentie van de verzamelde woorden ook een aanduiding van hun geometrisch gemiddelde te geven. Daarin worden frequentie en spreiding allebei verdisconteerd. Om het geometrisch gemiddelde te kunnen berekenen moest het corpus onderverdeeld worden in een aantal subcorpora waarna de nde machtswortel (n=het aantal subcorpora) uit het produkt van de frequenties in die subcorpora getrokken kon worden. Om te vermijden dat één van die frequenties nul zou zijn werd voor de ontbrekende frequenties de waarde 0.5 aangenomen. Het resultaat van deze berekening werd vervolgens vermenigvuldigd met het aantal subcorpora (92).

Om een betrouwbaar cijfer te verkrijgen is het van belang dat de deelcorpora zowel kwantitatief als kwalitatief homogeen zijn. Een zelfde deelcorpus moet ongeveer evenveel tokens bevatten en moet bovendien opgebouwd zijn uit gelijksoortig materiaal. Na enig experimenteren hebben we gekozen voor deelcorpora van elk ongeveer 20.000 tokens. Bij de samenstelling van de deelcorpora hebben we de volgende regels in acht genomen:

- één deelcorpus bevat materiaal voor één enkele groep en uit één enkel domein

- wat de literatuurtaal en schoolboekentaal betreft hebben we vermeden om boeken te splitsen; materiaal uit één boek is dus nooit verspreid over meerdere deelcopora. De verschillende zaakvakken (rekenen, aardrijkskunde, geschiedenis en natuurkennis) vormen elk afzonderlijke deelcorpora.

- wat de interactietaal betreft hebben we in eerste instantie geprobeerd om materiaal uit verschillende scholen in verschillende deelcorpora onder te brengen. Daarnaast hebben we er naar gestreefd om ook verschillende klassen die binnen dezelfde leeftijdsgroep vallen in afzonderlijke subcorpora onder te brengen: materiaal uit groep 3 wordt dus zo veel mogelijk gescheiden gehouden van materiaal uit groep 4. In tabel 4 staat het aantal deelcorpora onderverdeeld naar groep en domein.



Tabel 4. Verdeling van de subcorpora over de verschillende domeinen en groepen

GROEP 1/2 3/4 5/6 7/8 TOTAAL
prentenboek 6 7 - - 13
leesboek - 8 9 9 26
zaakvakken - - 4 5 9
taalmethode - 5 5 7 17
interactie 9 6 6 6 27
TOTAAL 15 26 24 27 92


Voor de interpretatie van de cijfers in de verschillende (deel)lijsten is het van belang zich te realiseren dat het geometrisch gemiddelde in elke lijst berekend is met uitsluitend de voor die lijst relevante deelcopora. In de totaallijst zijn dus alle 92 deelcorpora in aanmerking genomen en het geometrisch geniddelde geeft dus een beeld van frequentie en spreiding over alle subcorpora en domeinen. Voor de deellijst literatuurtaal zijn alleen de corpora met prentenboeken en leesboeken in aanmerking genomen. Het geometrisch gemiddelde is in deze lijst dus berekend op basis van de 39 corpora in deze twee domeinen. Zo geldt binnen de afzonderlijke lijsten ook dat het geometrisch gemiddelde per jaargroep berekend is met enkel die corpora die materiaal uit die jaargroep bevatten. Dit verklaart waarom woorden die in verschillende jaargroepen/domeinen éénmaal voorkomen een verschillend geometrisch gemiddelde hebben: het aantal subcorpora verschilt immers per groep/domein en daardoor verschilt ook de wortel die getrokken wordt.







3. Data-analyse









3.1 Inleiding



Volgens de in het vorige hoofdstuk beschreven procedures zijn verschillende frequentielijsten geproduceerd. Twee lijsten geven frequentie en geometrisch gemiddelde van de woorden uit het volledige corpus (alle domeinen). Eén van deze lijsten werd onderverdeeld naar groep en de andere kreeg een onderverdeling naar domein. Verder zijn zeven afzonderlijke domeinlijsten gemaakt die allemaal naar groep zijn onderverdeeld. Daarnaast zijn er ook zes kleinere lijsten gegenereerd om bepaalde inhoudelijke analyses mogelijk te maken. Het gaat om een lijst van alle sterke en onregelmatige werkwoordsvormen, een van alle uitdrukkingen, een van algemene vaktaalwoorden, een van structureringswoorden, een van woorden met suffixen en een van woorden met prefixen.





3.2 Lemma's over groepen en domeinen



Tabel 5 geeft een overzicht van het aantal verschillende lemma's over de verschillende groepen en domeinen. Voor het aantal tokens per domein en groep verwijzen we naar tabel 4 in paragraaf 2.4.

Uit deze gegevens komt duidelijk naar voren dat er meer variatie in het taalaanbod optreedt naarmate het onderwijs vordert. Voor een vergelijkbaar aantal tokens neemt het aantal verschillende lemma's vrij regelmatig toe van groep 1/2 naar groep 7/8. Dit is enerzijds toe te schrijven aan het groeiend aantal nieuwe concepten dat aangeboden wordt en anderzijds aan de toename van het aantal betekenisnuances. Daarbij moet echter onmiddellijk opgemerkt worden dat er grote domeinspecifieke verschillen bestaan. Van de 24.844 lemma's komen er maar liefst 16.721 in het corpus literatuurtaal (prentenboeken+leesboeken) voor, terwijl het interactiecorpus slechts 7.736 verschillende lemma's bevat. Merk op dat het totale aantal verschillende lemma's in de interactietaal van leerkrachten in de klas voor het hele basisonderwijs (groep 1 tot en met 8) nauwelijks hoger is dan het totale aantal verschillende lemma's dat voorkomt in de prentenboeken van groep 3/4, hoewel in dit domein bijna vijf keer minder tokens verzameld zijn. Om een voldoende grote woordenschat op te bouwen blijkt schriftelijk taalaanbod onontbeerlijk: met enkel mondeling taalaanbod wordt amper de helft van de beoogde 15.000 lemma's gehaald. Bijzonder opvallend is het relatief grote aantal lemma's (bijna 10.000) in het prentenboekendomein. Dit bevestigt de waarde van (zorgvuldig geselecteerde) prentenboeken als middel tot woordenschatuitbreiding.



Tabel 5. Aantal verschillende lemma's en tokens per groep/domein

1/2 3/4 5/6 7/8 totaal
prentenboek tokens 108.814 128.752 237.566
lemma's 5.506 7.338 9.251
leesboek tokens 150.807 169.100 174.199 494.106
lemma's 5.168 7.563 10.164 13.887
zaakvak tokens 76.880 72.718 149.598
lemma's 5.891 5.808 8.901
taalmethode tokens 80.931 87.597 133.609 302.137
lemma's 4.095 5.883 8.913 11.724
interactie tokens 167.007 108.884 113.982 119.130 509.003
lemma's 3.545 2.998 3.996 4.204 7.736
totaal tokens 275.821 469.374 447.559 499.656 1.692.410
lemma's 6.744 10.318 13.079 16.937 24.844


Ook het relatief grote aantal verschillende lemma's in het zaakvakkencorpus springt in het oog. Hoewel voor dit domein amper 150.000 tokens verzameld zijn levert dit toch bijna 9.000 lemma's op. Dit wordt echter veroorzaakt door het voorkomen van een groot aantal laagfrequente vak- en groepsspecifieke woorden die van weinig nut zijn voor het woordenschatonderwijs. De totale woordenlijst die onderverdeeld is naar domein kan een bruikbaar hulpmiddel zijn om te bepalen welke woorden heel sterk aan een bepaald domein gebonden zijn en welke in het algemeen gebruikt worden.





3.3 Onregelmatige vormen



Sterke en onregelmatige werkwoordsvormen zijn niet alleen zoals andere verbuigingen en vervoegingen samengenomen in één grondvorm (bijvoorbeeld aanbieden), maar ook apart in de lijst vermeld (aanbieden*0, aanbieden*1, aanbieden*2) als het respectievelijk een vorm betreft zonder klinkerverandering (*0), met klinkerverandering in de verleden tijd (*1) en met klinkerverandering in het voltooid deelwoord (*2). Voor hebben, zijn en kunnen zijn nog meer coderingen (zie 2.3). In tabel 6 is aangegeven hoe vaak de betreffende vormen gemiddeld voorkomen. De vormen van hebben en zijn zijn hierin niet meegeteld: deze worden apart vermeld in tabel 7.



Tabel 6. Voorkomen van vormen van sterke en onregelmatige werkwoorden in de verschillende groepen: gemiddelden en standaarddeviaties van vormen zonder klinkerverandering (*0), en met verandering van de klinker in de verleden tijdsvormen (*1) en het voltooid deelwoord (*2) (n=aantal verschillende vormen)

totaal gr1/2 gr3/4 gr5/6 gr7/8 n
*0 gem

sd

250

957

47

204

77

301

62

238

34

103

560

*1 gem

sd

59

303

8

56

16

83

17

93

15

62

725
*2 gem

sd

29

198

4

24

7

49

8

49

11

80

386



De over de groepen toenemende gemiddeldes in tabel 6 reflecteren de toenemende diversiteit in woordenschat, en zijn niet het gevolg van het meer voorkomen van sterke of onregelmatige vormen in de bovenbouw. Opvallend zijn natuurlijk de hoge standaarddeviaties: een aantal vormen (zeggen, doen, staan, horen, vinden, krijgen) zijn zeer frequent, en een groot aantal samengestelde werkwoorden (inslaan, ineenduiken, afgeven) komt infrequent voor. Het meest frequent zijn natuurlijk zijn en hebben. Zie tabel 7.



Tabel 7. Voorkomen van vormen van zijn en hebben voor de totale groep

zijn frequentie hebben frequentie
zijn (inf)

ben/bent

is

zijn (persvorm)

was

waren

geweest

wees/wezen

1.138

4.595

25.109

6.754

8.578

1.809

985

93

hebben (inf)

heeft

hebben (persvorm)

gehad

12.242

4.808

5.136

399



Op de diskettes staat een bestand met alle onregelmatige en sterke werkwoordsvormen (sterkeww.niv).



3.4 Uitdrukkingen en zegswijzen



Vaste uitdrukkingen, zegswijzen en collocaties zijn in een aparte lijst samengebracht als extra informatie. Deze lijst (uitdrukk.tab) is uitgesplitst naar groepen in het basisonderwijs. Het gaat hier voornamelijk om uitdrukkingen als boontje_komt_om_zijn_loontje of het_water_in_de_mond als collocaties als lagere_school, in totaal zo'n 900 verschillende. Duidelijk is af te leiden uit de lijst dat genoemde (groepen van) woorden in aantal sterk toenemen met voortschrijdende leeftijd. In de kleuterbouw hebben 40 verschillende uitdrukkingen een frequentie van vijf of hoger; in de middenbouw zijn dat er 80, in de bovenbouw 120. Onder de zeven meest frequente uitdrukkingen uit groep 7/8 komen er drie niet eens in de kleuterbouw voor: te_maken_hebben_met, in_plaats_van en het_eens_zijn_met. In de kleuterbouw hebben er slechts 100 een frequentie van één of meer; in de bovenbouw is dat het dubbele. In totaal komen er in het aanbod in groep 1/2 240 verschillende uitdrukkingen en collocaties voor, in groep 7/8 zijn dat er 550. In groep 7/8 komen vanzelfsprekend ook meer collocaties voor als zelfstandig_naamwoord en koude_oorlog.





3.5 Voor- en achtervoegsels



Aparte lijsten zijn gemaakt van woorden die met een voorvoegsel beginnen (prefix.niv) en met een achtervoegsel (suffix.tab). Onderzocht is het voorkomen van de voorvoegsels aarts-, anti-, ex-, her-, oer-, on-, ont-, oud- en super-. Bij de achtervoegsels zijn onderzocht -loos, -baar, -aard, -erd, -heid, -sel, -achtig, -(e)lijk, -erik, -eling, -ering, -isatie, -iseren, -schap, -vaardig en -zaam. Genoemde affixen zijn gekozen op basis van Coenen (1989), die het effect van het onderwijzen van affixen op woordenschatverwerving onderzocht. Onderwijs in het analyseren van woordvormen kan het begrip van onbekende woorden doen toenemen (Coenen 1989, Van Daalen-Kapteijns e.a. 1993). Toch moet hiermee opgepast worden omdat de betekenis van affixen niet eenduidig is (ontberen, ontbijten, ontbloten, ontbreken, ontmoeten), en ook vele woorden een affix líjken te hebben (misbaar, antilope). Met opzet zijn dit soort woorden die formeel geen affix hebben, naast de woorden die dat wel hebben, opgenomen in de lijst, zij het niet alle. Het maakt nog eens duidelijk hoe lastig betekenistoekenning door woordanalyse kan zijn. Zo komt het prefix aarts- (aartslui) in de lijst niet voor, maar wel aartsbisschop (`heel erg bisschop' ?). In tabel 8 staat het verschillend aantal vormen waarin `echte' affixen voorkomen, dat wil zeggen niet de totale frequentie, maar het aantal verschillende woorden waarin 'echte' affixen voorkomen.





Tabel 8. Aantal verschillende woorden waarin 'echte' affixen voorkomen

aarts-

anti-

ex-

her-

oer-

on-

ont-

oud-

super-

wan-

0

4

0

27

9

226

110

3

30

0

-loos

-baar

-aard

-erd

-heid

-sel

-achtig

-(e)lijk

-erik

57

77

12

30

173

50

44

234

10

-eling

-ering

-isatie

-iseren

-schap

-vaardig

-zaam

99

1

6

3

49

4

22



Over het algemeen komen met voor- en achtervoegsels samengestelde woorden met name in de bovenbouw voor. In groep 1/2 komen eigenlijk alleen woorden als ontdekken, onthouden, deksel, plaksel, en woorden op -lijk (dadelijk, duidelijk, eerlijk, eigenlijk, eindelijk, moeilijk, etc.) frequent voor. Pas in groep 5/6 nemen de aantallen samengestelde woorden substantieel toe.





3.6 Structureringswoorden



Een aparte lijst is gemaakt van de in het corpus voorkomende structureringswoorden (struktur.tab). Daaronder worden verstaan die elementen die de cohesie van een tekst (`samenhang in vorm') uitdrukken. Voorbeelden daarvan zijn functiewoorden zoals voegwoorden (tenzij, voordat) en verwijswoorden (zulke, waarbij), maar ook inhoudswoorden (terugkomen op, conclusie, resultaat). In totaal zijn ruim 250 structureringswoorden geselecteerd. Deze zijn, voorzien van frequentie en geometrisch gemiddelde voor elk van de groepen en voor het totaal, in een aparte lijst opgenomen. Voor groep 1/2 vormen zo, dan, want, als_tijd, waar, als_indien, toch, nog_opnieuw, nog_overgebleven, dus, om_doel, als_zoals, waarom, toen_adv, en omdat de top-vijftien. In groep 7/8 zitten daarbij ook woorden als dat_betrvnw, dan_vergelijking, als_indien en volgend_adj. Aan deze aparte lijst is goed te zien dat veel complexe structureringswoorden pas vanaf groep 5/6 gaan voorkomen, en wat frequenter worden in groep 7/8: alhoewel, alsnog, ofschoon, en ook argument, conclusie en overigens.





3.7 Algemene vaktaalwoorden



Tenslotte is er een aparte lijst met `vaktaal'-woorden gegenereerd op basis van een bestaande zaakvakwoordenlijst voor neveninstromers in het voortgezet onderwijs (Alons & Halewijn 1993). Deze is samengesteld uit in zaakvakmethodes in de basisvorming voorkomende woorden, die niet tot hun basiswoordenlijst (1.070 woorden, Alons & Halewijn 1992) behoren, meer dan drie keer voorkomen in hun corpus, en waarvan minstens twee-derde van de beoordelaars vond dat die absoluut noodzakelijk waren voor het volgen van hun eigen zaakvak. Deze lijst bevat geen `specifieke vaktaal' als sikkel, lagune, stamper of vriespunt, maar `vakoverstijgende' zaakvakwoorden (in hun terminologie: `algemene school- en instructietaal' of `algemene vaktaalwoorden') als aankruisen, beredeneren en conclusie. Het bij elkaar zetten van vaktaal in engere zin (`specifieke vaktaal') is voor het doel van de onderhavige woordenlijst niet zinvol: dat zijn begrippen die immers in het zaakvak zelf onderwezen dienen te worden.

De vaktaalwoordenlijst (vaktaal.tab) bevat 485 verschillende woorden, waarvan frequentie en geometrisch gemiddelde gegeven worden per domein (prentenboeken, leesboeken, zaakvakken, taalmethoden en interactie). De vraag bij deze woorden is immers in welke domeinen ze in welke mate voorkomen. Een aantal van deze woorden komen ook in de lijst structureringswoorden voor. Zoals te verwachten, komen in het prentenboekendomein de minste verschillende vaktaalwoorden voor: 200, waarvan 60 hapaxen, gevolgd door het interactiedomein, waar van de lijst 300 verschillende woorden voorkomen (waarvan 70 hapaxen). In de andere drie domeinen komen elk zo'n 350 verschillende woorden voor, waarvan 100 hapaxen. Onderling verschillen de domeinen nogal. Onder bijvoorbeeld de vijftien meest frequente woorden uit de zaakvakken komen centimeter, invullen, lijn, vak, tabel, berekenen en gemiddeld niet eens voor in het prentenboekencorpus. Vergelijken we het domein taalmethodes met het prentenboekendomein, dan komen uit de top-15 regel_zin, thema_onderwerp, schema en uitspraak_uiting niet voor.



De hier gegeven voorbeelden van verschillen tussen en binnen groepen, en tussen en binnen domeinen, voor zowel de totale lijsten over domeinen of groepen als de deellijsten voor uitdrukkingen, prefixen, suffixen, structureringswoorden en vaktaal kunnen door een ieder zelf uitgevoerd worden met de bestanden op de diskette met behulp van de sorteerfunctie (Ctr-F9) binnen WP. Op deze wijze kan iedere gebruik(st)er zijn/haar eigen vraag stellen aan het corpus. Hoewel elk bestand weer in de oorspronkelijke vorm is terug te krijgen, is het natuurlijk raadzaam de orginele diskette te verzegelen tegen overschrijven van de bestanden. Aanwijzingen en gebruiksmogelijkheden daartoe worden (summier) besproken in het volgende hoofdstuk.





3.8 Validering van de lijsten



Tenslotte is het verzamelde corpus vergeleken met een aantal woordenlijsten zoals het Basiswoordenboek van Van Dale (Huijgen & Verburg 1987) en de Nieuwe Streeflijst woordenschat zesjarigen (Kohnstamm e.a. 1981), als externe validering van het corpus. Vergelijking van alle in het corpus voorkomende woorden met die in het Basiswoordenboek van Van Dale geeft inzicht in de relatie tot het aantal verschillende woorden dat op basis van intuïtieve criteria, verondersteld wordt tot de woorden te behoren die basisschoolleerlingen tegenkomen - overigens niet dat zij die zouden moeten beheersen. Vergelijking van een deel van het corpus (de in groep 1/2 aangeboden woorden) met de Nieuwe Streeflijst woordenschat, waarin woorden staan die zesjarigen volgens leerkrachten zouden moeten beheersen, kan verschillen aan het licht brengen tussen wat zesjarigen zouden moeten beheersen en wat ze aangeboden krijgen op school. Tenslotte worden de woorden vergeleken met een corpus in het Vlaamse onderwijs verzameld (Steunpunt Nederlands als tweede taal, Leuven 1993).

In tweetal random steekproeven is gekeken of de woorden uit de totale lijst (ruim 25.000 verschillende betekenissen) ook voorkomen in het Basiswoordenboek van Van Dale (24.000 ingangen, met betekenisnuances onder de lemma's), en vice versa. Daaruit kwam naar voren dat 51% van de woorden uit het Basiswoordenboek van Van Dale ook in dezelfde betekenis voorkwam in de onderhavige corpuslijst, en 49% niet. Het gaat hierbij om woorden als kettingroker, kappertjes, kinesitherapeut, koddig, koppelbaas en kwalificeren. Andersom komt 54% van de woorden uit het corpus ook voor in het Basiswoordenboek van Van Dale, 46% niet. De woorden die niet in het Basiswoordenboek voorkomen zijn voornamelijk samenstellingen zoals lanceerplatform, martelkamer, mengkleur en museumdorp. 12 à 13.000 woorden komen dus in beide corpora voor.

Vergelijking van het corpus woorden aangeboden aan groep 1/2, met de Nieuwe Streeflijst woordenschat voor zesjarigen laat zien dat 86% van de woorden uit de Streeflijst ook in deze lijst voorkomt. De 14% die alleen in de Streeflijst voorkomt, en niet in ons corpus, zijn veelal Vlaamse woorden zoals kerselaar, kindertuin, kindervoituur, kindlief, kolenhok, kroezelhaar, krol. Vergelijking andersom is lastiger, omdat de Nieuwe Streeflijst weinig betekenisonderscheidingen van woorden geeft. Zo'n 70% van de woorden uit onze lijst komt niet in de Nieuwe Streeflijst voor. Daaronder zitten veel vaktaalwoorden zoals dessa, accu, karper, legaal en sifon, maar ook heel `gewone woorden' als hevig, gym, en eigenaardig.

Een steekproefsgewijze vergelijking van de woorden uit het interactiedomein met het Leuvense interactiecorpus laat zien dat het verschil ook daarbij voornamelijk gelegen is in meer `Vlaamse' woorden, zoals voilà en raap. In totaal komen ongeveer vijftig woorden niet voor, waaronder bijvoorbeeld element, papegaai en onderwijzeres. De meeste van deze woorden komen overigens wel in de totaallijst voor.

Tenslotte zijn ter validering van de totaallijst paradigmatische steekproeven genomen van woord(afleiding)en voor weekdagen, maanden, seizoenen, kleuren en windrichtingen. De dagen van de week laten een regelmatige frequentie zien van 73 (donderdag) tot 147 (maandag), de frequenties van de maanden lopen van 13 (november) tot 64 (mei). Van de seizoenen komt winter het meest voor (265), herfst het minst (99). Bij de windrichtingen lopen de frequenties van 60 voor oost(en) tot 159 voor zuid(en). Kleurennamen hebben de volgende frequenties: rood (977), wit (776), zwart (640), blauw (562), groen (485), geel (422), bruin (303), grijs (192), roze (100), oranje (75), paars (69), beige (5), oker (3), en violet (2).



Op grond van deze steekproeven kan geconcludeerd worden dat deze woordenlijst redelijk betrouwbaar en consistent is, en voldoende woorden omvat om als bron voor selectie te dienen voor de beoogde woordenschat van 15.000 woorden. Ruim 3.000 woorden halen de in 1.2 aangehaalde betrouwbaarheidsgrens van 35 of meer voorkomen. Deze woorden behoren tot een basiswoordenschat zoals die ook einddoel is in het Vreemde-Talen-onderwijs op D-niveau aan het eind van het Voortgezet Onderwijs. Bijna 9.000 woorden hebben een frequentie van meer dan vijf keer voorkomen. Afhankelijk van voor welke groep en welk domein het bedoeld is, komen deze woorden voor selectie in aanmerking. Ruim 8.000 woorden hebben een frequentie van twee tot en met vijf. Bij het uitkiezen van deze woorden moet zeker een tweede criterium (bijvoorbeeld nut) medebepalend zijn voor selectie. Tot slot zijn er bijna 10.000 hapaxen in het corpus. Deze woorden komen al dan niet 'toevallig' maar één keer in het corpus voor. Dat maakt een totaal van ruim 26.600 woorden, inclusief de onregelmatige vormen. De in dit boek afgedrukte woordenlijst bevat alleen de ruim 15.000 woorden die meer dan één keer voorkomen in het corpus. In totaal omvatr deze lijst van niet-hapaxen 16.833 woorden. Zo'n 725 vormen zijn daarin dubbel geteld, omdat ze een optelling zijn van de sterke en onregelmatige vormen van het werkwoord die apart onderscheiden zijn.









4. Gebruiksmogelijkheden









4.1 Inleiding



Uit het voorgaande moge duidelijk geworden zijn dat, afgezien mogelijk van een basiswoordenschat van ruim 3.000 woorden, de selectie van woorden in hoge mate afhankelijk is van het domein en de groep waarvoor de selectie bedoeld is. Ook woorden die de gestelde betrouwbaarheidsgrenzen halen, komen in sommige domeinen in het geheel niet voor (materiaal bijvoorbeeld noch in prentenboeken, noch in interactie), of in sommige groepen niet. Om die reden is gekozen voor het beschikbaar stellen van de bestanden op diskette, zodat de gebruiker een volgorde kan bewerkstelligen, afhankelijk van het doel dat hij zich stelt. Wil hij bijvoorbeeld weten wat de duizend meest frequente woorden in taalmethoden in groep 5/6 zijn, dan sorteert hij het betreffende bestand taalmeth.dom op de zevende kolom (frequentie groep 5/6). Welke criteria gehanteerd kunnen worden, kan dus voor elke vraag weer verschillen. Hieronder worden een aantal handreikingen gegeven.

In z'n algemeenheid geldt dat er bij selectie van woorden uit deze lijst gekeken kan worden naar (1) Hoeveel woorden kennen de leerlingen al? (2) Hoeveel moeten ze er kennen aan het eind van de periode? (3) Welk gedeelte van de lijst wordt bestreken door (1) en (2)? en (4) Welke groep of welk domein betreft de vraag? Een concreet voorbeeld kan dit verduidelijken. Een doelwoordenlijst voor groep 3/4 moet samengesteld worden. Allochtone kinderen hebben dan een woordenschat in het Nederlands van 2.000 à 3.500 woorden (1). Nederlandse kinderen eind groep 4 zo'n 6.000 (2). Er moeten dus woorden geselecteerd worden uit de lijst van rangorde 2.000 tot 6.000, dat wil zeggen van een frequentie van rond de 70 of een geometrisch gemiddelde van ongeveer 70, tot een frequentie van 10 à 15 of een geometrisch gemiddelde van 49 of 50 in de totaallijst (3). Vervolgens zoekt men bij de woorden in de kolom groep 3/4 welke men nuttig/wenselijk/passend bij het thema acht (4).

De selectie voor de kleutergroepen is relatief het gemakkelijkst: men kan praktisch uitgaan van een nulniveau, met als doel 4.000 woorden eind groep 2. Hiervoor kan de totaallijst (totaal.niv) geordend worden op groep 1/2 met dalend geometrisch gemiddelde of frequentie. Zoals het voorbeeld hierboven laat zien, is de selectie voor de volgende groepen lastiger. Begin- en eindniveau liggen verder uit elkaar, in de hoogste groep van zo'n 8.000 tot 15.000 woorden. De frequenties van de woorden uit de lijst voor groep 7/8 zijn dan zeer laag en het geometrische gemiddelde van deze groep woorden is 46 of 47, wat aangeeft dat het niet zoveel uitmaakt welk woord gekozen wordt: het 8.000ste of 15.000ste. Wanneer het geometrisch gemiddelde de helft of iets meer van het aantal (sub)corpora is, dient het selectiecriterium meer `nut' of `wenselijkheid' te zijn om het betreffende woord op te nemen, dan het criterium `frequentie'. Met een waarde van de helft of iets meer van het aantal (sub)corpora geeft het geometrische gemiddelde duidelijk woorden aan die toevallig een hoge frequentie hebben, omdat ze zeer vaak in één boek voor komen (bijvoorbeeld reuzekrokodil: frequentie 41, geometrisch gemiddelde 48). De (hoge) frequentie van het betreffende woord mag dan absoluut geen reden zijn om het te selecteren. Het lage geometrische gemiddelde `waarschuwt' daarvoor.

Tenslotte gaat het bij alle hier genoemde aantallen woorden om de receptieve woordenschat. Dat impliceert dus ook dat de uitspraken gelden voor het begrip van de betreffende woorden, niet voor het actief gebruik ervan door leerlingen. De in dit corpus verzamelde woorden komen immers ook uit het taalaanbod aan de basisschoolleerling, niet uit wat ze zelf gezegd hebben (zoals in Coenen & Vermeer 1988). Niet alle woorden uit deze lijst hoeven ook expliciet onderwezen en geëvalueerd te worden. Wel kan ervoor gezorgd worden dat, naast expliciet onderwijzen van een groot deel van de woorden, alle woorden op z'n minst een aantal keren voorkomen in het NT2-lesmateriaal, en daarmee impliciet zodanig verwerkt in het taalmateriaal, met zoveel herhaling, dat de allochtone leerling het betreffende woord uit de context correct kan raden en (impliciet) kan verwerven.





4.2 Opzoeken, sorteren en selecteren van woorden



De woordenlijsten die op de bij dit boek horende floppys staan, kunnen op verschillende manieren geordend en bewerkt worden, afhankelijk van de vragen waarop de gebruiker een antwoord zoekt. Globaal genomen zijn er drie mogelijke basisprocedures: opzoeken van woorden, sorteren van de lijsten volgens bepaalde criteria en selecteren van een bepaalde categorie woorden. De te volgen procedures zijn beschreven voor WordPerfect (5.1/5.2 en 6.0) omdat dit programma ons inziens voor de meeste gebruikers van de lijst bekend en beschikbaar is.



Gebruiksklaar maken van de bestanden

Om met de lijsten in WordPerfect te kunnen werken moeten ze eerst in de juiste vorm gegoten worden. Dit is nodig omdat de bestanden zo groot zijn dat ze niet op een 1.44 Mb floppy kunnen. Daarom zijn de TABS vervangen door enkele spaties. Om de lijsten goed te kunnen lezen en om ze te sorteren zijn echter TABS nodig. We bevelen aan om de bestanden op de harde schijf van de computer op te slaan en de floppys als reservekopie te bewaren. Als de volgende procedure gevolgd wordt komen de lijsten gebruiksklaar op de harde schijf te staan.



a. Roep vanuit WP via <F5> een van de bestanden OPMAAK op. Om de extensie .NIV op te slaan kiest u OPMAAK.NIV en om de lijst met de extensie .DOM op te slaan kiest u OPMAAK.DOM. Het opgeroepen bestand bevat de instellingen die nodig zijn om de woordenlijst in de juiste vorm op te roepen en te bewaren. Deze instellingen zijn echter onzichtbaar op het gewone WP-scherm via <F11> of <Alt-F3>.

b. Vanuit dit geopende bestand moet vervolgens een van de woordenlijsten opgeroepen worden, opnieuw via <F5>. Op de vraag opnemen in huidig document/retrieve into current document antwoordt u ja/yes. Let er wel op dat in het bestand OPMAAK.NIV alleen .NIV lijsten opgevraagd mogen worden.

c. Het geselecteerde bestand wordt nu omgezet naar een WP-bestand, wat enige tijd in beslag neemt. Wanneer de lijst op het scherm verschijnt moeten de spaties vervangen worden door TABS. Dit gaat via de vervang-functie <Alt-F2>. Op de vraag bevestigen/confirm antwoordt u nee/no. Na Zkn/Srch typt u één spatie, vervolgens drukt u nogmaals op <Alt-F2>. Na het verschijnen van vervangen door/replace with drukt u één maal op de TAB-toets en daarna opnieuw op <Alt-F2>.

d. Tenslotte kan het bestand naar de harde schijf weggeschreven worden via <F10> of <F7>. De op deze manier bewaarde bestanden zijn gebruiksklaar maar nemen wel meer plaats in beslag dan de oorspronkelijke bestanden die op de flops staan. Voorzie voor elke afzonderlijke domeinlijst ongeveer 1.2 megabyte en voor de twee totaallijsten ongeveer 3.5 megabyte.



Opzoeken van woorden

Woorden opzoeken gebeurt via de functietoets <F2> (voorwaarts zoeken) of de toetsencombinatie <SHIFT-F2> (achterwaarts zoeken). Voer na Zkn/Srch het te zoeken woord in en druk daarna nogmaals op <F2>, dan wel <Shift-F2>. De cursor wordt dan automatisch tot aan het gezochte woord verplaatst. WP6.0 biedt bovendien de mogelijkheid om met zogenaamde `wildcards' (*) te zoeken. Zo kunnen bijvoorbeeld snel de woorden die eindigen op -lijk in de lijst gelocaliseerd worden. Hiervoor moet tijdens het invoeren van het zoekwoord uit de lijst met speciale tekens (op te roepen door tijdens het invoeren van het zoekwoord op <F5> te drukken) een * (= meerdere willekeurige tekens) geselecteerd worden. Dit gebeurt door de cursorbalk naar dat teken te verplaatsen en op <enter> te drukken. Vervolgens wordt `lijk' ingetikt. WP zoekt dan met de zoekterm '[*]lijk' naar het eerste woord dat eindigt op 'lijk'. Ook de betekenisomschrijvingen worden echter in aanmerking genomen. De cursor kan dus ook terechtkomen bij `vlak_onmiddellijk'. In dat geval moet de operatie herhaald worden tot de cursor wel bij het juiste woord terecht komt.



Sorteren van de bestanden

De lijsten kunnen op een aantal manieren herschikt worden met behulp van de WP-sorteerfunctie: alfabetisch (van a tot z of van z tot a), volgens frequentie (aflopend of oplopend) en volgens geometrisch gemiddelde (aflopend of oplopend). Voor alle sorteeroperaties drukt u eerst op <Ctrl-F9> en selecteert u vervolgens de optie sort/sorteren. WordPerfect vraagt dan naar het input- en outpufile. Eerst moet u aangeven welk bestand u wil sorteren (inputfile). Als het te sorteren bestand zich al op het scherm bevindt, moet u gewoon op <enter> drukken, als het te sorteren bestand nog niet geopend is, geeft u de betreffende bestandsnaam op. Vervolgens moet u beslissen of u het resultaat van de sorteeroperatie (outputfile) rechtstreeks op het scherm wil zien in plaats van het te sorteren bestand. In dat geval drukt u gewoon op <enter> waardoor de optie screen geselecteerd wordt. In het andere geval moet u een andere bestandsnaam opgeven; de gesorteerde lijst wordt dan naar dat nieuwe bestand weggeschreven en de oude lijst blijft op het scherm staan. Hierna verschijnt het sorteerscherm, waarop een aantal keuzes moeten ingevuld worden. Wat het type sorteeroperatie betreft moet altijd de standaardinstelling regel/line behouden worden. Afhankelijk van de behoefte van de gebruiker kan bij volgorde/order gekozen worden voor een klimmende/ascending of dalende/descending volgorde. Door keys/sleutels te selecteren kunt u de criteria definiëren volgens welke het bestand gesorteerd moet worden. Voor het sorteren op alfabet moet als type sleutel a(lfanumeriek) gekozen worden. Uiteraard moet er in dat geval op basis van de gegevens in de eerste kolom gesorteerd worden. Veld/Field is dus 1. Voor het sorteren op frequentie of geometrisch gemiddelde moet de instelling voor type n(umeriek) zijn. Er kan gesorteerd worden voor het totaal (velden 2 of 3) of op afzonderlijke groepen of domeinen (de overige velden).

Daarnaast kan ook nog aangegeven worden op welk woord van de betreffende kolom gesorteerd moet worden. Aangezien in elke kolom maar één woord staat is de waarde voor woord/word echter altijd 1. Als de instellingen van de sorteersleutel(s) aangepast zijn drukt u op <F7> en tenslotte selecteert u uitvoeren/perform action.

Merk op dat meer dan één sorteersleutel kan worden gedefinieerd. Op die manier kan de lijst bijvoorbeeld naar geometrisch gemiddelde geordend worden, waarbij de woorden die hetzelfde geometrisch gemiddelde hebben bijvoorbeeld in alfabetische volgorde komen te staan. Als meerdere sleutels opgegeven worden, kost het sorteren echter veel tijd (en veel meer ruimte).



Selecteren van woorden

In het sorteerscherm verschijnt eveneens de optie `selecteren/select'. Deze optie laat toe om woorden te selecteren die aan één of meer voorwaarden voldoen. In dit geval is het veiliger om bij het begin van de procedure een ander outputbestand op te geven om te vermijden dat bij het beëindigen van WP het geselecteerde bestand over het originele bestand geschreven wordt. Eerst moet net als bij het sorteren een sorteersleutel gemaakt worden; deze geeft immers aan op welk veld de selectie gemaakt moet worden en hoe de geselecteerde woorden eventueel geordend moeten zijn. Na het kiezen van de optie selecteren/select voert u een selectiestatement in. Onderaan het scherm verschijnen de operatoren die u daarbij kan gebruiken. Bij het formuleren van een selectiestatement moet altijd eerst de sleutel genoemd worden waarop de selectie betrekking heeft. Om alle woorden te selecteren met een frequentie hoger dan 40 geeft u als sleutel sltl1>40/key1>40, ervan uitgaande dat de sleutel gedefinieerd is op veld 2. We werken een wat ingewikkelder voorbeeld uit om een en ander te verduidelijken. Voor groep 2 willen we bijvoorbeeld 1.300 woorden zoeken. Omdat in groep 1 al de eerste 1.200 woorden onderwezen zijn, zoeken we vanaf rangorde 1.200 tot ongeveer 2.500, en maken we een selectie van alle woorden met een geometrisch gemiddelde tussen 100 en 60 die bovendien een frequentie hoger dan 40 hebben. Deze woorden schrijven we weg naar een apart bestand dat we sorteren volgens frequentie, waarbij woorden met dezelfde frequentie op alfabetische volgorde staan. Om dit voor elkaar te krijgen voert u de volgende acties uit:



a. <ctrl-F9> , sort, inputbestand: (scherm)/(screen), outputbestand: nieuwe bestandsnaam

b. volgorde/order: aflopend/descending

c. definieer drie sleutels en let op de volgorde:

sleutel 1: type:numeriek veld:2 woord:1

sleutel 2: type:alfanumeriek veld:1 woord:1

sleutel 3: type:numeriek veld:3 woord:1

De volgorde is van belang voor het sorteren van de uiteindelijke lijst; hiervoor wordt eerst sleutel 1 en dan sleutel 2 in aanmerking genomen. Op de selectie heeft de volgorde geen invloed. Bij de formulering van het selectiestatement moeten immers expliciet de sleutelnummers vermeld worden.

d. Kies selecteer en formuleer het volgende selectiestatement:

60<sltl3>100*sltl1>40

e. Kies Actie en Selecteren en sorteren

f. Kies Actie uitvoeren



Bedacht moet worden dat deze operatie veel tijd in beslag neemt: afhankelijk van de pc toch gauw een uur. Bovendien is er veel geheugenruimte nodig in WP voor het wegzetten van tijdelijke bestanden: een vrije geheugenruimte van 10 megabyte is aan te bevelen. Wanneer er te weinig ruimte is, wordt de sorteeroperatie niet uitgevoerd.





4.3 De bestanden op diskettes



Op de diskettes bevinden zich drie types van bestanden, elk met een eigen extensie: .NIV, .DOM en .TAB. De bestanden met de extensie .NIV zijn woordenlijsten die onderverdeeld zijn naar groep. Deze bestanden moeten opgeroepen worden, volgens de hierboven beschreven procedure, in het bestand OPMAAK.NIV. Daarna heeft elk van deze bestanden dezelfde opbouw: de eerste kolom bevat het lemma, de tweede kolom de totale frequentie, de derde kolom het geometrisch gemiddelde berekend over alle subcorpora die voor de lijst in kwestie relevant zijn en de daarop volgende kolommen bevatten afwisselend frequentie en geometrisch gemiddelde voor elke groep afzonderlijk. In totaal zijn er acht naar niveau geordende bestanden:

- TOTAAL.NIV: alle woorden uit het hele corpus

- PRENTENB.NIV: woorden uit prentenboeken

- LEESBOEK.NIV: woorden uit leesboeken

- LITERAT.NIV: woorden uit prentenboeken+leesboeken

- ZAAKVAK.NIV: woorden uit zaakvakmethodes

- TAALMETH.NIV: woorden uit taalmethodes

- SCHOOLB.NIV: woorden uit zaakvakmethodes+taalmethodes

- INTERACT.NIV: woorden uit interactie

- STERKEWW.NIV: alle sterke en onregelmatige werkwoordsvormen



Eén bestand heeft de extensie .DOM. Dit bestand (TOTAAL.DOM) bevat een totaallijst die onderverdeeld is naar domein. Om met dit bestand te kunnen werken moet het opgevraagd worden in het bestand OPMAAK.DOM. De eerste drie kolommen zijn dezelfde als bij de lijsten per groep, de volgende tien kolommen bevatten afwisselend frequentie en geometrisch gemiddelde per domein in deze volgorde: prentenboeken, leesboeken, zaakvakmethodes, taalmethodes en interactie. Het sorteren dit bestand op frequentie (of geometrisch gemiddelde) voor een bepaalde domein geeft een overzicht van de voor dat domein meest voorkomende (of binnen dat domein best gespreide en hoogfrequente woorden). Door het vergelijken van de resultaten voor dat bepaalde domein met de andere domeinen kan een lijst samengesteld worden van typische woorden voor het domein waarop gesorteerd is.

Tenslotte bevatten de diskettes vijf gebruiksklare bestanden met de extensie .TAB. Deze bestanden moeten dus niet in een opmaakbestand opgeroepen worden. Concreet gaat het om de volgende bestanden:

- UITDRUKK.TAB: alle uitdrukkingen en vaste verbindingen per groep

- STRUCTUR.TAB: alle structureringswoorden per groep

- PREFIX.TAB: alle woorden met prefixen per groep

- SUFFIX.TAB: alle woorden met suffixen per groep

- VAKTAAL.TAB: alle algemene vaktaalwoorden per domein

De volgorde van de kolommen stemt overeen met die bij de eerder genoemde lijsten.



De twee diskettes met de betreffende bestanden zijn schriftelijk te bestellen bij Anne Vermeer, Letteren, KUB, Postbus 90153, 5000LE Tilburg.









Literatuur









Alekseev, P. (1984), Statistische Lexikographie, Brockmeyer, Bochum.

Alons, L. & E. Halewijn (1992), Basiswoordenlijst. Resultaat van woordenschatonderzoek naar basisleergangen in het kader van het project `Van opvang naar doorstroming' (Herziene versie), ATW, UvA, Amsterdam.

Alons, L. & E. Halewijn (1993), Woordenschatonderzoeken voor zaakvaklessen in de eerste opvang van neveninstromers, ATW, UvA, Amsterdam.

Appel, R. & A. Vermeer (1993), Woordenschat van allochtone leerlingen met sprongen vooruit, Didaktief, jg. 23, 3, 5-7.

Coenen, M. (1989), Woordvormingsonderwijs en de uitbreiding van de passieve Nederlandse woordenschat van allochtone leerlingen, Toegepaste Taalwetenschap in Artikelen 34, 81-87.

Coenen, M. & A. Vermeer (1988), Nederlandse Woordenschat Allochtone Kinderen, Zwijsen, Tilburg.

Daalen-Kapteijns, M. van, e.a. (1993), Het analyseren van woordvormen en kennis van voorvoegsels, Levende Talen 485, 594-597.

Dahl, H. (1979), Wordfrequencies of Spoken American English, Verbation, Essex, Connecticut.

Damhuis, R. (1988), Tweede-taalverwerving in kleutergroepen. Een onderzoek naar de gelegenheid tot het leren van het Nederlands door Turkse en Marokkaanse kleuters. SCO, Amsterdam.

Damhuis, R. e.a. (1992), Woordenlijst voor 4- tot 6-jarigen: een streeflijst voor kleuters, Projectbureau OVB, Rotterdam.

Donaldson, B.C. (1987), Dutch reference grammar, Nijhoff, Leiden.

Guiraud, P. (1959), Problèmes et méthodes de la statistique linguistique, Reidel, Dordrecht.

Hartveldt, D. (1990), Kleine didaktiek voor het Nederlands als tweede taal, Coutinho, Muiderberg.

Hazenberg S. & J. Hulstijn (1992). Woorden op zicht. Woordselectie ten behoeve van het NT2-onderwijs, Levende Talen 467, 2-7.

Hout, R. van & A. Vermeer (1992), Frequenties van woorden en het geometrisch gemiddelde, Gramma/TTT 1, 2, 125-132.

Huijgen, M. & M. Verburg (1987), Van Dale Basiswoordenboek van de Nederlandse taal, De Ruiter, Gorinchem.

Kerkhoff, A. (1988). Taalvaardigheid en schoolsucces, Swets & Zeitlinger, Lisse.

Kohnstamm, G.A. e.a. (1984), Nieuwe Streeflijst woordenschat voor 6-jarigen, Swets & Zeitlinger, Lisse.

Kuera, H. & W. Francis (1967), Computational Analysis of present-day American English, Brown University Press, Providence, Rhode Island.

Mackey, W. (1965), Language teaching analysis, London.

Sciarone, A. (1979), Woordjes leren in het vreemde-talenonderwijs, Coutinho, Muiderberg.

Steunpunt Nederlands als tweede taal (1993), Woordenlijst basisonderwijs, Leuven.

Uit den Boogaart, P.C. red. (1975), Woordfrequenties in gesproken en geschreven Nederlands, Oosthoek, Scheltema en Holkema, Utrecht.

Verhoeven, L. & A. Vermeer 1993, Taaltoets Allochtone Kinderen Bovenbouw, Zwijsen, Tilburg.

Vermeer, A. 1986, Tempo en struktuur van tweede taalverwerving bij Turkse en Marokkaanse kinderen, KUB, Tilburg.

Willems, M.M. & M.M.B. Oud-de Glas (1990), Vocabulaire-selectie voor het vreemde-talenonderwijs. Een onderzoek naar de aan te bieden en aangeboden woorden Engels in het vreemde-talenonderwijs in de eerste fase van het voortgezet onderwijs, ITS, Nijmegen.











Alfabetische woordenlijst van niet-hapaxen







In een alfabetisch geordende lijst worden van 16.833 woorden de frequentie en het geometrisch gemiddelde gegeven voor het totaal, en voor de vier onderscheiden groepen in het basisonderwijs. De woorden die slechts één keer voorkomen in het corpus zijn niet opgenomen. Deze staan wel in de bestanden op de diskettes.