Vad är ett lemma? Definition, exempel och skillnad mot lexem
Lär dig vad ett lemma är, skillnaden mot lexem och konkreta exempel — enkel, tydlig förklaring för språkstudier och effektiv ordboksanvändning.
Lemma är den form av ett ord som väljs som uppslagsord i en ordbok — det du hittar som huvudord. Alla huvudord i en ordbok är lemmor. I teknisk mening avser ett lemma vanligen "ett grundord och dess böjningar": det är den konventionellt valda citationformen som representerar en hel uppsättning böjda former.
Skillnaden mellan lemma och lexem
Ett lemma är den särskilda form som används för att representera ett lexem i en ordbok. Ett lexem är en meningsenhet i språkvetenskaplig mening och kan omfatta flera ord eller former som delar samma grundbetydelse. Med andra ord:
- Lexem = uppsättningen av alla former som hör till samma betydelseenhet.
- Lemma = den konventionellt valda citationformen som representerar detta lexem i ordboken.
På engelska, till exempel, är run, runs och running former av samma lexem, men run är lemma.
Exempel på svenska lemmaval
- Namn på substantiv: lemma anges ofta i singular obestämd form — t.ex. bok som representerar böcker, boken, bokens.
- Verb: lemma är vanligtvis infinitivformen — t.ex. skriva som representerar skriver, skrev, skrivit.
- Adjektiv: lemma anges ofta i positiv form — t.ex. stor som representerar större, störst.
- Flera ord: vissa lexem är flervordsuttryck (t.ex. take off på engelska) och kan ha en fast lemmaform som består av flera ord.
Inflektion vs. derivering
Former som uppstår genom böjning (inflektion) — t.ex. kasus, numerus, tempus — hör normalt till samma lexem och representeras av ett och samma lemma. Ord som bildas genom härledning (derivation) — t.ex. run → runner — räknas oftast som olika lexem och får egna lemmor.
Användning i språkteknologi och lexikografi
- Lemmatisering: i NLP (naturlig språkbearbetning) är lemmatisering processen som omvandlar en böjd form till dess lemma (t.ex. skriver → skriva).
- Stemming vs. lemmatisering: stemming trunkerar ordformer ofta utan språklig analys, medan lemmatisering söker korrekt citationform utifrån grammatisk och lexikal information.
- Sök och indexering: att använda lemmor i sökfunktioner gör det möjligt att hitta relevanta träffar oavsett böjning.
Vanliga missförstånd
- Att lemma alltid är detsamma som ordets "rot" eller "stam" — nej: lemma är en fullständig ordform (t.ex. infinitiv eller singular), inte nödvändigtvis en morfologisk stam.
- Att alla språk använder samma conventions för lemmaval — olika språk och ordböcker kan välja olika citationformer (t.ex. i vissa språk anges verb i första person singular istället för infinitiv).
Sammanfattningsvis: ett lemma är den konventionellt valda uppslagsformen i en ordbok som representerar ett helt lexem. Lemmatisering är praktiskt både för språkvetenskap, ordboksarbete och språktekniska tillämpningar eftersom den binder samman olika böjda former till en enda representantform.
Morfologi
På engelska är lemmat i ett substantiv singularis: t.ex. mouse istället för mice. I språk med genus är huvudordet i vanliga adjektiv och substantiv vanligtvis maskulint singular. Om språket också har kasus är lemmat ofta maskulin singular nominativ.
På många språk är infinitivformen ett verbs citatform: Franska aller, tyska gehen, spanska ir. På engelska är det vanligtvis den fullständiga infinitivformen (to go) även om den alfabetiseras utan "to" (go).
Skillnaden mellan stam och lemma
Inom beräkningslingvistik är en stam den del av ordet som aldrig ändras även när olika former av ordet används. Ett lemma är verbets grundform. Till exempel från "producerad" är lemmat "producera", men stammen är "produc-". Detta beror på att det finns ord som till exempel produktion. När ljudet (fonologin) beaktas är definitionen av den oföränderliga delen av ordet inte lika användbar. Lägg märke till ljudet i orden i exemplet: "producerade" /prəˈdjuːst/ kontra "produktion" /prəˈdʌkʃən/.
Vissa lexem har flera stammar men ett lemma. Till exempel har "to go" (lemma) stammarna "go" och "went". Här bygger förleden på ett annat verb, "to wend", på ett annat verb, "to wend". Suffixet "-t" motsvarar "-ed".
Sök