Kontrollerade naturliga språk (CNL) är konstgjorda varianter av naturliga språk som byggs upp genom att förenkla grammatik, begränsa ordförråd och införa regler för stil och struktur för att minska tvetydighet och hantera språklig komplexitet. Syftet är att göra texter lättare att förstå för människor, enklare att översätta och/eller möjliggöra automatisk bearbetning och formell analys med datorer.
Man brukar skilja mellan två huvudtyper av kontrollerade språk:
- Förenklade eller tekniska språk som är avsedda för ökad läsbarhet och konsekvent dokumentation i teknisk kommunikation och kundinformation. Dessa språk hjälper personer som inte har språket som modersmål, minskar fel i användarmanualer och underlättar maskinell eller halvautomatisk översättning.
- Formella kontrollerade språk som har strikt definierade syntax- och semantiksregler och som kan mappas till formella representationer (t.ex. första ordningens logik eller OWL). Dessa möjliggör automatisk semantisk analys, verifiering och sökbarhet i maskinläsbar form.
Den första typen kallas ofta "förenklade" eller "tekniska" språk. De används av företag eller industrier för att förbättra kvaliteten på tekniska texter. Standardiserade termer och strukturer underlättar den halvautomatiska översättningen till andra språk och minskar risken för felaktig tolkning. Exempel är ASD Simplified Technical English (ASD-STE100) som används inom flygindustrin, Caterpillar Technical English och IBM:s Easy English.
Förenklade (eller tekniska) språk vägleder skribenten genom konkreta stilregler som hjälper till att göra texten enhetlig och tydlig. Typiska regelformuleringar är "skriv korta och enkla meningar", "använd personens namn ("John Smith" till exempel) i stället för att säga 'honom'" och "tala om vem som gör något, snarare än vad som görs, såvida du inte behöver säga vad som görs". Andra vanliga rekommendationer är att undvika figurativt språk, sammansatta termer utan förklaring och att använda en begränsad ordlista med föreskrivna synonymer.
Den andra typen av språk har väldefinierade regler för både syntax och semantik, vilket gör att uttryck i språket kan översättas till formella logiska uttryck. Sådana CNL:er används för kunskapsrepresentation, automatiserad resonemang, kravspecifikationer och formell verifiering. Genom att reglera grammatiska konstruktioner och begrepp kan dessa språk analyseras med hjälp av datorer, kontrolleras för korrekthet och effektivt sökas i stora textkorpusar.
Praktiska tillämpningar för kontrollerade naturliga språk inkluderar:
- Teknisk dokumentation och användarmanualer där enhetlig terminologi minskar fel och förbättrar översättning.
- Underhålls- och säkerhetsinstruktioner inom exempelvis flyg- och processindustri där tydlighet är avgörande för säkerhet.
- Kunskapsmodellering och ontologibyggande där formella CNL:er används för att skapa maskinläsbara kunskapsbaser.
- Regel- och kravformulering där formell verifikation mot specifikationer kan utföras automatisk.
- Informationssökning och extraktion där begränsad språkvariation förbättrar precisionen i sökfrågor och extraktion.
Vanliga designprinciper och regler i kontrollerade språk (exempel):
- Begränsa ordförrådet — använd en kontrollerad lista över tillåtna termer och definiera prefererade synonymer.
- Begränsa meningslängd — håll meningar korta och innehåll enbart en huvudidé per mening.
- Använd aktiv form i stället för passiv när det är möjligt (säg vem som utför handlingen).
- Avoid idioms, metaphors and ambiguous prepositions (undvik idiomatiskt och tvetydigt språk).
- Standardisera terminologi och använd konsekventa termdefinitioner i hela dokumentationen.
För formella CNL:er finns ofta verktyg som kontrollerar att texten följer reglerna och som översätter naturligt språk till en logisk representation. Exempel på sådana CNL:er i forskningen och praktiken är Attempto Controlled English (ACE), som kan mappas till första ordningens logik, och andra språk som används för att generera OWL-ontologier eller SPARQL-frågor. Dessa lösningar gör det möjligt att kombinera mänsklig begriplighet med maskinell precision.
Fördelarna med CNL inkluderar bättre läsbarhet, färre missförstånd, enklare översättning och möjligheten att utföra automatisk analys och verifiering. Begränsningarna består i att uttryckens uttrycksfrihet minskar — det finns alltid en avvägning mellan precision och uttryckskraft — samt att införande kräver utbildning, terminologihantering och ibland förändrade arbetsflöden.
Implementering av kontrollerade språk i en organisation kräver ofta:
- Utveckling eller adoption av en lämplig språkstandard (t.ex. ASD-STE100 för teknisk dokumentation).
- Terminologihantering och en central termbas.
- Författarstöd som skrivregler, checkers och utbildning för tekniska författare.
- Integration med översättningsverktyg och innehållshanteringssystem (CMS).
Sammanfattningsvis erbjuder kontrollerade naturliga språk en praktisk mellanväg mellan fri naturlig språkkommunikation och strikt formell representation. Genom att välja rätt typ av CNL och implementera stödverktyg kan organisationer uppnå både bättre mänsklig förståelse och större möjligheter till automatisk bearbetning av text.