DET ÄR BRA ATT KUNNA SVENSKA NÄR MAN LETAR EFTER INFORMATION I SVENSKA TEXTER

 

Informationssökning stödd av en svensk språkmotor

 

Lexware är en språkmotor, den kan svenska. Tillämpningar av en maskin som kan svenska begränsas egentligen av fantasin bara, nedan beskrivs enbart nyttan i informationssökning.

Att kunna svenska innebär rätt speciella kunskaper jämfört med att kunna t.ex. engelska: ett svenskt ord ”rusdrycksförsäljningsförordningen” motsvaras av sex ord i engelska ”regulations of purchase of alcoholic beverages”. En svensk sökmotor bör alltså kunna hitta inte bara hela ord utan också ord inom ord. T.ex. om det sökta ordet är ”ordbok” borde ”synonymordböker” finnas med bland resultaten men inte ”reckordboken” eller ”mordbokföringen”. Det senare är resultat av en sökning baserad på enkel strängmatchning. Exemplen nedan visar det sökta ordet med wildcard-symbolen, som symboliserar att ordet skall ocskå matchas som del av textord. På höger sida visas de textord som matchar sökningen.

 

*polis*

polisonger, Akropolis

*mord*

omordnad, välsmord

*kris*

kråkris, påskris

*ordbok*

rekordboken, mordbokföringen

 

De oönskade resultat kan undvikas genom  att förse sökmotor med en ordlista och låta den följa principen att ett textord måste delas upp utan rest i ord som finns i ordlistan. Men inte ens det visar sig tillräckligt: ”bron” och ”sport”,  är svenska ord, lika så ”kul”, ”turk” och ”rockar”. Ordlistan hjälper inte heller för att avgöra vad menas i kontexten, t.ex. ”toppar” nedan.

 

*slagsmål*

landslagsmål

*sport*

bronsport, transportbil

*restid*

hyrestid

*stork*

storkunder, storkudde

*kul*, *kult*, *kultur*, *tur*, *turk*,

*ur*, *urk*, *rock*, *rockar*, *krock*, *ar*

kulturkrockar

*topp* 

*toppar*

U2 toppar listan ...

 

Lexware analyserar texten: ord var för sig och som satsdelar, och därför släpper inte igenom den typen av brus som exemplifieras ovan, samtidigt som de sökta orden hittas även när de förekommer ihop med egennamn, eller när alternativa tolkningar är möjliga, t.ex. ”jazzpop” och ”ångare”. Lexware minskar ner bruset radikalt men tar det inte bort helt och hållet, t.ex. både ”ask” och ”mask” kan menas med ”filmasken”.

 

*mord*

Åselemordet

*sångare* (ej *ångare*)

jazzpopsångaren

*altviolinist* (ej *ister*)

altviolinister

*ask* *mask*

filmasken


Sökmöjligheter

 

Om risken att översållas med brusinformation utesluts m.h.a. Lexware, öppnas möjligheten till bredare tolkningar av sökfrågor, t.ex. ett sökord kan tolkas som lexikonord eller ämnesord.

Lexikonord omfattar synonymer, avledningar och parafraser i Lexware. En sökmotor som stöds av Lexware svarar alltså med texter som innehåller begrepp som är relaterade till det efterlysta i sökordet. T.ex. om det sökta ordet är ”prostitution” hittar Lexware även texter som innehåller ord och fraser i högra spalten nedan.

 

 

prostitution

synonymi

könshandelsprofitörer, könsköp

avledning

prostituerade, Internetprostituerande

parafras

handeln med sexuella tjänster

 

Lexware har även ämnesrepresentation som kan göras tillgänglig för sökningar i form av urval ur en meny. Om användaren väljer t.ex. ”mat och dricka” från menyn svarar sökmotorn med artiklar eller textavsnitt om just detta ämne,  så som i det korta urvalet nedan. Lite brus kan uppstå p.g.a. metaforer, som Lexware fattar bokstavligen - ”De som ertappats med fingrarna i syltburken måste kollas noga i fortsättningen”  handlar kanske inte så mycket om mat.

 

 

Mat och dryck

... bryggare är överens om att lagerölet görs vid just 3.5 – 4 viktprocent .

Matkorgarna och picknickarrangemangen var däremot färre till antalet ...

De som ertappas med fingrarna i syltburken måste kollas noga i fortsättningen ...

Förbud mot Madeira, Sherry,  Portvin  etc?

... så att  starkspritsdrickarländer  som de skandinaviska ökat sin konsumtion ...

 Man har kunnat tillreda öl  och vin i tusentals år medan starksprit genom destillation först under medeltiden ...

 

 

 

Att koppla text och lexikon

 

Textanalys är inte målet utan medlet: den kopplar texter med all information som Lexware har i sitt lexikon. I textutdragen nedan har vissa innehållsord markerats med de uppgifter som är resultat av Lexware-textanalys, t.ex. ”könshandelsprofitörer” har identifierats som obestämt substantiv pluralis,  bestående av två komponentord ”könshandel” och ”profitör”. Ord och deras komponenter identifieras som lexikonord i databasen. Varje lexikonord identifieras med ett id-nummer, t.ex. 27671 är ”könshandel” och 20430 är ”profitör”. Alla textord får den typen av igenkänning och koppling till lexikonord, även om bara utvalda visas i texten nedan.

 

 

...

lägre bränsleskatt [11232_41320 n sg indef] på biodrivmedel    [72938_13415 n indef] är anmärkningsvärt...

...

att könsköp [27671_27695 n indef]inte hör hemma i ett jämställt ...

komma till Sverige för att prostituera sig [36991 vb refl inf]...

för att minska prostitutionen [36993 n sg def] ...

narkotikamissbruket bland de prostituerade [36992 adj pl def] ...

hör till könshandelsprofitörer [66182_36868 n pl indef]...

...

 

All information om lexikonord som Lexware har i sin databas görs därmed tillgänglig i sökningar. Nedan visas ett utdrag ur lexikonet med de innehållsord som är markerade ovan. Uppgifter omfattar relationer så som synonymi (syn.), hypernymi (hyper.), hyponymi (hypon.), avledning (^, jfr. köp). Sammansatta ord är försedda med länkar till sina komponenter (+, jfr. könshandel). Innehållsord är försedda med ämnesbeteckning (handel., sociol.), etymologiska uppgifter, mm.

 

...

72938: bio; PREFIX; gr. bios ’liv’;

11232: bränsle; hypon. 13415;

13415: drivmedel; hyper. 11232;

27671: kön; biol.; fornsv. kyn, kön;

27695: köp; handel.; fornsv. köp; ^27696;

27696: köpa;

66182: könshandel; handel.; syn. 36993; 27671+20430;

36868: profitör; ekon.;

36991: prostituera; samh., sociol.; lat. prostituere ’ställa fram, utbjuda’;

36993: prostitution; samh.,sociol.; syn. 66182; ^36991;

36992: prostituerad; ^36991;

...

 

Lexware kan också integreras med en extern kunskapsrepresentation. Låt säga att ämnet ”beskattning” represeteras som en s.k. tesaurus, med hypernymilänkar, dvs uppdelning i delämne: punktskatter, förmögenhetsskatt, fastighetsskatt, osv.

 

 

Bensinskatt 9062+41320

Dieselskatt 12792+41320

                              Drivmedelskatter

                              13415+41320

                                                     Energi- och miljöskatter

                                                   14403+41320 30792+41320

                                                                                               Punktskatter

                                                                                            37249

 

Representationen integreras med Lexwares egen databas genom att lexikonord identifieras i tesaurustermer och relationer, och sedan kan Lexware känna igen inte bara lexikonord utan även dessa tesaurustermer i texter.