DET ÄR BRA ATT KUNNA SVENSKA NÄR MAN LETAR EFTER INFORMATION I SVENSKA TEXTER
Lexware är en språkmotor, den kan svenska. Tillämpningar av en maskin som kan svenska begränsas egentligen av fantasin bara, nedan beskrivs enbart nyttan i informationssökning.
Att kunna
svenska innebär rätt speciella kunskaper jämfört med att kunna t.ex. engelska:
ett svenskt ord ”rusdrycksförsäljningsförordningen” motsvaras av sex ord i
engelska ”regulations of purchase of alcoholic beverages”. En svensk sökmotor
bör alltså kunna hitta inte bara hela ord utan också ord inom ord. T.ex. om det
sökta ordet är ”ordbok” borde ”synonymordböker” finnas med bland resultaten men
inte ”reckordboken” eller ”mordbokföringen”. Det senare är resultat av en
sökning baserad på enkel strängmatchning. Exemplen nedan visar det sökta ordet
med wildcard-symbolen, som symboliserar att ordet skall ocskå matchas som del
av textord. På höger sida visas de textord som matchar sökningen.
*polis* |
polisonger, Akropolis |
*mord* |
omordnad, välsmord |
*kris* |
kråkris, påskris |
*ordbok* |
rekordboken, mordbokföringen |
De oönskade resultat kan undvikas genom att förse sökmotor med en ordlista och låta
den följa principen att ett textord måste delas upp utan rest i ord som finns i
ordlistan. Men inte ens det visar sig tillräckligt: ”bron” och ”sport”, är svenska ord, lika så ”kul”, ”turk” och
”rockar”. Ordlistan hjälper inte heller för att avgöra vad menas i kontexten,
t.ex. ”toppar” nedan.
*slagsmål* |
landslagsmål |
*sport* |
bronsport, transportbil |
*restid* |
hyrestid |
*stork* |
storkunder, storkudde |
*kul*, *kult*, *kultur*, *tur*, *turk*, *ur*, *urk*, *rock*, *rockar*,
*krock*, *ar* |
kulturkrockar |
*topp* *toppar* |
U2 toppar listan ... |
Lexware analyserar texten: ord var för
sig och som satsdelar, och därför släpper inte igenom den typen av brus som exemplifieras
ovan, samtidigt som de sökta orden hittas även när de förekommer ihop med
egennamn, eller när alternativa tolkningar är möjliga, t.ex. ”jazzpop” och
”ångare”. Lexware minskar ner bruset radikalt men tar det inte bort helt och
hållet, t.ex. både ”ask” och ”mask” kan menas med ”filmasken”.
*mord* |
Åselemordet |
*sångare* (ej
*ångare*) |
jazzpopsångaren |
*altviolinist* (ej
*ister*) |
altviolinister |
*ask* *mask* |
filmasken |
Sökmöjligheter
Om risken att översållas med brusinformation utesluts m.h.a. Lexware, öppnas möjligheten till bredare tolkningar av sökfrågor, t.ex. ett sökord kan tolkas som lexikonord eller ämnesord.
Lexikonord
omfattar synonymer, avledningar och parafraser i Lexware. En sökmotor som stöds
av Lexware svarar alltså med texter som innehåller begrepp som är relaterade
till det efterlysta i sökordet. T.ex. om det sökta ordet är ”prostitution”
hittar Lexware även texter som innehåller ord och fraser i högra spalten nedan.
prostitution
|
|
synonymi |
könshandelsprofitörer, könsköp |
avledning |
prostituerade, Internetprostituerande |
parafras |
handeln med sexuella tjänster |
Lexware har även ämnesrepresentation som kan göras tillgänglig för sökningar i form av urval ur en meny. Om användaren väljer t.ex. ”mat och dricka” från menyn svarar sökmotorn med artiklar eller textavsnitt om just detta ämne, så som i det korta urvalet nedan. Lite brus kan uppstå p.g.a. metaforer, som Lexware fattar bokstavligen - ”De som ertappats med fingrarna i syltburken måste kollas noga i fortsättningen” handlar kanske inte så mycket om mat.
Mat och dryck
|
... bryggare är överens om att
lagerölet görs vid just 3.5 – 4 viktprocent . |
Matkorgarna och picknickarrangemangen
var däremot färre till antalet ... |
De som ertappas med fingrarna i
syltburken måste kollas noga i fortsättningen ... |
Förbud mot Madeira, Sherry, Portvin etc? |
... så att starkspritsdrickarländer
som de skandinaviska ökat sin konsumtion ... |
Man har kunnat tillreda öl
och vin i tusentals år medan starksprit genom destillation först under
medeltiden ... |
Textanalys är inte målet utan medlet: den
kopplar texter med all information som Lexware har i sitt lexikon. I
textutdragen nedan har vissa innehållsord markerats med de uppgifter som är
resultat av Lexware-textanalys, t.ex. ”könshandelsprofitörer” har identifierats
som obestämt substantiv pluralis,
bestående av två komponentord ”könshandel” och ”profitör”. Ord och deras
komponenter identifieras som lexikonord i databasen. Varje lexikonord
identifieras med ett id-nummer, t.ex. 27671 är ”könshandel” och 20430 är
”profitör”. Alla textord får den typen av igenkänning och koppling till
lexikonord, även om bara utvalda visas i texten nedan.
... lägre bränsleskatt [11232_41320
n sg indef] på biodrivmedel [72938_13415
n indef] är anmärkningsvärt... ... att könsköp [27671_27695
n indef]inte hör hemma i ett jämställt ... komma till Sverige för att
prostituera sig [36991 vb refl inf]... för att minska prostitutionen [36993
n sg def] ... narkotikamissbruket bland de
prostituerade [36992 adj pl def] ... hör till könshandelsprofitörer [66182_36868
n pl indef]... ... |
All information om lexikonord som
Lexware har i sin databas görs därmed tillgänglig i sökningar. Nedan visas ett
utdrag ur lexikonet med de innehållsord som är markerade ovan. Uppgifter omfattar
relationer så som synonymi (syn.), hypernymi (hyper.), hyponymi (hypon.),
avledning (^, jfr. köp). Sammansatta ord är försedda med länkar till sina
komponenter (+, jfr. könshandel). Innehållsord är försedda med ämnesbeteckning
(handel., sociol.), etymologiska uppgifter, mm.
... 72938: bio; PREFIX; gr. bios
’liv’; 11232: bränsle; hypon. 13415; 13415: drivmedel; hyper.
11232; 27671: kön; biol.; fornsv.
kyn, kön; 27695: köp; handel.; fornsv. köp;
^27696; 27696: köpa; 66182: könshandel; handel.; syn.
36993; 27671+20430; 36868: profitör; ekon.; 36991: prostituera; samh.,
sociol.; lat. prostituere ’ställa fram, utbjuda’; 36993: prostitution;
samh.,sociol.; syn. 66182; ^36991; 36992: prostituerad; ^36991; ... |
Lexware kan också integreras med en extern
kunskapsrepresentation. Låt säga att ämnet ”beskattning” represeteras som en
s.k. tesaurus, med hypernymilänkar, dvs uppdelning i delämne: punktskatter, förmögenhetsskatt,
fastighetsskatt, osv.
Bensinskatt 9062+41320 Dieselskatt
12792+41320
Drivmedelskatter
13415+41320 Energi- och miljöskatter
14403+41320
30792+41320 Punktskatter
37249 |
Representationen integreras med Lexwares
egen databas genom att lexikonord identifieras i tesaurustermer och relationer,
och sedan kan Lexware känna igen inte bara lexikonord utan även dessa
tesaurustermer i texter.