Mindre sökbrus

Informationssökning hör till tillämpningar där kunskaper i enskilda språk betyder möjlghet till att upptäcka information som t.ex. döljer sig i långa svenska ord. En språkkänslig språkmotorn kan hitt mycket utan onödigt sökbrus. Söker man efter ordbok kan texter med besläktade begrepp väljas fram, som t.ex. uppslagsverk, handordböcker, osv, utan att texter med rekordbok, mordbokföringen följer med på köpet.

       

Information i svenska texter finns ofta inuti textord till skillnad från t.ex. engelska.

Språken som engelska och svenska har olika tyngd på sina textord, t.ex. rusdrycksförsäljningsförordningen motsvaras av sju textord: the regulations of purchase of alcoholic beverages.

       

Sökbruset kan tillta om maskinen som inte kan svenska tillåts söka sökord inuti textord.

Egentligen bara följande två ord: kultur- och krockar finns i kulturkrockar men många fler hittas av en maskin som inte kan svenska: kul-tur-krockar, kult-ur-krockar, kult-urk-rockar, kul-turk-rockar.

       

Inte ens en språkmotorn som kan svenska kan utesluta alla falska tolkningar.

Ibland gör språkmotorn tabbar som visar att den kan svenska men saknar mänsklig erfarenhet, ibland är det svårt att avgöra rätt tolkning generellt. Vad menas egentligen med filmask: fil-mask eller film-ask? Hur vet vi att landslagsmål betyder landslags-mål och inte land-slagsmål? Flera exempel på ordtolkningsproblem

«- Tillbaka