Hur kännetecknas textkategoriseringssystem som är kunskapsbaserat, så som Lexware Djupindexering

 

Kännetecknande för ett kunskapsbaserat system.

 

Antal förekomster av en term i dokumentet är inte avgörande för att välja termen som nyckelord. T.ex. i Djupindexering i dokumentet 1999-2000-M-A710   har ”Ledighet” lika många förekomster som ”Handikapp” (14) men den första har dubbel så stor viktning än den andra. Tesarusens struktur och egenheter hos lexikala enheter i en term bidrar vid bedömning av viktnig:  hur specifik är termen i tesaurusträdet (D depth of term sub-tree), och i tesaurusen överhuvudtaget (T thesaurus frequency), hur flertydig är lexikala enheter som termen består av (F term familiarity = number of senses), hur relevant är termen med tanke på domänen, dvs riksdags debatter (R term relevance).