Tydlig framställning av preliminära resultat, dvs resultat utan manuell genomgång av skillnaderna i automatisk och manuell indexering

 

Utvärdering utgår ifrån att manuellt tilldelade nyckelord är korrekta och presenterar först en jämförelse av resultat (utifrån filen stat.txt). Automatiskt tilldelade nyckelord som inte på något sätt är relaterade i tesaurusträdet till manuellt tilldelade ord (”DIFFERENT” i stat.txt) betraktas som felaktiga.  Nyckelord som inte återfinns bland tesaurustermer (”NON_TERM” i stat.txt, ”Förslag: Term?” i diff.txt) betraktas på två sätt: som felaktiga och som ej existerande. I det senare fallet beräknas procentsatsen annorlunda.  Dessa preliminära antagande justeras efter en manuell genomgång av de dokument som visar största skillnader i automatisk och manuell indexering.

 

 

Manuell genomgång av skillnader i automatisk och manuell indexering

 

”DIFFERENT” antas i den preliminära sammanställningen av resultat vara fel i automatisk indexering men egentligen innebär ”DIFFERENT” att  nyckelordet saknas i den manuella indexeringen och att det inte ligger under samma rot i tesaurusen. Detta behöver inte innebära att ett nyckelord inte är relevant för dokumentet. Indexeraren kunde ha missat just det nyckelordet och tesaurusen har inte uteslutande utan snarare överlappande kategorier. Jfr dokument 1999-2000-M-N208  där ”INVESTERING” markeras som ”DIFFERENT” därför att den inte  har valts i den manuella indexeringen och ligger inte under samma rot i tesaurusen som ”VINST”, trots att de är uppenbarligen besläktade. Tittar man på dokumentets text visar det sig vara befogat med nyckelordet ”INVESTERING”: ” Vinstmedlen bör användas till investeringar …”