Uitspraak
Rechtbank den haag
1.Het procesverloop
2.De feiten
- Voor kranten wordt er geen tekstbestand per pagina gemaakt, maar per artikel.
- De definitieve ocr-tekst (na eventuele correcties of ander nabewerkingen) moet worden opgenomen. De ocr-tekst uit alto-bestanden, pdf en fulltext- bestanden moet altijd identiek zijn.
- Paginanummers, de titel van de krant (bijvoorbeeld “Het Vaderland”) en gegevens over het krantennummer of de krant die in de metadata zijn opgenomen gelden niet als artikel. Deze tekst wordt wel in de alto en pdf, maar niet in de fulltext opgenomen.
- De OCR van de koppen van de artikelen dient gecorrigeerd te worden tot een niveau van minstens 99,8%. Dat wil zeggen dat minstens 99,8% van alle tekens in de koppen correct dient te zijn.
- Voor de overige delen van de tekst hoeft geen correctie te worden toegepast.
- (…)
7.Acceptatiecriteria
De geleverde batches moeten op alle punten voldoen aan de specificaties in dit document. De KB controleert de kwaliteit van het geleverde materiaal uitgebreid en op verschillende manieren.
Bevatten alle elementen de juiste inhoud?
Zijn alle tekstblokken inclusief bijschriften, illustraties en grafische elementen herkend?
(…)
Zijn de coördinaten correct?
(…)
Is alle tekst van de artikelen volledig opgenomen?
(…)
Zijn artikelen correct gesegmenteerd (d.w.z. zijn artikeldelen bij het juiste artikel opgenomen)
(…)
3.Het geschil
4.De beoordeling van het geschil
“De waarde van Page/@ID is met hoofdletter geschreven, dit moet “Page1” zijn.”X-Cago stelt dat deze puntenaftrek terecht zou zijn als de desbetreffende waarde van Page/@ID niet correct zou zijn opgenomen (bijvoorbeeld Page23, terwijl het bladzijde 4 betreft). Dat is niet aan de orde, de waarde is telkens correct ingevoerd. De omstandigheid dat X-Cago het woord PAGE volledig in hoofdletters heeft geschreven moet niet tot puntenaftrek leiden, althans niet tot een aftrek van 15 punten. De KB heeft sinds 2012 in eerdere opdrachten (zowel ten aanzien van kranten als ten aanzien van tijdschriften) telkens geaccepteerd dat het woord page in hoofdletters werd genoteerd en heeft daar ook nooit een opmerking over gemaakt. Het zou X-Cago ten zeerste verbazen als het volledig noteren in hoofdletters van dit woord technische impact zou hebben voor de KB.
Page + volgnummer binnen het object, dus bijvoorbeeld ‘Page1’.”Voorts blijkt uit de vooraf aangekondigde evaluatieprocedure (als weergegeven onder 2.9) hoeveel punten hiervoor in mindering worden gebracht. De toegepaste puntenaftrek is hiermee in overeenstemming en dus correct toegepast. De omstandigheid dat in eerdere opdrachten de KB heeft ingestemd met een andere weergave van de page-ID, alsmede de omstandigheid dat volgens X-Cago de andere schrijfwijze geen technische impact heeft – wat er van die, door de KB gemotiveerd weersproken stellingen, ook zij – kan dit niet anders maken. De gestelde eisen bij deze opdracht zijn helder en de KB dient overeenkomstig die eisen haar beoordeling uit te voeren. De puntenaftrek is op dit onderdeel dan ook correct toegepast.
“NEE, op pagina 41 is een illustratie met onderschrift opgenomen, maar er is geen tekst aanwezig in het TextBlock van het ComposedBlock(Kamagurka ontbreekt). Lege TextBlocks aanwezig op meerdere pagina’s.”X-Cago stelt dat deze puntenaftrek onterecht is toegepast, omdat de norm die op dit onderdeel vooraf in de aanbestedingsstukken is opgenomen is dat de tekst dient te worden herkend voor zover state-of-the-art technologie voor automatische tekstherkenning in staat is om tekst correct te herkennen. Ten aanzien van het tekstblok waarvoor punten in mindering zijn gebracht geldt dat de software die door X-Cago wordt ingezet (afkomstig van de marktleider op dit gebied, die dit probleem zelf ook bevestigt) wel het testblok heeft herkend, maar niet de tekst in dit blok niet herkent.
“NEE, meerdere gecontroleerde pagina’s bevatten fouten. De fouten zijn gevonden op pagina 14, 20, 31 en 41”.Uit het debat ter zitting en de overgelegde stukken is de voorzieningenrechter gebleken dat van alle woorden, regels, tekstblokken en plaatjes op een pagina de coördinaten worden vastgelegd die aangeven waar het desbetreffende element zich op een pagina bevindt. Hierdoor kunnen die elementen na een zoekopdracht in de teksten worden “gehighlight”. Als de coördinaten niet correct zijn vastgelegd, verschuiven de “highlights” naar een verkeerde positie. X-Cago betwist niet dat op de door de KB genoemde pagina’s fouten in de vermelding van de coördinaten staan. Dit is, aldus X-Cago, het gevolg van handmatige correctie van de koppen van de artikelen. De KB had deze handmatige correctie van de koppen als eis gesteld, maar heeft niet als eis gesteld dat de coördinaten vervolgens worden aangepast, zodat op dit onderdeel ten onrechte punten in mindering zijn gebracht.
“NEE, er ontbreekt tekst op pagina’s 1 (bij de illustraties MMKB99_000000490_008_articletext.xml), 14 (MMKB99_000000490_0043_articletext.xml) en 48 MMKB99_000000490_0285_artic-le text.xml)”.X-Cago stelt dat deze puntenaftrek onterecht is toegepast. Op de door de KB bedoelde punten is wel een tekstblok als zodanig herkend, maar niet de woorden in dat tekstblok, omdat het een tekstblok op een foto betreft. Dit komt doordat dit, ook bij gebruik van de software van de marktleider op dit gebied, in dit geval technisch niet mogelijk is.
“NEE, articletext 0261 (p46) en 205 (p41) bevatten titels en gegevens van de bijlage (Beurs/Business en Dialoog) en horen niet als article opgenomen te worden. Als dat per ongeluk wel gebeurt, dan hoort bij deze kop ook broodtekst van het artikel. Bij: nationale editie (p17) en Sport krant (p25) is het goed gesegmenteerd, nl. als bijlagetitels.”.