Alcune particolari caratteristiche dei documenti possono condizionare il riconoscimento di parole ed espressioni:
- Documenti PDF: separazione delle parole nel testo
Nei documenti PDF la separazione delle parole viene individuata in base alla spaziatura tra i segni grafici. In alcuni casi le informazioni presenti nel testo non sono sufficienti a separare con certezza le parole. Pertanto, in rari casi, alcune parole possono risultare unite o spezzate. - Documenti PDF: separazione delle parole per sillabazione a cavallo di pagina
Nei documenti PDF la separazione per sillabazione delle parole a cavallo di pagina può essere inframmezzata con elementi metatestuali quali il numero della pagina, intestazioni ecc. Corrige.it effettua controlli aggiuntivi per poter riconoscere tali elementi metatestuali e poter così ricostruire la parola. In alcuni casi la presenza di numerazioni particolari può interferire con questo meccanismo e impedire di riunificare la parola. - Documenti con parole spezzate per sillabazione
Alcuni documenti possono contenere parole nelle quali la sillabazione per andare a capo viene resa con un trattino normale anziché con un trattino di sillabazione. In questi casi, Corrige.it verifica se la parola che si trova a fine riga o a fine pagina e termina con trattino può essere unita con la parola che si trova all’inizio della riga o pagina successiva. Questo meccanismo viene utilizzato per evitare di segnalare come errori parole che in realtà sono semplicemente interrotte per andare a capo. - Documenti con note
In alcuni casi non è possibile distinguere con certezza i richiami di nota nel testo e separarli dalla parola alla quale sono associati. Quando si dovesse presentare questo caso, alcune parole potrebbero includere il segno (numero o lettera) che indica la nota e quindi non essere riconosciute. - Documenti solo grafici
Alcuni documenti apparentemente testuali (come PDF o DOC) potrebbero in realtà essere costituiti da fotografie o scannerizzazioni di pagine anziché da pagine vere e proprie. È il caso, per esempio, dei file PDF che contengono riproduzioni di testi: il documento è in formato PDF ma in realtà non contiene testo ma immagini. Sottoponendo tali file a Corrige.it si ottiene un conteggio delle parole vicino a zero oppure zero. - Documenti con riferimenti extratestuali
Corrige.it identifica diversi tipi di riferimento extratestuale e non ne analizza le parole, poiché non avrebbe senso. In particolare:- gli indirizzi Internet sono riconosciuti se iniziano per “http://”, “https://”, “ftp://”, “www.” ecc.
- gli indirizzi di posta elettronica sono riconosciuti in base alla presenza del simbolo “@” seguito e preceduto da lettere, numeri e simboli che rispettino la sintassi prevista dalle norme tecniche
- gli hashtag sono riconosciuti in base alla presenza del simbolo “#” seguito da lettere, numeri e simboli che rispettino la sintassi prevista dalle norme tecniche
- i riferimenti a DOI (Digital Object Identifier) sono riconosciuti in base alla presenza del prefisso “DOI:10.” seguito da caratteri che rispettino la sintassi prevista dalle norme tecniche.