Base di conoscenza | pro.corrige.it

La base di conoscenza di Corrige.it è un insieme di risorse linguistiche che costituiscono il modello di lingua per il motore di intelligenza artificiale ortografica di Corrige.it.
Sulla base di conoscenza intervengono gli algoritmi di apprendimento supervisionato e le attività di controllo e integrazione della redazione.
La base di conoscenza concorre a definire:

se una parola/espressione dev’essere segnalata e perché
la migliore sostituzione nel caso la parola/espressione sia un errore
la classificazione della parola / espressione secondo il Vocabolario di Base.

La base di conoscenza di Corrige.it si distingue dai comuni strumenti di controllo ortografico per molte caratteristiche, tra le quali:

è al centro di un motore di intelligenza artificiale discriminativa che esamina il testo valutando i contesti
offre informazioni di significato o suggerimenti redazionali che aiutano l’utente a comprendere la segnalazione di errore o di sospetto
registra milioni di contesti d’uso e può così segnalare anche l’uso scorretto di parole/espressioni in sé valide, come per esempio in Presidente del Coniglio
viene aggiornata quotidianamente da una redazione di esperti: ogni giorno nuove parole, nuove espressioni, nuovi contesti, nuove informazioni enciclopediche da offrire agli utenti
gli stessi utenti possono segnalare parole e contesti con un solo clic: la redazione verifica e integra ogni segnalazione, così da mantenere l’elevata affidabilità del sistema
offre diversi gradi di segnalazione, perché distingue tra parole/espressioni che:
- riconosce come errore in sé o come errore rispetto al contesto
- sono valide ma potrebbero essere errore nello specifico contesto
- sono valide ma è meglio esprimere diversamente in buon italiano
- non riconosce (in genere errori o parole molto rare non ancora presenti in Corrige!)
offre suggerimenti di riscrittura per migliorare la leggibilità
include decine di migliaia di parole/espressioni di altre lingue e molti nomi propri, così da minimizzare le segnalazioni inutili.

La base di conoscenza è costituita da due grandi insiemi:

il modello di lingua probabilistico, cioè i contesti d’uso, i quali possono essere contesti di uso valido (nessuna segnalazione all’utente), di uso dubbio (segnalazione di sospetto) oppure di uso certamente errato (segnalazione di errore).
la conoscenza puntuale deterministica delle parole in sé valide (con le relative informazioni statistiche e lessicografiche) oppure in sé errate (come errrrore);

Il modello di lingua probabilistico
È un insieme è costituito da centinaia di milioni di elementi, i quali registrano le informazioni per valutare il contesto d’uso delle parole e distinguere l’uso non corretto di parole in sé corrette. Grazie a questa conoscenza, il motore di intelligenza artificiale di Corrige.it può dare segnalazioni estremamente puntuali e affidabili in merito all’uso delle parole e può quindi aiutare l’utente a individuare errori subdoli dal punto di vista grafico (perla / per la) o semantico (fragranza / flagranza).
Fa parte del modello di lingua anche uno specifico motore di risoluzione a regole per alcuni fatti lessicali specifici, come le unità di misura.

Conoscenza puntuale deterministica
Questo insieme è costituito da centinaia di migliaia di elementi con informazioni statistiche di natura euristica, informazioni redazionali e riferimenti a fonti enciclopediche.
Le informazioni euristiche sono utilizzate dal motore di intelligenza artificiale per ottimizzare i tempi di valutazione dei contesti.
Lo scopo delle informazioni e dei riferimenti è aiutare l’utente a comprendere per quale motivo la parola viene segnalata (sospetta o errore) oppure semplicemente per segnalare all’utente in qual modo Corrige.it ha riconosciuto la parola o l’espressione.