La base di conoscenza di Corrige.it è un insieme di risorse linguistiche che costituiscono il modello di lingua per il motore di intelligenza artificiale ortografica di Corrige.it.
Sulla base di conoscenza intervengono gli algoritmi di apprendimento supervisionato e le attività di controllo e integrazione della redazione.
La base di conoscenza concorre a definire:
- se una parola/espressione dev’essere segnalata e perché
- la migliore sostituzione nel caso la parola/espressione sia un errore
- la classificazione della parola / espressione secondo il Vocabolario di Base.
La base di conoscenza di Corrige.it si distingue dai comuni strumenti di controllo ortografico per molte caratteristiche, tra le quali:
- è al centro di un motore di intelligenza artificiale discriminativa che esamina il testo valutando i contesti
- offre informazioni di significato o suggerimenti redazionali che aiutano l’utente a comprendere la segnalazione di errore o di sospetto
- registra milioni di contesti d’uso e può così segnalare anche l’uso scorretto di parole/espressioni in sé valide, come per esempio in Presidente del Coniglio
- viene aggiornata quotidianamente da una redazione di esperti: ogni giorno nuove parole, nuove espressioni, nuovi contesti, nuove informazioni enciclopediche da offrire agli utenti
- gli stessi utenti possono segnalare parole e contesti con un solo clic: la redazione verifica e integra ogni segnalazione, così da mantenere l’elevata affidabilità del sistema
- offre diversi gradi di segnalazione, perché distingue tra parole/espressioni che:
- riconosce come errore in sé o come errore rispetto al contesto
- sono valide ma potrebbero essere errore nello specifico contesto
- sono valide ma è meglio esprimere diversamente in buon italiano
- non riconosce (in genere errori o parole molto rare non ancora presenti in Corrige!) - offre suggerimenti di riscrittura per migliorare la leggibilità
- include decine di migliaia di parole/espressioni di altre lingue e molti nomi propri, così da minimizzare le segnalazioni inutili.
La base di conoscenza è costituita da due grandi insiemi:
- il modello di lingua probabilistico, cioè i contesti d’uso, i quali possono essere contesti di uso valido (nessuna segnalazione all’utente), di uso dubbio (segnalazione di sospetto) oppure di uso certamente errato (segnalazione di errore).
- la conoscenza puntuale deterministica delle parole in sé valide (con le relative informazioni statistiche e lessicografiche) oppure in sé errate (come errrrore);
Il modello di lingua probabilistico
È un insieme è costituito da centinaia di milioni di elementi, i quali registrano le informazioni per valutare il contesto d’uso delle parole e distinguere l’uso non corretto di parole in sé corrette. Grazie a questa conoscenza, il motore di intelligenza artificiale di Corrige.it può dare segnalazioni estremamente puntuali e affidabili in merito all’uso delle parole e può quindi aiutare l’utente a individuare errori subdoli dal punto di vista grafico (perla / per la) o semantico (fragranza / flagranza).
Fa parte del modello di lingua anche uno specifico motore di risoluzione a regole per alcuni fatti lessicali specifici, come le unità di misura.
Conoscenza puntuale deterministica
Questo insieme è costituito da centinaia di migliaia di elementi con informazioni statistiche di natura euristica, informazioni redazionali e riferimenti a fonti enciclopediche.
Le informazioni euristiche sono utilizzate dal motore di intelligenza artificiale per ottimizzare i tempi di valutazione dei contesti.
Lo scopo delle informazioni e dei riferimenti è aiutare l’utente a comprendere per quale motivo la parola viene segnalata (sospetta o errore) oppure semplicemente per segnalare all’utente in qual modo Corrige.it ha riconosciuto la parola o l’espressione.