Base di conoscenza

La base di conoscenza di Corrige.it è un insieme di risorse linguistiche che costituiscono il modello di lingua per il motore di intelligenza artificiale ortografica di Corrige.it.
Sulla base di conoscenza intervengono gli algoritmi di apprendimento supervisionato e le attività di controllo e integrazione della redazione.
La base di conoscenza concorre a definire:

  • se una parola/espressione dev’essere segnalata e perché
  • la migliore sostituzione nel caso la parola/espressione sia un errore
  • la classificazione della parola / espressione secondo il Vocabolario di Base.

La base di conoscenza di Corrige.it si distingue dai comuni strumenti di controllo ortografico per molte caratteristiche, tra le quali:

  • è al centro di un motore di intelligenza artificiale discriminativa che esamina il testo valutando i contesti
  • offre informazioni di significato o suggerimenti redazionali che aiutano l’utente a comprendere la segnalazione di errore o di sospetto
  • registra milioni di contesti d’uso e può così segnalare anche l’uso scorretto di parole/espressioni in sé valide, come per esempio in Presidente del Coniglio
  • viene aggiornata quotidianamente da una redazione di esperti: ogni giorno nuove parole, nuove espressioni, nuovi contesti, nuove informazioni enciclopediche da offrire agli utenti
  • gli stessi utenti possono segnalare parole e contesti con un solo clic: la redazione verifica e integra ogni segnalazione, così da mantenere l’elevata affidabilità del sistema
  • offre diversi gradi di segnalazione, perché distingue tra parole/espressioni che:
    - riconosce come errore in sé o come errore rispetto al contesto
    - sono valide ma potrebbero essere errore nello specifico contesto
    - sono valide ma è meglio esprimere diversamente in buon italiano
    - non riconosce (in genere errori o parole molto rare non ancora presenti in Corrige!)
  • offre suggerimenti di riscrittura per migliorare la leggibilità
  • include decine di migliaia di parole/espressioni di altre lingue e molti nomi propri, così da minimizzare le segnalazioni inutili.

La base di conoscenza è costituita da due grandi insiemi:

  • il modello di lingua probabilistico, cioè i contesti d’uso, i quali possono essere contesti di uso valido (nessuna segnalazione all’utente), di uso dubbio (segnalazione di sospetto) oppure di uso certamente errato (segnalazione di errore).
  • la conoscenza puntuale deterministica delle parole in sé valide (con le relative informazioni statistiche e lessicografiche) oppure in sé errate (come errrrore);

Il modello di lingua probabilistico
È un insieme è costituito da centinaia di milioni di elementi, i quali registrano le informazioni per valutare il contesto d’uso delle parole e distinguere l’uso non corretto di parole in sé corrette. Grazie a questa conoscenza, il motore di intelligenza artificiale di Corrige.it può dare segnalazioni estremamente puntuali e affidabili in merito all’uso delle parole e può quindi aiutare l’utente a individuare errori subdoli dal punto di vista grafico (perla / per la) o semantico (fragranza / flagranza).
Fa parte del modello di lingua anche uno specifico motore di risoluzione a regole per alcuni fatti lessicali specifici, come le unità di misura.

Conoscenza puntuale deterministica
Questo insieme è costituito da centinaia di migliaia di elementi con informazioni statistiche di natura euristica, informazioni redazionali e riferimenti a fonti enciclopediche.
Le informazioni euristiche sono utilizzate dal motore di intelligenza artificiale per ottimizzare i tempi di valutazione dei contesti.
Lo scopo delle informazioni e dei riferimenti è aiutare l’utente a comprendere per quale motivo la parola viene segnalata (sospetta o errore) oppure semplicemente per segnalare all’utente in qual modo Corrige.it ha riconosciuto la parola o l’espressione.