Texto con faltas de ortografia

Encontrar las hojas de trabajo de errores gramaticales

La solución es instalar un diccionario médico. Esto no sobrescribe el diccionario actual. Simplemente lo complementa. Hay varios diccionarios médicos disponibles, aunque la versión que he encontrado que funciona fácilmente con hunspell en R es:

Clonar el repositorio de github o descargar y extraer la carpeta. A continuación, establezca el argumento DICPATH utilizando Sys.setenv() a la ubicación que ha establecido el diccionario. He colocado los archivos del diccionario en el repositorio de github para este blog.

En el caso de que aún falten términos en el diccionario, puedes añadirlos manualmente al archivo en_US.dic. Abra el archivo en Word (para Windows, asegurándose de mantener la codificación Unicode (UTF-8)) o en un editor de texto (para Mac). Copie/pegue las palabras que desee añadir al diccionario. Utilice una línea por palabra. No es necesario realizar ninguna edición en el resto del documento o en el archivo .aff que lo acompaña. He guardado el diccionario personalizado en un nuevo archivo («/custom_dictionary/en_US_custom.dic»)

Encuentre los ejercicios de errores gramaticales

Aunque el 12,5% de la población de la India sabe hablar inglés, ocupa el puesto 27 en el Índice de Competencia en Inglés. Esto significa que cualquier tipo de datos textuales obtenidos de usuarios de Internet como el nuestro no sólo debe esperar datos multilingües, sino también mucho ruido en forma de errores gramaticales, jerga de Internet, faltas de ortografía, etc. El ruido puede crear problemas importantes tanto durante el entrenamiento como en las pruebas de los bots. Durante el tiempo de entrenamiento, una gran cantidad de ruido puede impedir que los algoritmos de aprendizaje automático aprendan rápidamente, mientras que en el tiempo de prueba el ruido no visto puede llevar a predicciones erróneas.

Las palabras raras, como las faltas de ortografía, suelen acabar con vectores poco útiles durante el proceso de entrenamiento. Esto se debe a que ocurren tan raramente que su vector asignado al azar apenas se mueve. Normalmente, las palabras raras se marcan como palabras desconocidas y se descartan del proceso de entrenamiento. Si podemos corregir la ortografía con precisión, podemos conservar más datos de entrenamiento y reducir el número total de palabras únicas, lo que repercute en el tiempo de entrenamiento y en la memoria.

Errores de texto comunes

También puede proporcionarnos un enlace a un documento. Nosotros descargaremos el archivo de Internet y lo convertiremos en casi cualquier formato, como Microsoft Word (DOC) o PDF. Una vez descargado, lo revisaremos en busca de errores ortográficos y gramaticales y verá los resultados al instante. Esta es también una forma fácil de revisar sitios web.

Si tienes un archivo que quieres revisar en busca de palabras mal escritas o errores gramaticales, puedes subirlo a nuestros servidores y hacer que se revisen los errores automáticamente. Incluso puedes subir imágenes con texto y se convertirán automáticamente en texto editable y se comprobará la ortografía.

Como se ha explicado anteriormente, la revisión ortográfica y las mejoras gramaticales del texto pueden realizarse utilizando tres enfoques principales diferentes. Nuestro conversor en línea utiliza todos ellos. Además, nuestros servidores son bastante potentes y cuentan con mucha memoria RAM para almacenar el gran corpus. Además, se actualizan constantemente y se aplican mejoras. No es necesario instalar un software en cada dispositivo que posea para corregir su texto. Basta con abrir el navegador en cualquier dispositivo y ya está. Y lo mejor de todo es que nuestro corrector ortográfico es completamente gratuito.

Texto con errores a corregir

Este programa genera errores ortográficos en un texto, según los cuatro operadores de cambio de caracteres insertar, borrar, transponer y reemplazar. Puede o no generar una salida realista. Hay algunos parámetros para probar y ajustar, ver más abajo. Hay más información sobre este programa en la entrada del blog (sueco) Skapa stavfel («Haciendo errores ortográficos» en sueco). Si tiene preguntas u otros comentarios sobre el programa, envíeme un correo electrónico.

La probabilidad de que una palabra específica del texto contenga un error ortográfico. 0 significa que no se generará ningún error, 1 significa que cada palabra puede tener algún error. Esta probabilidad se comprueba para cada palabra de un texto. Esto significa que para el valor de 0,5 (que es el predeterminado), casi todas las palabras serán modificadas.

No hay restricciones en cuanto al lugar de la palabra en el que se producirá el cambio: las posiciones son simplemente aleatorias. Para cada uno de estos operadores es posible establecer una probabilidad (de 0 a 1) de que se produzca este tipo de error. La suma de estas probabilidades debe sumar (aproximadamente) 1 o de lo contrario puede ocurrir algo imprevisto.