Ya sea que estés acostumbrado a trabajar con ODOC o que lo manejes por primera vez, editarlo no debería sentirse como un desafío. Diferentes formatos pueden requerir software específico para abrirlos y modificarlos correctamente. Sin embargo, si necesitas cambiar rápidamente un token en ODOC como parte de tu proceso habitual, es recomendable obtener una herramienta multifuncional de documentos que permita todo tipo de operaciones sin necesidad de esfuerzo adicional.
Prueba DocHub para una edición eficiente de ODOC y también otros formatos de archivo. Nuestra plataforma proporciona un procesamiento de documentos sin esfuerzo, sin importar cuánta o poca experiencia previa tengas. Con todas las herramientas que tienes para trabajar en cualquier formato, no tendrás que cambiar entre ventanas de edición al trabajar con cada uno de tus documentos. Crea, edita, anota y comparte tus documentos sin esfuerzo para ahorrar tiempo en tareas de edición menores. Solo necesitarás registrarte en una nueva cuenta de DocHub, y luego podrás comenzar tu trabajo de inmediato.
Observa una mejora en la productividad del procesamiento de documentos con el conjunto de características sencillas de DocHub. Edita cualquier archivo de manera fácil y rápida, independientemente de su formato. Disfruta de todas las ventajas que provienen de la simplicidad y conveniencia de nuestra plataforma.
En el video de hoy, vamos a hablar sobre la tokenización en spaCy. También podemos hacer tokenización en NLTK. Hemos discutido los pros y los contras entre estas dos bibliotecas y, decidimos que usaremos spaCy por las razones que mencioné en el último video. Y si recuerdas nuestro video sobre la tubería de NLP, teníamos este uh este paso llamado pre-procesamiento. Así que en toda esta tubería de NLP, vamos a comenzar con el paso de pre-procesamiento. La adquisición de datos y el paso de extracción y limpieza de texto es algo que quizás podamos revisar más tarde, tal vez en el proyecto de NLP de extremo a extremo. Pero en el pre-procesamiento lo que aprendimos fue que hay un paso llamado tokenización de oraciones, cuando tienes un párrafo de texto. Primero lo separas en oraciones y luego cada oración la divides en palabras. Así que eso se llama tokenización de palabras. Así que vamos a ver cómo puedes hacer ambas cosas en la biblioteca spaCy. Además, hubo stemming, lematización, cubriremos stemming, lematización más tarde