Si editas documentos en diferentes formatos todos los días, la universalidad de tu solución de documentos importa mucho. Si tus herramientas solo funcionan con algunos de los formatos populares, puedes encontrarte cambiando entre ventanas de aplicaciones para eliminar palabras en NBP y gestionar otros formatos de documentos. Si deseas eliminar el dolor de cabeza de la edición de documentos, opta por una solución que pueda manejar cualquier formato sin esfuerzo.
Con DocHub, no necesitas concentrarte en nada más que en la edición real del documento. No tendrás que malabarear programas para trabajar con formatos diversos. Te ayudará a revisar tu NBP tan fácilmente como cualquier otro formato. Crea documentos NBP, modifícalos y compártelos en una solución de edición en línea que te ahorra tiempo y aumenta tu productividad. Todo lo que necesitas hacer es registrarte para obtener una cuenta gratuita en DocHub, lo que solo toma unos minutos.
No tendrás que convertirte en un multitarea de edición con DocHub. Su funcionalidad es suficiente para una edición de documentos rápida, independientemente del formato que necesites revisar. Comienza creando una cuenta gratuita para ver lo fácil que puede ser la gestión de documentos teniendo una herramienta diseñada especialmente para tus necesidades.
Ahora nos hemos deshecho de la puntuación y también hemos tokenizado nuestros datos, es hora de deshacernos de algunas palabras redundantes, que no añaden mucho significado a nuestras palabras. Esas palabras se llaman palabras vacías. Y en este video, veremos cómo podemos deshacernos de esas palabras. Así que, por ejemplo, puede haber muchas palabras como am, is, the y muchas otras palabras similares. Las cuales, si eliminamos, el significado de la oración sigue siendo el mismo. Así que al eliminar esas palabras vacías adicionales, estamos dando muy pocas palabras a nuestro algoritmo de Python para trabajar y eso será mucho más rápido. Así que comencemos escribiendo código en el cuaderno. Así que este era el estado del cuaderno cuando tokenizamos nuestro conjunto de datos. Así que la segunda columna representaba texto libre de puntuación y en la tercera columna los tokenizamos en una lista de tokens o palabras. Así que aquí puedes ver que hay muchas palabras vacías como so, you, in. Aquí también I, he y estas palabras no añaden mucho significado. Así que deshagámonos de ellas, así que primero necesitamos importar la librería nltk.