Formatos de archivo inusuales dentro de sus procesos cotidianos de gestión y edición de documentos pueden crear confusión instantánea sobre cómo editarlos. Puede que necesite más que el software de computadora preinstalado para una edición de documentos efectiva y rápida. Si necesita eliminar una oración en rtf o hacer cualquier otra alteración simple en su documento, elija un editor de documentos que tenga las características para trabajar con facilidad. Para manejar todos los formatos, como rtf, optar por un editor que funcione correctamente con todo tipo de archivos es su mejor opción.
Pruebe DocHub para una gestión de documentos eficiente, independientemente del formato de su documento. Tiene potentes herramientas de edición en línea que agilizan su proceso de gestión de documentos. Puede crear, editar, anotar y compartir fácilmente cualquier documento, ya que todo lo que necesita para acceder a estas características es una conexión a internet y una cuenta de DocHub en funcionamiento. Una solución de documento es todo lo que se requiere. No pierda tiempo saltando entre diferentes aplicaciones para diferentes archivos.
Disfrute de la eficiencia de trabajar con una herramienta diseñada específicamente para agilizar el procesamiento de documentos. Vea lo sencillo que es revisar cualquier documento, incluso cuando es la primera vez que ha tratado con su formato. Registre una cuenta ahora y mejore todo su proceso de trabajo.
Ahora nos hemos deshecho de la puntuación y también hemos tokenizado nuestros datos, es hora de deshacernos de algunas palabras redundantes, que no añaden mucho significado a nuestras palabras. Esas palabras se llaman palabras vacías. Y en este video, veremos cómo podemos deshacernos de esas palabras. Por ejemplo, puede haber muchas palabras como am, is, the y muchas otras palabras similares. Las cuales, si eliminamos, el significado de la oración sigue siendo el mismo. Así que al eliminar esas palabras vacías adicionales, estamos dando muy pocas palabras a nuestro algoritmo de Python para trabajar y eso será mucho más rápido. Así que comencemos escribiendo código en el cuaderno. Así que este era el estado del cuaderno cuando tokenizamos nuestro conjunto de datos. Así que la segunda columna representaba texto libre de puntuación y en la tercera columna los tokenizamos en una lista de tokens o palabras. Así que aquí puedes ver que hay muchas palabras vacías como so, you, in. Aquí también I, he y estas palabras no añaden mucho significado. Así que deshacémonos de ellas, así que primero necesitamos importar la librería nltk.