-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathlab1.4.py
64 lines (45 loc) · 1.7 KB
/
lab1.4.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
import re
import string
import nltk
import os
from nltk.corpus import stopwords
nltk.download('punkt')
nltk.download('stopwords')
# Lee el contenido del archivo externo
archivo_path = os.path.join(os.path.dirname(__file__), 'lab1.txt')
with open(archivo_path, 'r', encoding='utf-8') as archivo:
texto = archivo.read()
# Tokenización usando NLTK
palabras = nltk.word_tokenize(texto)
# separar por espacios
palabras = texto.split()
print("\n///// TEXTO SIN ESPACIOS\n")
print(palabras[:100])
# mostrar signos de puntuacion
print("\n///// SIGNOS DE PUNTUACION\n")
print(string.punctuation)
# Definir expresión regular para eliminar signos de puntuación
simbolos_extra = '’'
re_punc = re.compile('[%s%s]' % (re.escape(string.punctuation), re.escape(simbolos_extra)))
# Eliminar signos de puntuación de cada palabra
stripped = [re_punc.sub('', w) for w in palabras]
print("\n///// TEXTO SIN SIGNOS DE PUNTUACION\n")
print(stripped[:100])
# Corvertir a minusculas cada palabra de la lista
for i in range(len(stripped)):
stripped[i] = stripped[i].lower()
print("\n///// TEXTO EN MINUSCULAS\n")
print(stripped[:100])
# Obtener lista de stopwords en inglés
stopwords_english = set(stopwords.words('english'))
# Convertir el conjunto de stopwords a una lista
stopwords_english_list = list(stopwords_english)
# Imprimir las primeras 5 palabras vacías
print("\n///// PRIMERAS 5 PALABRAS VACÍAS\n")
print(stopwords_english_list[:5])
#print(stopwords_english[:5])
# Eliminar palabras vacías
filtered_words = [word for word in stripped if word not in stopwords_english]
# Imprime las primeras 100 palabras en minúsculas sin símbolos ni stopwords
print("\n///// TEXTO SIN PALABRAS VACIAS\n")
print(filtered_words[:100])