-
Notifications
You must be signed in to change notification settings - Fork 1
/
Copy pathdecodIRT_MLtIRT.py
189 lines (160 loc) · 7.25 KB
/
decodIRT_MLtIRT.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
# -*- coding: utf-8 -*-
"""
Created on Sat Oct 26 18:20:49 2019
@author: Lucas
Segundo script da ferramenta decodIRT. O objetivo desse script é calcular os
parâmetros de item para os datasets utilizados no primeiro script.
Link do código-fonte: https://github.com/LucasFerraroCardoso/IRT_OpenML
"""
import os
import csv
import argparse
import pandas as pd
import rpy2.robjects.packages as rpackages
import rpy2.robjects as robjects
from rpy2.robjects.vectors import StrVector
from rpy2.robjects import pandas2ri
def normalize(lista, min_range, max_range):
vmin = min(lista)
vmax = max(lista)
tmp = []
for i in lista:
norm = (max_range - min_range)*((i - vmin)/(vmax - vmin)) + min_range
tmp.append(norm)
return tmp
def insertMongo(dici,mongoClient,namedata):
from pymongo import MongoClient
class Connect(object):
@staticmethod
def get_connection(mongoClient):
return MongoClient(mongoClient)
client = Connect.get_connection(mongoClient)
db = client.IRT
print("\nInserindo dados no MongoDB")
#for i in tqdm(dici):
tmp = {}
tmp["name_dataset"] = namedata
tmp.update(dici)
# lista = list(tmp.keys())
# for j in lista:
# if '.' in j:
# key = j.replace('.','_')
# value = tmp[j]
# del tmp[j]
# tmp[key] = value
db.inventory.insert_one(tmp)
def formatMatrix(respMatrix):
teste = pd.read_csv(respMatrix, index_col=0)
n= teste.to_numpy()
n = len(n[0])
teste.to_csv('tmp_irt_teste.csv',index=False,header=['V'+str(i) for i in range(n)])
return 'tmp_irt_teste.csv'
def main(arg_dir = 'output',respMatrix=None,arg_url = None):
#mongoClient = arguments.url
#Importa o pacote utils do R para instalar e importar pacotes R
utils = rpackages.importr('utils')
utils.chooseCRANmirror(ind=1)
#Lista de pacotes R para instalar
#O pacote ltm é usado para o calculo dos parametros do IRT
packnames = ['ltm']
#Verifica se o pacote ja esta instalado, caso não, instala
names_to_install = [x for x in packnames if not rpackages.isinstalled(x)]
if len(names_to_install) > 0:
print('Instalando o pacote ltm do R\n')
utils.install_packages(StrVector(names_to_install))
#Importa o pacore ltm do R
ltm = rpackages.importr('ltm')
pandas2ri.activate()
out = arg_dir
#Pega todos os arquivos contendo os valores para o IRT
list_data_irt = []
if respMatrix == None:
#Lista todos os diretorios de datasets da pasta output
list_dir = os.listdir(out)
list_dir = [i for i in list_dir if '.' not in i]
for path in list_dir:
# if os.path.exists(os.getcwd()+out+'/'+path+'/'+path+'_irt.csv'):
try:
read = csv.reader( open(out+'/'+path+'/'+path+'_irt.csv', "r"))
list_data_irt.append(path+'_irt.csv')
except IOError:
print('Nao foi encontrado o arquivo para calculo do irt do dataset ',path)
else:
list_data_irt.append(respMatrix)
#file = ('heart-statlog_irt.csv')
#data = robjects.r('PL3.rasch<-tpm(read.csv(file="heart-statlog_irt.csv"))')
#print('\nIniciando calculo dos parametros do IRT para os datasets: ',list_dir)
#Inicia o calculo do IRT para todos os datasets
for f in range(len(list_data_irt)):
print("Calculando os parametros do IRT para o dataset: ",list_data_irt[f])
#Calcula os parametros do IRT com o pacote ltm do R
if respMatrix == None:
file_path = out+'/'+list_dir[f]+'/'+list_data_irt[f]
else:
file_path = formatMatrix(list_data_irt[f])
file_path = file_path.replace('\\','/')
try:
data = robjects.r('tpm(read.csv(file="'+file_path+'"),IRT.param = TRUE)')
except:
#data = robjects.r('tpm(read.csv(file="'+file_path+'"),control = list(optimizer = "nlminb"))')
data = robjects.r('tpm(read.csv(file="'+file_path+'"), start.val = "random")')
#Trata os dados dos parametros
par = (str(data).split('\n'))
#Adciona os parametros em um dicionario
parameter_dict = {}
parameters = ['Discriminacao','Dificuldade','Adivinhacao']
for i in range(len(par)):
try:
if par[i][0] == 'V':
pass
else:
continue
except:
continue
item = par[i].split()[0]
tmp_dict = {}
for p in range(3):
tmp_dict[parameters[p]] = float(par[i].split()[3-p])
parameter_dict[item] = tmp_dict
list_dis = []
list_dif = []
list_adv = []
for i in parameter_dict:
list_dis.append(parameter_dict[i]['Discriminacao'])
list_dif.append(parameter_dict[i]['Dificuldade'])
list_adv.append(parameter_dict[i]['Adivinhacao'])
# normalized_dis = normalize(list_dis,-4,4)
# normalized_dif = normalize(list_dif,-4,4)
# c = 0
# for i in parameter_dict:
# parameter_dict[i]['Discriminacao'] = normalized_dis[c]
# parameter_dict[i]['Dificuldade'] = normalized_dif[c]
# c += 1
dataframe = pd.DataFrame.from_dict(parameter_dict)
dataframe = dataframe.reindex(index = parameters)
#break
#Salva os parametros do IRT na pasta de cada dataset
if respMatrix == None:
dataframe.transpose().to_csv(r''+out+'/'+list_dir[f]+'/irt_item_param.csv')
else:
os.remove(file)
dataframe.transpose().to_csv(r''+out+'/irt_item_param.csv')
#Insere os dados do IRT no MongoDB
if arg_url != None:
try:
insertMongo(parameter_dict,arg_url,list_dir[f])
print('==> Dados salvos com sucesso :)\n')
except:
print("Não foi possivel inserir os dados no MongoDB :/ \nVerifique se a url passada do banco está correta, assim como nome e senha\n")
if __name__ == '__main__':
parser = argparse.ArgumentParser(description = 'Ferramenta para gerar os parâmetros do TRI')
parser.add_argument('-dir', action = 'store', dest = 'dir',
default = '/output', required = False,
help = 'Nome do diretório onde estão as pastas dos datasets (Ex: output)')
parser.add_argument('-respMatrix', action = 'store', dest = 'respMatrix',
default = None, required = False,
help = 'Matriz de resposta com o resultado da classificacao dos modelos (Ex: matriz.csv)')
parser.add_argument('-url', action = 'store', dest = 'url', required = False,
help = 'URL do cluster no MongoDB, com usuario e senha (Ex: mongodb+srv://Usuario:senha@nomedocluster)')
arguments = parser.parse_args()
main(arguments.dir,arguments.respMatrix,arguments.url)