El proceso de descubrimiento de conocimiento en bases de datos
Autor | Silvio Ricardo Timarán-Pereira/Isabel Hernández-Arteaga/Segundo Javier Caicedo-Zambrano/Arsenio Hidalgo-Troya/Juan Carlos Alvarado-Pérez |
Cargo del Autor | Doctor en Ingeniería con énfasis en Ciencias de la Computación/Doctora en Ciencias de la Educación/Doctor en Ciencias de la Educación/Magíster en Ciencias/Máster en Sistemas Inteligentes |
Páginas | 63-86 |
2
BY NC ND
¿Cómo citar este capítulo?/How to cite this chapter?
Timarán-Pereira, S. R., Hernández-Arteaga, I., Caicedo-Zambrano, S. J., Hidalgo-Troya, A. y Alvarado-
Pérez, J. C. (2016). El proceso de descubrimiento de conocimiento en bas es de datos. En Descubri-
miento de patrones de desempeño académico con árboles de decisión en las competencias genéricas
de la formación profesional (pp. 63-86). Bogotá: Ediciones Universidad Cooperativa de Colombia.
DOI: htt p://dx.doi.or g/10.16925/978958760049 0
El proceso de descubrimiento
de conocimiento en bases de datos
The Process of Knowledge Discovery on Databases
Resumen
En este capítulo se describen la s etapas del proceso KDD y se hace énfasis en la et apa de minería de datos
y en las técnicas más comúnmente utilizada s, como son la clasificación, la asociación, el agrupamiento
y los patrones secuenciales. Se det alla además una de las metodologías de referencia más utilizada
en el desarrollo de proyectos de minería de datos en los ambientes ac adémico e industrial, como CRISP-
DM, que está compuesta p or seis fases: análisis del problema, análisis de los datos, preparación de los
datos, modelado, evaluación y explotación.
Palabras cl ave: CRISP-DM, bases de datos, minería de datos, proceso KDD.
Abstract
The stages of the KDD process are described herein, emphasizing the data mining stage and more
commonly used techniques, such as classif ication, association, grouping and sequential pat terning.
Additionally, one of the most used reference methodologies in the implementation of data mining
projects in academic and indus trial fields, such as CRISP-DM, is detailed. It consist s of six phases: problem
analysis, data analysis, data preparation, modeling, a ssessment and exploitation.
Keywords: CRISP-DM, databases, dat a mining, KDD process.
Descubrimiento de patrones de desempeño académico
64
lntroducción
El proceso de extraer conocimiento a partir de grandes volúmenes de datos ha
sido reconocido por muchos investigadores como un tópico de investigación
clave en los sistemas de bases de datos, y por muchas compañías industriales
como una importante área y una oportunidad para obtener mayores ganancias
(Timarán, 2009). Autores como Fayyad, Piatetsky-Shapiro y Smith (1996, p.
89) lo definen como “El proceso no trivial de identificación de patrones válidos,
novedosos, potencialmente útiles y fundamentalmente entendibles al usuario a
partir de los datos”.
El Descubrimiento de conocimiento en bases de datos (KDD, del inglés
Knowledge Discovery in Databases) es básicamente un proces o automático en el que
se combinan descubri miento y análisis. El proceso con siste en extraer patrones en
forma de reglas o funciones, a partir de los datos, para que el usuario los analice.
Esta tarea implica generalmente preprocesar los datos, hacer minería de datos
(data mining) y presentar re sultados (Agrawal y Srikant, 1994) (Chen, Han y Yu,
1996) (Piatetsky Shapiro, Brachman y K habaza, 1996) (Han y Kamber, 2001). KDD
se puede aplicar en diferentes dominios, por ejemplo, para determin ar perfiles de
clientes fraudulentos (evasión de impuestos), para descubrir relaciones implícitas
existentes entre síntomas y enfermedades, entre características técnicas y diag-
nóstico del estado de equipos y máquina s, para determinar perfiles de e studiantes
“académicamente exitosos” en términos de sus caracter ísticas socioeconómicas y
para determinar patrones de compra de los clientes en sus canastas de mercado.
Etapas del proceso KDD
El proceso KDD que se muestra en la figura 1 es interactivo e iterativo, involucra
numerosos pasos con la intervención del usuario en la toma de muchas decisiones.
Se resume en las siguientes etapas:
•Selección.
•Preprocesamiento/limpieza.
•Transformación/reducción.
•Minería de datos (data mining).
•Interpretación/evaluación.
Para continuar leyendo
Solicita tu prueba