Revista I+D en TIC Volumen 8 Número (2) pp. 46 - 50 Universidad Simón Bolívar, Barranquilla–Colombia. ISSN:2216-1570
http://revistas.unisimon.edu.co/index.php/identic
simplemente como imagen, sino como texto? Además, ¿qué tipo de
herramientas informáticas y té cnicas son necesarias para dicha
interpretación?.
Definición.
[2] La minería de datos tiene varias definiciones, veamos algunos a
continuación:
“Es el proceso de descubrir nuevas correlaciones, patrones y
tendencias, utilizando grandes cantidades de datos almacenados en
repositorios, aplicando tecnologías de reconocimiento de patrones, así
como herramientas matemáticas y estadísticas.”
“ Es un proceso más amplio que tiene como objetivo el
descubrimiento de conocimiento en grandes bases de datos”
“Es un proceso no trivial de identificación válida, novedosa,
potencialmente útil y entendible de patrones comprensibles que se
encuentran ocultos en los datos”.
Para concluir la minería de datos es el proceso de extraer conocimiento
a partir de grandes cantidades de datos, mediante el uso de diferentes
técnicas de aprendizaje de máquina. La utilidad de la minería de datos
ya no se pone en duda, por lo cual esta tecnología está siendo aplicada
por muchas herramientas de software.
Técnicas de Minería de Datos.
[3]Las técnicas de minería de datos permiten la extracción de
conocimiento. Actualmente, existe un amplio abanico de técnicas de
minería de datos que se pueden clasificar en predictivas (las variables
se pueden clasificar en dependientes e independientes), descriptivas (se
agrupan a partir de características similares) y auxiliares (herramientas
de apoyo a la verificación).
Las técnicas predictivas en las que las variables pueden clasificarse
inicialmente en dependientes e independientes en base a un
conocimiento teórico previo, algunos algoritmos son los de tipo de
regresión, árboles de decisión, redes neuronales, algoritmos genéticos
y técnicas bayesianas.
Las técnicas descriptivas en el que todas las variables tiene
inicialmente el mismo estatus o grado de pertenencia. Estas técnicas,
se crean automáticamente partiendo del reconocimiento de patrones.
Entre este grupo tenemos técnicas de agrupación (clustering),
segmentación, reducción de la dimensionalidad, etc.
Las técnicas auxiliares son herramientas de apoyo superficial y más
limitadas. Basadas en técnicas de estadísticas descriptivas, consultas e
informes enfocados generalmente a la verificación y presentación.
Clustering.
Consiste en agrupar un conjunto de datos, sin tener clases predefinidas,
basándose en la similitud de los valores de los atributos de los distintos
datos. Esta agrupación, a diferencia de la clasificación, se realiza de
forma no supervisada, ya que no se conoce de antemano las clases del
conjunto de datos de entrenamiento. El clustering identifica clusters, o
regiones densamente p obladas, de acuerdo a alguna medida de
distancia, en un gran conjunto de datos multidimensional [4] El
clustering se basa en maximizar la similitud de las instancias en cada
cluster y minimizar la similitud entre clusters.
Dentro las técnicas de clustering se tiene, el algoritmo K-means, el cual
fue creado en 1967 por MacQueen y es el algoritmo de clustering más
conocido y utilizado, siendo de simple aplicación y eficaz. La idea
básica del algoritmo es obtener los K centros iniciales y formar clusters,
asociando todos los objetos de X a los centros más cercanos, después
se recalculan los centros. Si esos centros no difieren de los centros
anteriores, entonces el algoritmo termina; caso contrario, se repite el
proceso de asociación con lo s n uevos centros hasta que no haya
variación en los centros, o se cumpla algún otro criterio de parada como
poco número de reasignaciones de los objetos. Para obtener los
centroides, se calcula la media o la moda según se trate de atributos
numéricos o simbólicos. Las acciones o pasos a seguir son las
siguientes:
Primero se especifica por adelantado cuantos clusters se van a crear,
éste es el parámetro k, para lo cual se seleccionan k elementos
aleatoriamente, que representarán el centro o media de cada cluster.
A continuación, cada una de las instancias, ejemplos, es asignada al
centro del cluster más cercano de acuerdo con la distancia Euclidiana
que le separa de él.
Para cada uno de los clusters así construidos se calcula el centroide
de todas sus instancias y estos centroides son tomados como los nuevos
centros de sus respectivos clusters.
Finalmente se repite el proceso completo con los nuevos centros de
los clusters.
La iteración continúa hasta que se repite la asignación de los mismos
ejemplos a los mismos clusters, ya que los puntos centrales de los
clusters se han estabilizado y permanecerán invariables después de
cada iteración.
Arboles de decisión. Los árboles de decisión son uno de los
algoritmos más sencillos y fáciles de implementar y a su vez de los más
poderosos. Este algoritmo genera un árbol de decisión de forma
recursiva al considerar el criterio de la mayor proporción de ganancia
de información, es decir, elige al atributo que mejor clasifica a los
datos. [5]
Las características más importantes en el trabajo con árboles de
decisiones son la especificación de los criterios para minimizar los
costes, la selección del método de división y la elección del tramo del
árbol adecuado o problema del sobreajuste [3]
Redes Neuronales. Inspiradas en el modelo biológico, son
generalizaciones de modelos estadísticos clásicos. Su novedad radica
en el aprendizaje secuencial, el hecho de utilizar transformaciones de
las variables originales para la predicción y la no linealidad del modelo.
Permite aprender en contextos difíciles, sin precisar la formulación de
un modelo concreto. Su principal inconveniente es que para el usuario
son una caja negra. [6].
Figura 1. Redes Neuronales.
Redes Bayesianas
[7]Formalmente, una Red Bayesiana es un grafo dirigido cíclico cuyos
nodos representan variables y los arcos que los unen codifican
dependencias condicionales entre las variables. El grafo proporciona
una forma intuitiva de describir las dependencias del modelo y define
una factorización sencilla de la distribución de probabilidad conjunta
consiguiendo un modelo manejable que es compatible con las
dependencias codificadas. Existen algoritmo eficiente para aprender
modelos gráficos probabilísticos a partir de datos, permitiendo así la
aplicación automática de esta metodología en problemas complejos.
Las Redes Bayesianas que modelizan secuencias de variables (por
ejemplo, series temporales de observaciones) se