Por esta altura, você provavelmente já ouviu falar bastante sobre a mineração de dados - a indústria mais recente do chavão do banco de dados. O que há essa tendência tudo? Para usar uma analogia simples, é encontrar a proverbial agulha no palheiro. Neste caso, a agulha é que peça única de inteligência e suas necessidades de negócios do palheiro é o grande armazém de dados que você acumulou durante um longo período de tempo.
Através do uso de análise estatística automatizado (ou "data mining") técnicas, as empresas estão descobrindo as novas tendências e padrões de comportamento que antes passava despercebida. Uma vez que você descobriu essa inteligência vital, ele pode ser usado de forma preditiva para uma variedade de aplicações.
O primeiro passo para a construção de um programa de exploração mineira de dados é, naturalmente, a recolha de dados! A maioria das empresas já realizam essas tarefas de coleta de dados, em certa medida - a chave aqui é a de localizar os dados críticos para o seu negócio, refiná-lo e prepará-lo para o processo de mineração de dados. Se você está atualmente a acompanhar os dados do cliente em um SGBD modernos, as chances são que você está quase pronto.
Seleção de um Algoritmo
Neste ponto, ter um momento para você mesmo tapinha nas costas. Você tem um armazém de dados! O próximo passo é escolher um ou mais algoritmos de mineração de dados para aplicar o seu problema. Se você está apenas começando, é provavelmente uma boa idéia fazer experiências com várias técnicas para se dar uma idéia de como eles funcionam. A escolha do algoritmo vai depender dos dados que você recolheu, o problema que você está tentando resolver e as ferramentas de computação que você tem disponível para você. Vamos dar uma breve olhada em dois dos algoritmos mais populares.
Regressão
Regressão é a técnica mais antiga e bem conhecida estatística de que a comunidade de mineração de dados utiliza. Basicamente, a regressão tem um conjunto de dados numéricos e desenvolve uma fórmula matemática que se ajusta aos dados. Quando você está pronto para usar os resultados para prever o comportamento futuro, você simplesmente pega seus novos dados, conecte-o a fórmula desenvolvida e você tem uma previsão! A principal limitação desta técnica é que ela só funciona bem com contínua de dados quantitativos (como velocidade, peso ou idade). Se você está trabalhando com dados categóricos, onde a ordem não é significativa (como nome, cor ou sexo) é melhor escolher uma outra técnica.
Classificação
Trabalhando com dados categóricos ou uma mistura de dados numéricos contínuos e categóricos? análise de classificação possam atender às suas necessidades também. Esta técnica é capaz de processar uma variedade mais ampla de dados que a regressão e está crescendo em popularidade. Você também vai encontrar a saída que é muito mais fácil de interpretar. Ao invés da complicada fórmula matemática dada pela técnica de regressão você receberá uma árvore de decisão que exige uma série de decisões binárias. Um algoritmo de classificação popular é o meio-algoritmo de agrupamento k .
Outras Técnicas
Regressão e classificação são duas das técnicas de classificação mais populares, mas eles só formam a ponta do iceberg. Para um olhar detalhado em outros algoritmos de mineração de dados, olha esse recurso em Técnicas de Mineração de Dados ou o SPSS Data Mining página.
Produtos de Mineração de Dados
Produtos de mineração de dados estão levando a indústria pela tempestade. Os vendedores de banco de dados principal já tomaram medidas para assegurar que suas plataformas de incorporar técnicas de mineração de dados. Oracle Data Mining Suite (Darwin) implementa árvores de classificação e regressão, redes neurais, k-vizinhos mais próximos, análise de regressão e algoritmos de clustering. Microsoft SQL Server também oferece funcionalidade de mineração de dados através do uso de árvores de classificação e algoritmos de clustering. Se você já está trabalhando em um ambiente de estatísticas, você provavelmente está familiarizado com os dados do algoritmo de implementações de mineração oferecido pela pacotes estatísticos avançados SPSS, SAS e S-Plus.