Conceitos : Data Wharehouse e Data Mining


Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na frente a organização que consegue tomar decisões corretas e rápidas. Com esta importante tarefa nas mãos, profissionais tomadores de decisão tais como executivos, gerentes e analistas, exigem dos sistemas de suporte à decisão (Decision Support Systems - DSS) mais recursos para análise, front-ends que suportem consultas ad hoc, interfaces gráficas apropriadas, etc.

A ideia de data warehouse é integrar os dados internos e externos de uma organização em uma estrutura única permitindo uma melhor utilização dos dados pelos analistas, gerentes e executivos. Uma vez obtida a integração, sistemas como OLAP (On-Line Analytical Processing) e data mining fornecem mecanismos sofisticados para análise dos dados.

Estudar e conhecer a tecnologia de data warehouse pode ajudar os empresários a descobrir novas formas de competir em uma economia globalizada, trazendo melhores produtos ou serviços para o mercado, mais rápida do que os concorrentes, sem aumentar o custo do produto ou do serviço.

Não existem ainda metodologias formais para implementação de um data warehouse, ela deve ser adaptada às características e às expectativas de cada empresa, mas o principal objetivo em todas elas é o de descobrir maneiras diferentes de atuar no mercado e quais as mudanças internas que devem ocorrer para atender as novas realidades.

Nas últimas décadas, a tecnologia da informação evoluiu consideravelmente, dos primeiros computadores centrais até os atuais sistemas distribuídos. Essa visão moderna e descentralizada busca obter vantagens, principalmente em termos de acessibilidade, disponibilidade e custo.

Data Warehouse

Segundo W.H.Inmon, considerado um pioneiro no tema, um data warehouse é uma coleção de dados orientada por assuntos, integrada, variante no tempo, que tem por objetivo dar suporte aos processos de tomada de decisão.

O data warehouse é um banco de dados contendo dados extraídos do ambiente de produção da empresa, que foram selecionados e depurados, tendo sido otimizados para processamento de consulta e não para processamento de transações. Em geral, um data warehouse requer a consolidação de outros recursos de dados além dos armazenados em base de dados relacionais, incluindo informações provenientes de planilhas eletrônicas, documentos textuais, etc.

De acordo com Richard Hackathorn (outro pioneiro no tema), o objetivo de um data warehouse é fornecer uma "imagem única da realidade do negócio". De uma forma geral, sistemas de data warehouse compreendem um conjunto de programas que extraem dados do ambiente de dados operacionais da empresa, um banco de dados que os mantém, e sistemas que fornecem estes dados aos seus usuários.

Sistemas de Data Warehouse revitalizam os sistemas da empresa, pois:

• Permitem que sistemas mais antigos continuem em operação;
• Consolidam dados inconsistentes dos sistemas mais antigos em conjuntos coerentes;
• Extraem benefícios de novas informações oriundas das operações correntes;
• Provém ambiente para o planejamento e arquitetura de novos sistemas de cunho operacional.

Como se vê, existem diferentes visões do que seria um data warehouse: uma arquitetura, um conjunto de dados semanticamente consistente com o objetivo de atender diferentes necessidades de acesso a dados e extração de relatórios, ou ainda, um processo em constante evolução, que utiliza dados de diversas fontes heterogêneas para dar suporte a consultas ad-hoc, relatórios analíticos e à tomada de decisão.

Extraindo informações do Data Warehouse

Existem várias maneiras de recuperar informações de um data warehouse, as formas de extração mais comuns no mercado hoje são:

• Ferramentas de consulta e emissão de relatórios;
• EIS (Executive Information Systems);
• Ferramentas OLAP;
• Ferramentas Data mining.

A nova tendência dessas soluções é a integração com o ambiente Web, permitindo maior agilidade em consultas estáticas e dinâmicas.

Neste artigo veremos de forma básica e separadamente os conceitos das tecnologias OLAP e Data mining. A diferença básica entre ferramentas OLAP e data mining está na maneira como a exploração dos dados é abordada. Com ferramentas OLAP a exploração é feita na base da verificação, isto é, o analista conhece a questão, elabora uma hipótese e utiliza a ferramenta para confirmá-la.

Com data mining, a questão é total ou parcialmente desconhecida e a ferramenta é utilizada para a busca de conhecimento.

Ferramentas OLAP

OLAP (On-Line Analytical Processing) representa um conjunto de tecnologias projetadas para suportar análise e consultas ad hoc. Sistemas OLAP ajudam analistas e executivos a sintetizarem informações sobre a empresa, através de comparações, visões personalizadas, análise histórica e projeção de dados em vários cenários de "e se...". Sistemas OLAP são implementados para ambientes multiusuário, arquitetura cliente-servidor e oferece respostas rápidas e consistentes às consultas iterativas executadas pelos analistas, independente do tamanho e complexidade do banco de dados.

A característica principal dos sistemas OLAP é permitir uma visão conceitual multidimensional dos dados de uma empresa. A visão multidimensional é muito mais útil para os analistas do que a tradicional visão tabular utilizada nos sistemas de processamento de transação. Ela é mais natural, fácil e intuitiva, permitindo a visão em diferentes perspectivas dos negócios da empresa e desta maneira tornando o analista um explorador da informação.

Uma arquitetura OLAP possui três componentes principais: um modelo de negócios para análises interativas, implementado numa linguagem gráfica que permita diversas visões e níveis de detalhes dos dados; um motor OLAP para processar consultas multidimensionais contra o dado-alvo; e um mecanismo para armazenar os dados a serem analisados. A base de dados usada define se o pacote é um ROLAP, que interfaceia com um banco de dados relacional de mercado, ou um MOLAP, que se liga a um servidor OLAP, através de um banco de dados multidimensional e dedicado.

Ferramentas Data Mining

Nos primórdios do data warehouse, data mining era visto como um subconjunto das atividades associadas com o warehouse. Mas atualmente os caminhos do warehouse e do mining estão divergindo. Enquanto o warehouse pode ser uma boa fonte de dados para minerar, o data mining foi reconhecido como uma tarefa genuína, e não mais como uma colônia do warehouse.

Apesar de o termo data mining ter se tornado bastante popular nos últimos anos, existe ainda certa confusão quanto à sua definição. Data mining (ou mineração de dados) é o processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usando-as para efetuar decisões cruciais.

Data mining vai muito além da simples consulta a um banco de dados, no sentido de que permite aos usuários explorar e inferir informação útil a partir dos dados, descobrindo relacionamentos escondidos no banco de dados. Pode ser considerada uma forma de descobrimento de conhecimento em bancos de dados (KDD - Knowledge Discovery in Databases), área de pesquisa de bastante evidência no momento, envolvendo Inteligência Artificial e Banco de Dados.

Um ambiente de apoio à tomada de decisões, integrando técnicas de data mining sobre um ambiente de data warehousing, possibilita um grande número de aplicações, que já vêm sendo implementadas em diversos segmentos de negócios, como manufatura, automação de pedido de remessas, varejo, gerenciamento de inventários, financeiro, análise de risco, transporte, gerenciamento de frotas, telecomunicação, análise de chamadas, saúde, analise de resultados, markenting, estabelecimento do perfil dos consumidores, seguros, detecção de fraude, dentre outros.

Nota: Este texto é parte de um trabalho realizado para o curso de especialização em Internet e segurança da UFRGS.(demais participantes: Flávio Lúcio Leite Grossmann e Magdiel Linares Gasparini)

Referências Bibliográficas

- Oliveira, Dr. José Palazzo de, Modelos de Estruturação de Aplicações Distribuídas. UFRGS - Instituto de Informática, 2004.
- BISPO, Carlos Alberto F. & CAZARINI, Edson Walmir. Análises sofisticadas com o On-Line Analytical Processing. Developer’s Magazine, São Paulo, n.32, p.28-31, abr de 1999.
- CAMPOS, Maria Luiza & FILHO, Arnaldo V. Rocha. Data warehouse. Obtida via Internet. Ultimo acesso: 23/09/2004. http://genesis.nce.ufrj.br/dataware/tutorial/indice.html.
- DAL’ALBA, Adriano. Um estudo sobre Data Warehouse. Obtida via internet. Ultimo acesso: 23/09/2004. http://www.geocities.com/siliconvalley/port/5072/.

Veja os Destaques e novidades do SUPER DVD Visual Basic 2013 (sempre atualizado) : clique e confira !

Quer migrar para o VB .NET ?

Quer aprender C# ??


    Gostou ?   Compartilhe no Facebook   Compartilhe no Twitter

 

Referências:


José Carlos Macoratti