- A ementa é livre, podendo cobrir quaisquer temas avançados em gerência de dados que não tenham sido ministradas em outras disciplinas da área de Banco de Dados (BD). Os objetivos específicos e tópicos podem variar, conforme a atualidade dos temas na área.
3. Cursos Relacionados
CIÊNCIAS DA COMPUTAÇÃO (208) - Currículo: 2007-1 (Optativa)
Apresentar aos alunos uma visão teórica e prática do processo de Web Scraping, apresentando os passos de coleta de dados da Web, tratamento posterior destes dados e possíveis formas de uso e armazenamento.
4.2 Objetivos Específicos:
Apresentar os passos envolvidos em um processo de Web Scraping.
Possibilitar a implementação de um projeto completo que envolva todos os passos, inclusive disponibilização de dados tratados para o posterior armazenamento em bancos de dados relacionais e pós-relacionais.
5. Conteúdo Programático
Web Scraping [16 horas-aula]
Web Crawling
Extração de Dados
Data Curation
Formatação dos dados
Desenvolvimento do projeto [56 horas-aula]
Definição do projeto
Desenvolvimento da infraestrutura de implementação
Desenvolvimento da implementação das técnicas
Testes de execução
6. Bibliografia Básica
C. Manning, P. Raghavan, and H. Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008 (alguns capítulos online: http://nlp.stanford.edu/IR-book/)
Rahul kumar, Anurag Jain and Chetan Agrawal. Survey of Web Crawling Algorithms. Advances in Vision Computing: An International Journal (AVC) Vol.1, No.2/3, September 2014.
Aldalin Lyngdoh. 10 - What we leave behind: the future of data curation. In: Trends, Discovery, and People in the Digital Age Chandos Digital Information Review. 2013, Pages 153-165
Emilio Ferrara, Pasquale De Meo, Giacomo Fiumara, Robert Baumgartner. Web Data Extraction, Applications and Techniques: A Survey. Preprint submitted to Knowledge-based systems. 2014.
Artigos científicos de eventos e periódicos importantes
7. Bibliografia Complementar
Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval. 1ª Edição. 1999.
Castilho, Carlos. Web Crawling. IN: Ricardo Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern Information Retrieval. Chapter 2, 2010.
Robert Baumgartner and Wolfgang Gatterbauer and Georg Gottlob. Data Extraction System. Encyclopedia of Database Systems. 2009.