MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DE SANTA CATARINA

CENTRO TECNOLÓGICO

DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA

PROGRAMA DE ENSINO

1. Identificação

Disciplina:INE5454 - Tópicos Especiais em Gerência de Dados
Nível:Graduação
Carga Horária:72 horas-aula (Teórica: 18; Prática: 54)
Vigência:De 2020-1 até a presente data

2. Ementa

- A ementa é livre, podendo cobrir quaisquer temas avançados em gerência de dados que não tenham sido ministradas em outras disciplinas da área de Banco de Dados (BD). Os objetivos específicos e tópicos podem variar, conforme a atualidade dos temas na área.

3. Cursos Relacionados

4. Objetivos

4.1 Objetivo Geral:

Apresentar aos alunos uma visão teórica e prática do processo de Web Scraping, apresentando os passos de coleta de dados da Web, tratamento posterior destes dados e possíveis formas de uso e armazenamento.

4.2 Objetivos Específicos:

  1. Apresentar os passos envolvidos em um processo de Web Scraping.
  2. Possibilitar a implementação de um projeto completo que envolva todos os passos, inclusive disponibilização de dados tratados para o posterior armazenamento em bancos de dados relacionais e pós-relacionais.

5. Conteúdo Programático

  1. Web Scraping [16 horas-aula]
    1. Web Crawling
    2. Extração de Dados
    3. Data Curation
    4. Formatação dos dados
  2. Desenvolvimento do projeto [56 horas-aula]
    1. Definição do projeto
    2. Desenvolvimento da infraestrutura de implementação
    3. Desenvolvimento da implementação das técnicas
    4. Testes de execução

6. Bibliografia Básica

  1. C. Manning, P. Raghavan, and H. Schütze. Introduction to Information Retrieval. Cambridge University Press, 2008 (alguns capítulos online: http://nlp.stanford.edu/IR-book/)
  2. Seyed-Mehdi-Reza Beheshti, Alireza Tabebordbar, Boualem Benatallah, Reza Nouri. Data Curation APIs. arXiv.org. 2016.
  3. Rahul kumar, Anurag Jain and Chetan Agrawal. Survey of Web Crawling Algorithms. Advances in Vision Computing: An International Journal (AVC) Vol.1, No.2/3, September 2014.
  4. Aldalin Lyngdoh. 10 - What we leave behind: the future of data curation. In: Trends, Discovery, and People in the Digital Age Chandos Digital Information Review. 2013, Pages 153-165
  5. Emilio Ferrara, Pasquale De Meo, Giacomo Fiumara, Robert Baumgartner. Web Data Extraction, Applications and Techniques: A Survey. Preprint submitted to Knowledge-based systems. 2014.
  6. Artigos científicos de eventos e periódicos importantes

7. Bibliografia Complementar

  1. Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Information Retrieval. 1ª Edição. 1999.
  2. Castilho, Carlos. Web Crawling. IN: Ricardo Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier. Modern Information Retrieval. Chapter 2, 2010.
  3. Robert Baumgartner and Wolfgang Gatterbauer and Georg Gottlob. Data Extraction System. Encyclopedia of Database Systems. 2009.