Big Data & Data Science

Curso de Big Data & Data Science
02
fev, 2019
Gratuito

PROPOSTA

O aluno aprende na prática sobre o universo de Big Data (e.g.HadoopHivePigNoSQL) e utilizará para a análise de dados a linguagem preferida da maior comunidade de cientistas de dados do mundo, a linguagem R

Com mais de 2 milhões de usuários mundo afora, o R está se tornando rapidamente a linguagem de programação líder em Data Science e Estatística. Cada vez mais empresas estão usando o R em suas atividades do dia a dia e o número de usuários cresce a taxa de 40% ao ano.

O curso é indicado a estudantes ou profissionais interessados em se especializar na área de big data e data science e permite que o egresso atue como Cientista de Dados,Analista de Big DataEngenheiro de DadosEspecialista em Business Analytics entre outras carreiras correlatas.

PÚBLICO-ALVO

  • Profissionais interessados em ingressar no crescente e super valorizado mercado de Data Science e Big Data

PRÉ-REQUISITOS

  • Desejável conhecimentos sobre estatística
  • Desejável conhecimentos sobre a linguagem R

COMO É A FORMAÇÃO NO DIA A DIA

A formação Big Data e Data Science do Infnet Training possui 100 horas e pode ser concluída em aproximadamente 3 meses com duas aulas por semana no turno da noite ou uma aula aos sábados de 8 horas em modernos laboratórios multimídia com um aluno por workstation. São aulas expositivas com estudos de caso, exercícios teórico-práticos, apresentação de vídeos e palestras. 

Os alunos terão acesso a uma moderna plataforma de LMS (Learning Management System) para compartilhamento de materiais entre docentes, alunos, tira dúvidas e, principalmente, networking, além de direito de acesso à biblioteca do Instituto Infnet, com dezenas de livros e periódicos da área. A formação será ministrada por um corpo docente altamente especializado, composto por pesquisadores, mestres e doutores.

CURSOS/MÓDULOS

I. Processo de Descoberta do Conhecimento

II. Processo de Business Intelligence Tradicional

III. Processo de Data Science

IV. Big Data x Data Science
– Como Big Data se encaixa nesse fluxo?
– 3 Vs

V. Mudança de Paradigma de Perfis de Atuação
– Analista de Informação
– Cientista de Dados
– Estatístico
– Engenheiro de Dados

VI. Principais tecnologias envolvidas
– Linguagens de programação
– Ecossistema Hadoop
– Nuvem

VII. Ambiente Nuvem x Ambiente On Premise
– AWS
– Google Cloud
– Digital Ocean
– CloudCone

VIII. Quadrante Mágico de BI e Data Science
– Gartner
– Forrester
– IDC

IX. Hype Cycle de Big Data e Data Science

X. Principais Casos de Uso

 

I. O que é Data Science?
II. O que é Big Data?
III. Roadmap para se tornar um cientista de dados
IV. R Software
– Conceitos básicos e a filosofia do R
– Conhecendo o Ambiente (R e RStudio)
– Diferentes tipos de variáveis
– Objetos (Vetor, Data Frames, Matriz)
– Trabalhando com listas
– Estrutura de condição: If, else e if else
– Estrutura de Repetição
– Funções
– Leitura\exportação arquivos (.xlsx,.csv,.txt entre outros)

I. Estatística Descritiva
– Medidas de centralidade
– Medidas de dispersão
– Medidas de associação entre os dados
– Visualização dos dados

II. Introdução à Probabilidade
– Propriedades
– Probabilidade Condicional e Independência

III. Variáveis Aleatórias
– Discretas
– Contínuas
– Simulação de V.A

IV. Inferência – Introdução
– Distribuição Amostral da Média
– Teorema Central do Limite
– Distribuição Amostral de uma Proporção

V. Inferência – Estimação
– Estimadores de máxima verossimilhança e mínimos quadrados
– Propriedades

VI. Inferência – Testes de hipótese
– Noções básicas
– Teste de hipótese para a média de uma população normal com variância conhecida
– Teste de hipótese para a média de uma população normal com variância desconhecida

VII. Modelos de regressão linear
– Noções básicas de um modelo de regressão linear
– Noções básicas de um modelo de regressão logística

– Gráfico de pontos ou dispersão
– Matriz de correlação
– Pirâmide etária
– Gráfico de barras
– Histograma
– Boxplot
– Gráfico de pizza, de rosca e diagrama de venn
– Grafos
– Treemap
– Nuvem de palavras
– Grafico de séries temporais

II. Documentos dinâmicos
– Escrevendo em markdown
– Mesclando texto com códigos em R (chunks)
– Algumas opções de personalização no preâmbulo
– Tipos de documentos: word, html, pdf
– Flexdashboard
– Publicando na web

III. Aplicativos em Shiny
– Como criar um aplicativo básico
– Estrutura de um aplicativo Shiny
– Inputs e outputs
– Ler base dados locais
– Adicionando imagens e documentos
– Personalização (abas, divisões, temas, menus)
– Publicando na webPontos

I. Introdução a Bancos de Dados Estruturados

II. Diagramas Entidade-Relacionamento

III. SQL
– Criação de bancos e tabelas
– Leitura de bases de dados grandes
– Comandos de consulta

IV. Utilização do MySQL
– Conceitos básicos de Cloud
– Características
– Benefícios
– Riscos

V. Modelos de Serviço na Nuvem
– Software as a Service
– Platform as a Service
– Infrastructure as a Service

VI. Serviços na Nuvem

VII. Utilização do AWS
– Exemplos com integração
– RDS, Amazon S3 e Amazon EC2
– R, Rstudio Server e Shiny Server

VII. Data mining com R
– Exemplos de Webscraping intregado com storage RDS em tempo real

I. Fundamentos de Hadoop
– Surgimento
– Objetivo
– Arquitetura
– Hadoop 1 X Hadoop 2
– Distribuições
– Ecossistema Hadoop
– Níveis de Maturidade em Análise de Dados
– Business Analytics x Business Intelligence Tradicional
– Hands On sobre Fundamentos

II. Hive
– Introdução ao Hive
– Importar e exportar dados,
– Criação de bancos e tabelas,
– Operações básicas

III. Data Lake
– Objetivo
– Arquiteturas Candidatas
– Data Lake + Self Service Analytics
– RStudio Server
– Notebooks para Big Data

IV. Spark
– Introdução
– Ecossistema Hadoop + Spark
– Hadoop x Spark
– SparkSQL
– MLlib
– Hands On: Spark com R

V. Pig
– Introdução ao Pig
– Arquitetura
– Como ler dados (READ)
– Como escrever dados (OUTPUT)
– Operadores
– Funções

VI. Introdução a NoSQL
– Conceitos e características
– Teorema de CAP
– Tipos de bancos NoSQL
– Casos de Uso
– Integração com R

I. Introdução
– Exemplos de utilização de Machine Learning
– Por que estimar?
– Como estimar
– Trade-off precisão-interpretabilidade
– Diferenças entre aprendizados supervisionado e não supervisionado
– Trade-Off vício-variância

II. Regressão Linear
– Representação do modelo e função custo
– Como estimar os coeficientes
– Gradient Descent

III. Classificação
– Regressão Logística

IV. Métodos de Reamostragem
– Cross-Validation

V. Regularização
– Shrinkage Methods (Ridge Regression e Lasso)
– Problemas da dimensionalidade
– Métodos de redução da dimensionalidade

VI. Métodos Baseados em Árvores
– Árvores de decisão
– Bootstrap Aggregating
– Random Forests
– Boosting

VII. Método de aprendizado não supervisionado
– PCA
– K-Means
– Hierarchical Clustering

VIII. Machine Learning com volumes massivos de dados
– Gradient descent at scale
– Aprendizado online
– Paralelização

I. Visão Geral
– Sistema de Informações Geográficas (GIS);
– O R como uma ferramenta para análise de dados espaciais;
– Tipos de dados espaciais;
– Representação em mapas do espaço de interesse e do fenômeno estudado com o R;
– Interação entre o R e o Google Maps.

II. Estruturas de vizinhanças
– Construindo e visualizando estruturas de vizinhança com o R

III. Processos pontuais espaciais
– Visualização e análise exploratória
– Medidas para a identificação de dependência espacial
– Estimação dos efeitos de primeira e segunda ordem

IV. Dados de área
– Visualização e análise exploratória
– Índice de Moran
– Introdução aos principais modelos CAR e SAR

I. Big Data: New Tricks for Econometrics.

II. CRAN Task View: Time Series Analysis

III. Modelos (Séries Temporais em diferentes frequências)

IV. Sazonalidade ou Ciclo

V. Caracterização, Modelagem e Previsão de uma série temporal

VI. Função de autocorrelação (ACF)

VII. Processo Ruído Branco (white noise)

VIII. Intervalo de confiança

IX. Valores ajustados e resíduos

X. Acurácia dos modelos de previsão

XI. Modelos de Holt Winters:
– Decomposição de uma série temporal
– Suavização exponencial simples (SES)
– Suavização exponencial de Holt (SEH)
– Suavização exponencial sazonal de Holt-Winters

XII. Modelos (S)ARIMA
– Processos Auto-Regressivos
– AR(p)
– Processos Médias Móveis
– MA(q)
– Processos Auto-Regressivos de Médias Móveis
– ARMA(p,q)
– Função de Autocorrelação – FAC
– Função de Autocorrelação Parcial – FACP
– Identificação
– Estimação
– Diagnóstico dos Resíduos
– Previsão

XIII. Previsão das vendas de passagens aéreas utilizando os modelos (S)ARIMA

I. Redes Neurais Artificiais (RNAs)
– Histórico e conceitos iniciais
– Modelo e métricas
– RNAs em R

II. Agrupamentos com RNAs
– Self Organizing Maps (SOMs)
– Redes de Kohonen
– Kohoen em R

III. Deep Learning
– Conceitos
– Tensores
– Recurrent & Convolutional Neural Networks
– Deep Neural Networks em R

I. Obtenção de dados na web
– Dados Estruturados
– Dados não estruturados
– APIs

II. Coleta e análise de dados de redes sociais
– Twitter

III. Introdução a análise textual utilizando o R
– Análise descritiva
– Análise de sentimento utilizando dicionário
– Modelo de tópicos – Latent Dirichlet Allocation

I. Análise de Dados em Tempo Real
– Stack ELK
– Introdução
– Arquitetura
– Logstash
– ElasticSearch
– Kibana

II. Machine Learning como Serviço
– API
– Serviço
– Swagger
– Monitoramento

III. Bots com R
– O que é?
– API do Telegram

Informações

Receba mais informações e valores.


Course Content

Time: 100 hours

Curriculum is empty

Instructor