Projetos de Ciência de Dados
Abaixo, serão apresentados 3 projetos completos.
São focados na resolução de problemas de negócio reais.
Eles tem como saída, modelos de aprendizado de máquina.
Projetos de Machine Learning
Programa de Fidelidade para Clientes de E-Commerce
Objetivo:
Agrupar os mais de 5000 clientes por perfil de consumo, e identificar os valiosos, criando um programa de fidelidade.
Execução:
Implementei uma infraestrutura em cloud AWS, que recebe, classifica, e inclui os novos clientes no grupo correspondente ao seu perfil de consumo. Um dashboard no Metabase detalha cada perfil, e monitora sua performance.
Ferramentas utilizadas:
- Python com pacotes de Machine Learning: sklearn, scipy e yellowbrick.
- Serviços AWS: S3 (armazenamento), EC2 (servidor) e RDS (banco de dados).
- Jupyter Notebook, Git e Github.
- Crontab e Papermill
- Pandas Profiling, Metabase.
- Algoritmos de Clusterização e Redução de Dimensionalidade:
- K-Means, Gaussian Mixture Model, Hierarchical Clustering e DBScan.
- PCA, UMAP, t-SNE e Tree-Based Embedding
Resultados financeiros:
- Expectativa de 10% de aumento no número de clientes mais valiosos no programa de fidelidade "Loyals" no próximo ano.
- Em números, expectativa de incremento de faturamento de $280 mil no próximo ano.
Sistema de Recomendação para Cross-selling de Seguros
Objetivo:
Criar um algoritmo de rankeamento de interesse em seguro veicular para novos clientes, a partir de dados de pesquisa de interesse realizada com clientes antigos.
Execução:
Criei uma funcionalidade em Google Sheets, que a partir de uma lista de clientes, consulta o algoritmo via API, e retorna em tempo real a lista ordenada destes clientes por interesse em aquisição de seguro veicular.
Ferramentas utilizadas:
- Python com pacotes de Machine Learning: sklearn e xgboost.
- Jupyter Notebook, Git, Github e Gitlab.
- Google Apps Script.
- Técnicas de seleção de atributos e redução de dimensionalidade.
- Heroku Cloud, Flask e Python API's.
- Algoritmos de Classificação e Regressão:
- KNN Classifier, ExtraTrees Classifier, XGBboost Classifier e Logistic Regression.
Resultados financeiros:
- Realizando 20 mil ligações, incremento previsto de 170% na receita com seguro veicular: US$ 131 milhões.
- Realizando 40 mil ligações, incremento previsto de 90% na receita com seguro veicular: US$ 139 milhões.
Previsão de Vendas de Rede Farmacêutica
Objetivo:
Criar um algoritmo de previsão de vendas para 1115 lojas, e disponibilizá-lo para acesso 24/7, via smartphone.
Execução:
Criei um robô no aplicativo de mensagens Telegram, que recebe o código da loja, consulta o algoritmo via API, e retorna em tempo real qual a previsão de vendas (faturamento) daquela loja para as próximas 6 semanas.
Ferramentas utilizadas:
- Python com pacotes de Machine Learning: sklearn e scipy.
- Jupyter Notebook, Git e Github.
- Técnicas de seleção de atributos e redução de dimensionalidade.
- Heroku Cloud, Flask e Python API's.
- Algoritmos de Classificação e Regressão:
- Linear Regressor, Linear Regressor Regularized, Random Forest e XGBoost Classifier.
Resultados financeiros:
- Redução da taxa média de erros das previsões de vendas de toda a rede de 36% para 4,65% em média (-31%).
- Após o 1º semestre da implantação, aumento de 1.9% no lucro líquido semestral da Rossmann.
- Em números, considerando o faturamento de 2020 de €10 bilhões, o projeto traz um resultado líquido semestral aproximado de €114 milhões.