Introdução ao Machine Learning

Gustavo Câmara Publicado em agosto 30, 2023

Introdução ao Machine Learning

O que é Machine Learning ?

Machine Learning, ou Aprendizado de Máquina em português, é uma área da inteligência artificial que se concentra no desenvolvimento de algoritmos e modelos computacionais capazes de aprender e melhorar o desempenho em tarefas específicas a partir de dados. Em vez de seguir instruções rígidas de programação, os algoritmos de machine learning utilizam dados para aprender padrões, fazer previsões e tomar decisões. Eles se ajustam aos dados de treinamento através de processos de otimização e podem generalizar esse conhecimento para realizar tarefas em dados novos e não vistos anteriormente.

🔧 Aplicações

O Machine Learning tem uma ampla gama de aplicações em diversas áreas, algumas das quais incluem:

Finanças: No setor financeiro, o machine learning é usado para mitigação de riscos de crédito, previsão de mercado e performace, detecção de fraudes em transações, otimização de portfólio e negociação algorítmica.

Processamento de linguagem: Através da técnica NLP(Processamento de Linguagem Natural) é possível entender e gerar linguagem humana. Isso inclui tradução automática, análise de sentimentos, chatbots e extração de informações.

Processamento de imagens e videos: A visão computacional envolve o uso de algoritmos de machine learning para interpretar e entender informações visuais, como imagens e vídeos. Isso é aplicado em reconhecimento de objetos, detecção de faces, segmentação de imagens, veículos autônomos, entre outros.

Sistemas de Recomendação: Plataformas como Netflix, Amazon e Spotify utilizam algoritmos de recomendação baseados em machine learning para sugerir produtos, filmes, músicas e conteúdo com base nas preferências e no histórico dos usuários.

Automatização e Robótica: Robôs e sistemas autônomos utilizam técnicas de aprendizado de máquina para realizar tarefas complexas, como navegação, manipulação de objetos e interação com ambientes dinâmicos.

Marketing e Publicidade: Empresas utilizam o machine learning para segmentar audiências, personalizar campanhas de marketing e analisar o comportamento do consumidor.

Esses são apenas alguns exemplos de aplicações do machine learning que vem aumentado a cada dia o seu leque de atividades na medida que se populariza seu uso.

🌎 Conceitos

📌 Abaixo estão alguns dos principais conceitos:

Relação: É o conjunto de dados usado no nosso modelo(DataFrame).

Atributos ou Características: São os dados usados para se realizar a tarefa de machine learning, seja prever ou qualquer outra tarefa(Colunas, previsores).

Classe: A classe alvo da tarefa(Coluna específica, objeto da previsão).

Instâncias: Seria um dado completo, com todas as suas características(Linhas).

📌 Os algoritmos de machine learning aprendem a partir de dados, sendo assim:

Dados de Treinamento: Os dados responsáveis por ensinar o modelo a realizar uma tarefa específica.

Dados de Teste: Os dados responsáveis por gerar e comparar a saída da tarefa, avaliando o desempenho do modelo.

📌 Existem basicamente 2 tipos de tarefas:

Supervisionada: Tarefas que se pode comparar e validar o resultado através da classe.

Não supervisionada: Não se pode avaliar o resultado, por não haver classe.

Esses são apenas conceitos iniciais de machine learning para se situar com o conteúdo que vem a seguir.

Principais tarefas

📍Classificação

A tarefa de classificação é uma das tarefas fundamentais em Machine Learning, na qual o objetivo é atribuir(prever) um rótulo ou categoria a uma entrada com base em seus atributos. Em outras palavras, o algoritmo de classificação aprende a mapear as entradas para classes predefinidas.

Exemplo: usar um algoritmo de classificação para categorizar email's em possíveis span's em um site classificando a classe em "spam" e "não spam".

Principais algoritmos de classificação: naive bayes, árvores de decisão, máquina de vetor de suporte, regressão logística, random forest. Todos esses algoritmos têm abordagens distintas para realizar a mesma tarefa, portanto, sua escolha precisa levar em consideração o escopo do problema.

Avaliação: A Classificação é um modelo supervisionado, sendo assim podemos avaliar sua performace usando: Recall, F1-score, Matriz de confusão e etc.

A tarefa de classificação tem inúmeras aplicações em áreas como diagnóstico médico, detecção de fraudes, reconhecimento de objetos em imagens, análise de sentimentos, entre muitas outras. A escolha do algoritmo de classificação e das características adequadas depende do problema específico que está sendo abordado.

📍Regressão

A tarefa de regressão é outra tarefa fundamental em Machine Learning, que se concentra em prever um valor numérico contínuo com base em um conjunto de características. Enquanto a tarefa de classificação visa categorizar entradas em classes discretas, a regressão se concentra em fazer previsões de valores numéricos.

Exemplo: usar um algoritmo de regressão para prever possíveis valores de fechamento no mercado de ações.

Principais algoritmos de regressão: Regressão Ridge (L2) e Lasso (L1), Regressão de Árvore de Decisão, Regressão de Floresta Aleatória, Regressão de Gradient Boosting, Máquinas de Vetores de Suporte (SVM), Redes Neurais Artificiais e vários outros.

Avaliação: A Regressão é um modelo supervisionado. Para medir o desempenho do modelo de regressão podem ser usadas métricas como: Erro Médio Quadrático (RMSE), Erro Médio Absoluto (MAE), Coeficiente de Determinação (R²) e outras métricas de avaliação de regressão.

A tarefa de regressão é aplicada em situações em que a previsão de um valor contínuo é importante. Exemplos incluem previsão de preços de produtos, demanda de produtos, temperatura, tempo de permanência de usuários em um site, entre outros. A escolha do algoritmo de regressão depende das características dos dados e do comportamento esperado da relação entre as características e o valor alvo.

📍Agrupamentos

A tarefa de agrupamento, também conhecida como clusterização, é uma técnica de análise de dados usada para dividir um conjunto de dados em grupos ou clusters, onde as observações dentro de cada grupo são mais semelhantes entre si do que com observações de outros grupos. A ideia é encontrar padrões ou estruturas intrínsecas nos dados e agrupa-los por semelhança.

Exemplo: Agrupar os usuários do site para fazer campanhas de marketing específicas aos grupos.

Principais algoritmos de Agrupamento: Existem diversos algoritmos de agrupamento, cada um com abordagens diferentes para formar os clusters. Alguns exemplos populares incluem K-Means, C-Means, K-Medoids, DBSCAN entre outros.

Validação: Ao contrário das tarefas de classificação e regressão, não há uma "resposta correta" na clusterização, o que torna a validação mais subjetiva. Métricas como coeficiente de silhueta, índice de Davies-Bouldin e índice de Rand podem ser usadas para avaliar a qualidade dos clusters.

A clusterização tem diversas aplicações, como segmentação de clientes, agrupamento de notícias por tópicos, análise de comportamento de usuários em sites, detecção de anomalias, entre outras. A escolha do algoritmo de agrupamento e a interpretação dos resultados dependem do contexto do problema e das características dos dados.

📍Regras de Associação

Regras de associação são um tipo de técnica de mineração de dados que visa encontrar padrões ou relações frequentes em conjuntos de itens em dados transacionais. Essas regras indicam a probabilidade de um conjunto de itens ocorrer junto em uma transação ou evento. A tarefa de regras de associação é frequentemente usada para descobrir associações entre itens em um grande conjunto de transações, geralmente em um contexto de análise de cestas de compras, onde a descoberta de regras de associação pode ajudar a entender quais itens são frequentemente comprados juntos.

Exemplo: O exemplo clássico é o de associar compras de usuários em sites de vendas, "Quem compra o produto A, também compra o Produto B".

Principais algoritmos de mineração de Regras: O processo de mineração de regras de associação envolve a descoberta de todas as regras que atendem a critérios específicos de suporte, confiança e/ou lift. Isso pode ser feito usando algoritmos como Apriori ou FP-Growth.

Avaliação: Apesar das regras de associação serem uma tarefa não supervisionada, podemos avaliar seus componentes associados com métricas padrões, que são elas: Suporte, Confiança e Lift e outras métricas como: Leverage, Convicção e índice de Kulczynski. Essas são apenas algumas das métricas comuns utilizadas para avaliar regras de associação. A escolha da métrica dependerá do contexto do problema e das características dos dados. Em muitos casos, é aconselhável usar uma combinação de várias métricas para obter uma compreensão mais completa da qualidade das regras descobertas.

As regras de associação são aplicadas em diversas áreas, incluindo marketing, análise de cestas de compras, recomendação de produtos, análise de redes sociais e até mesmo em pesquisa médica para identificar padrões em dados clínicos. A escolha dos parâmetros de suporte, confiança e lift afeta o número e a qualidade das regras geradas, e a interpretação correta das regras descobertas é crucial para tomar decisões informadas.

➡️ Outras tarefas de machine learning são: Seleção de recursos, Processamento de Linguagem Natural(NLP), Detecção de anomalias, Visão computacional e várias outras.

✅Conclusão

Em resumo, o campo do Machine Learning representa uma fronteira excitante e em constante expansão no domínio da tecnologia e da ciência de dados. Por meio da capacidade de aprender padrões complexos a partir de dados, os algoritmos de Machine Learning têm revolucionado a forma como lidamos com informações e tomamos decisões. Desde a capacidade de prever tendências e comportamentos futuros até a automatização de tarefas complexas, o Machine Learning tem mostrado seu potencial em uma ampla gama de setores, desde saúde e finanças até marketing e indústria. À medida que a pesquisa e a inovação nesse campo avançam, estamos apenas arranhando a superfície das possibilidades que o Machine Learning oferece, prometendo um futuro onde a inteligência artificial não apenas auxiliará, mas também potencializará nossa compreensão e impacto no mundo ao nosso redor.

O que procura?