Aprendizado de máquina é uma forma de usar dados para fazer previsões ou identificar padrões sem escrever manualmente cada regra. No aprendizado supervisionado, os dados de treino incluem a resposta correta. No aprendizado não supervisionado, isso não acontece, então o objetivo é encontrar estrutura, como grupos ou principais direções de variação.
Essa é a ideia central por trás dos fundamentos do aprendizado de máquina. Você começa com dados, escolhe um modelo, treina esse modelo com exemplos e depois verifica se ele funciona em novos dados, em vez de apenas nos dados que já viu.
O Que o Aprendizado de Máquina Faz
Um modelo de aprendizado de máquina mapeia entradas para saídas ou padrões. A entrada pode ser o tamanho de uma casa, notas de prova, atividade de clientes ou valores de pixels em uma imagem. A saída depende da tarefa:
- prever um número, como um preço
- prever uma classe, como spam ou não spam
- agrupar itens semelhantes sem rótulos
- ranquear ou recomendar escolhas prováveis
O que torna isso "aprendizado" é que os parâmetros do modelo são ajustados a partir dos dados, em vez de serem definidos inteiramente por um programador.
Aprendizado Supervisionado vs. Não Supervisionado
Aprendizado Supervisionado: Prever um Alvo Conhecido
O aprendizado supervisionado usa exemplos da forma , em que é a entrada e é o alvo conhecido.
Se for numérico, a tarefa costuma ser chamada de regressão. Se for uma categoria, a tarefa geralmente é chamada de classificação.
Algoritmos supervisionados comuns incluem regressão linear, regressão logística, árvores de decisão, random forests, máquinas de vetores de suporte e redes neurais. Nenhum método é o melhor em todos os contextos. A escolha certa depende do tamanho dos dados, do nível de ruído, do tipo de atributo e de quanta interpretabilidade você precisa.
Aprendizado Não Supervisionado: Encontrar Estrutura Sem Rótulos
O aprendizado não supervisionado usa entradas sem rótulos-alvo.
Aqui, o objetivo normalmente é descobrir uma estrutura que já está presente nos dados. Um método de agrupamento como k-means tenta reunir observações semelhantes. Um método de redução de dimensionalidade como análise de componentes principais tenta resumir a variação com menos direções.
O aprendizado não supervisionado pode ser útil para exploração, compressão, detecção de anomalias ou pré-processamento. Seus resultados dependem fortemente de como os dados são representados e de qual noção de similaridade está embutida no método.
Um Modelo Mental Simples
Pense no aprendizado de máquina como ajuste de curva ou ajuste de padrões sob incerteza.
Você escolhe uma família de modelos, como retas, árvores de decisão ou redes neurais em camadas. O treinamento então ajusta o modelo para que suas previsões correspondam aos dados de treino da melhor forma possível, de acordo com uma função de perda. Se o modelo generaliza bem, ele também terá bom desempenho em novos dados que ainda não viu.
Essa última condição é importante. Um modelo que apenas memoriza o conjunto de treino geralmente não é útil.
Exemplo Resolvido: Prevendo Aluguel com Regressão Linear
Suponha que você queira prever o aluguel de um apartamento a partir da área. Um modelo supervisionado simples é
em que é a área, é o aluguel previsto, é o intercepto e é a inclinação.
Suponha que um modelo ajustado forneça
com o aluguel medido em dólares e a área medida em pés quadrados.
Se um apartamento tem , a previsão é
Então o modelo prevê um aluguel de .
Três detalhes importam aqui. O modelo aprendeu com exemplos rotulados de área e aluguel. A previsão é uma estimativa, não uma garantia. A fórmula só faz sentido se uma relação aproximadamente linear for uma aproximação razoável no intervalo que importa para você.
Este exemplo é deliberadamente simples, mas captura o principal ciclo do aprendizado supervisionado: usar dados rotulados, ajustar parâmetros e prever um alvo para uma nova entrada.
Principais Algoritmos de Aprendizado de Máquina e Quando Usá-los
Regressão Linear
Use quando o objetivo for prever um valor numérico e uma aproximação por linha reta for um primeiro modelo razoável.
Regressão Logística
Use para classificação quando você quiser uma linha de base relativamente simples e interpretável para prever categorias como sim ou não.
Árvores de Decisão e Random Forests
Use quando as relações forem não lineares ou envolverem interações, especialmente em dados tabulares. Random forests geralmente trocam parte da interpretabilidade por uma estabilidade preditiva maior.
Agrupamento K-Means
Use no aprendizado não supervisionado para agrupar observações em clusters. Ele funciona melhor quando a ideia de um centro de cluster faz sentido para os atributos que você usa.
Redes Neurais
Use quando a relação entre entradas e saídas for altamente complexa, especialmente em tarefas de imagem, fala e linguagem. Elas frequentemente precisam de mais dados e ajuste fino do que modelos mais simples.
Erros Comuns nos Fundamentos de Aprendizado de Máquina
Confundir Previsão com Explicação
Um modelo pode prever bem e ainda assim não explicar a verdadeira causa do padrão.
Ignorar a Diferença Entre Treino e Teste
Alta acurácia no treino não significa que o modelo terá bom desempenho em novos dados. A generalização precisa ser verificada em dados separados.
Usar a Métrica Errada
Acurácia pode ser enganosa em problemas de classificação desbalanceada. Em algumas tarefas, precisão, recall, erro absoluto médio ou outra métrica pode importar mais.
Tratar Nomes de Algoritmos como Garantias
"Rede neural" ou "random forest" não é promessa de qualidade. Qualidade dos dados, engenharia de atributos, avaliação e formulação do problema importam pelo menos tanto quanto o nome do algoritmo.
Quando o Aprendizado de Máquina É Útil
Aprendizado de máquina é útil quando o padrão é complicado demais para um pequeno conjunto fixo de regras, mas há dados suficientes para aprender com exemplos. Usos comuns incluem sistemas de recomendação, detecção de fraude, ferramentas de apoio com imagens médicas, ranqueamento, previsão e classificação de documentos.
Nem sempre é a ferramenta certa. Se a regra for simples, estável e totalmente conhecida, uma fórmula comum ou um programa determinístico pode ser melhor.
Tente um Problema Parecido
Pegue um pequeno conjunto de dados e faça duas perguntas: "Qual é a entrada?" e "Qual é o alvo?" Se você conseguir responder às duas, experimente um modelo supervisionado, como regressão linear ou classificação. Se não conseguir, explore se os dados formam grupos naturalmente com um método não supervisionado.
Se quiser ir um passo além, resolva primeiro um problema parecido com um modelo simples e depois compare com um mais flexível. Isso geralmente é uma forma melhor de aprender do que ir direto para o algoritmo mais avançado.
Precisa de ajuda com um problema?
Envie sua pergunta e receba uma solução verificada, passo a passo, em segundos.
Abrir GPAI Solver →