Este tipo de análisis estadístico (también conocido como modelo logit) se utiliza a menudo para el modelado y la analítica predictiva, y se extiende a las aplicaciones de machine learning. En este enfoque analítico, la variable dependiente es finita o categórica, ya sea A o B (regresión binaria) o una variedad de opciones finitas A, B, C o D (regresión multinomial). Se utiliza en software estadístico para comprender la relación entre la variable dependiente y una o más variables independientes mediante la estimación de probabilidades con una ecuación de regresión logística.
A regressão logística ordinal, ou o modelo logit ordenado, é um tipo especial de regressão multinomial para problemas em que os números representam classificações em vez de valores reais. Por exemplo, você usaria a regressão ordinal para prever a resposta a uma pergunta de pesquisa que pede para os clientes classificarem seu serviço como ruim, regular, bom ou excelente com base em um valor numérico, como o número de itens que eles compram de você ao longo do ano.
É possível executar a regressão logística na AWS usando o Amazon SageMaker. O SageMaker é um serviço de machine learning (ML) totalmente gerenciado com algoritmos integrados para regressão linear e regressão logística, entre vários outros pacotes de software estatístico.
Pesquisadores da área de medicina planejam tratamento e cuidados preventivos estimando a probabilidade de doença em pacientes. Eles usam modelos de regressão logística para comparar o impacto do histórico familiar ou dos genes nas doenças.
Supongamos que tenemos un modelo Logit, en el que la variable Y es la probabilidad de que una persona adquiera un nuevo smartphone este año, siendo la variable independiente los ingresos mensuales (x).
Por exemplo, digamos que você deseje adivinhar se o visitante do seu site clicará no botão de finalização de compra no carrinho de compras ou não. A análise de regressão logística analisa o comportamento anterior do visitante, como o tempo gasto no site e o número de itens no carrinho. Ela determina que, anteriormente, se os visitantes passassem mais de cinco minutos no site e adicionassem mais de três itens ao carrinho, eles clicavam no botão de finalização de compra. Usando essas informações, a função de regressão logística pode prever o comportamento de um novo visitante do site.
A análise de regressão logística oferece aos desenvolvedores maior visibilidade dos processos internos de software do que outras técnicas de análise de dados. Também facilita a solução de problemas e a correção de erros, pois os cálculos são menos complexos.
As empresas financeiras precisam analisar as transações financeiras em busca de fraude e avaliar os pedidos de empréstimo e os pedidos de seguro quanto a riscos. Esses problemas são adequados para um modelo de regressão logística porque têm resultados discretos, como alto risco ou baixo risco e fraudulentos ou não fraudulentos.
Ciertamente, el análisis multinomial puede ayudar cuando examina una variedad de resultados categóricos: A, B, C o D. Pero el análisis binario (sí o no, presente o ausente) se usa con más frecuencia. Aunque los resultados son limitados, las posibilidades no lo son. La regresión logística binaria se puede utilizar para examinar todo, desde estadísticas de béisbol hasta susceptibilidad a deslizamientos de tierra y análisis de escritura a mano.
Multinomial se puede utilizar para clasificar a los sujetos en grupos basándose en un rango categórico de variables para prever el comportamiento. Por ejemplo, puede realizar una encuesta en la que se les pide a los participantes que seleccionen uno de varios productos de la competencia como su favorito. Puede crear perfiles de personas que probablemente estén interesadas en su producto y planificar su estrategia publicitaria en consecuencia.
Los coeficientes del modelo Logit pueden hallarse, por ejemplo, mediante el método de mínimos cuadrados o el método de máxima verosimilitud.
Binario es más útil cuando desea modelar la probabilidad del evento para una variable de respuesta categórica con dos resultados. Un oficial de préstamos quiere saber si es probable que el próximo cliente incumpla, o no, en un préstamo. El análisis binario puede ayudar a evaluar el riesgo de otorgar crédito a un cliente en particular.
As ferramentas de publicidade online usam o modelo de regressão logística para prever se os usuários clicarão em um anúncio. Como resultado, os profissionais de marketing podem analisar as respostas dos usuários a diferentes palavras e imagens e criar anúncios de alta performance que terão interação dos clientes.
Embora a função logística calcule um intervalo de valores entre 0 e 1, o modelo de regressão binária arredonda a resposta para os valores mais próximos. Geralmente, respostas abaixo de 0,5 são arredondadas para 0, e respostas acima de 0,5 são arredondadas para 1, para que a função logística retorne um resultado binário.
Use a regressão logística para encontrar respostas para perguntas que têm dois ou mais resultados finitos. Também é possível usá-la para pré-processar dados. Por exemplo, você pode classificar dados com um grande intervalo de valores, como transações bancárias, em um intervalo menor e finito de valores usando regressão logística. Em seguida, processe esse conjunto de dados menor usando outras técnicas de ML para obter uma análise mais precisa.
Depois de identificar a pergunta, é necessário identificar os fatores de dados envolvidos. Em seguida, você coletará dados anteriores para todos os fatores. Por exemplo, para responder à primeira pergunta exibida acima, você pode coletar o número de dias chuvosos e seus dados de vendas mensais para cada mês nos últimos três anos.
Você processará os dados históricos usando o software de regressão. O software processará os diferentes pontos de dados e os conectará matematicamente usando equações. Por exemplo, se o número de dias chuvosos em três meses for 3, 5 e 8 e o número de vendas nesses meses for 8, 12 e 18, o algoritmo de regressão conectará os fatores à equação:
Em matemática, as equações fornecem a relação entre duas variáveis: x e y. É possível usar essas equações, ou funções, para traçar um gráfico ao longo dos eixos x e y colocando valores diferentes dex e y. Por exemplo, se traçar o gráfico para a função y = 2*x, você obterá uma linha reta, conforme mostrado abaixo. Portanto, essa função também é chamada de função linear.
A regressão logística é menos complexa e com menos uso intensivo de computação do que o aprendizado profundo. Mais importante ainda, por causa de sua natureza complexa e orientada por máquinas, os cálculos de aprendizado profundo não podem ser investigados nem modificados pelos desenvolvedores. Por sua vez, os cálculos de regressão logística são transparentes e mais fáceis de solucionar.
Comece com a regressão logística criando uma conta da AWS hoje mesmo.
Em estatística, as variáveis são os fatores de dados ou atributos cujos valores variam. Para qualquer análise, certas variáveis são variáveis independentes ou explicativas. Esses atributos são a causa de um resultado. Outras variáveis são dependentes ou variáveis de resposta, cujos valores dependem das variáveis independentes. Em geral, a regressão logística explora como as variáveis independentes afetam uma variável dependente, observando os valores de dados históricos de ambas as variáveis.
y= β0X0 + β1X1 + β2X2+… βnXn+ ε, em que β1 para βn e ε são coeficientes de regressão.
Volviendo a la explicación del modelo, teniendo p, se calcula el logaritmo natural de la razón de probabilidades, y dicho resultado será la variable dependiente. Esta última, a su vez, puede expresarse en función de una o más variables independientes(X):