Skip to content

Análise Aprimorada de Intervenção para Ansiedade com LLM Fine-Tuned

License

Notifications You must be signed in to change notification settings

suave-ritual/app

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Este notebook implementa um fluxo de trabalho completo para análise de dados relacionados a intervenções para ansiedade, utilizando técnicas avançadas de visualização, análise estatística e interpretação por modelos de linguagem. O sistema simula um ambiente onde um modelo de linguagem pré-treinado (LLM) foi especializado (fine-tuned) para fornecer interpretações contextualizadas e detalhadas de análises visuais e estatísticas, aumentando significativamente a explicabilidade dos resultados de intervenções para ansiedade.

Características Principais

  • Integração com Google Drive: Conecta-se ao Drive para salvar todos os resultados automaticamente
  • Validação de Dados: Verifica a integridade e estrutura dos dados de ansiedade carregados
  • Pré-processamento: Codificação one-hot para grupos e escalonamento de atributos numéricos
  • Análise de Valores SHAP: Quantifica a importância de cada atributo no modelo
  • Múltiplas Visualizações:
    • Gráficos KDE (Kernel Density Estimation)
    • Gráficos Violin Plot
    • Coordenadas Paralelas
    • Hipergrafos para relacionamentos complexos
  • Análise Estatística: Bootstrap para intervalos de confiança e estatísticas descritivas
  • Relatório de Insights via LLM: Sintetiza os resultados usando simulação de diferentes LLMs:
    • Grok-base (modelo base)
    • Claude 3.7 Sonnet (análise visual avançada)
    • Grok-Enhanced (simulação de modelo especializado por fine-tuning)

Requisitos Técnicos

O notebook requer as seguintes bibliotecas:

  • kaleido
  • networkx
  • numpy
  • pandas
  • plotly
  • seaborn
  • shap
  • scikit-learn
  • matplotlib
  • typing-extensions

Estrutura do Fluxo de Trabalho

  1. Montagem do Google Drive: Estabelece conexão com o Drive para armazenamento persistente.
  2. Carregamento e Validação de Dados: Carrega dados sintéticos de ansiedade e valida sua integridade.
  3. Pré-processamento:
    • Codificação one-hot para a variável categórica de grupo
    • Escalonamento dos valores numéricos via MinMaxScaler
  4. Análise SHAP:
    • Treina um RandomForestRegressor
    • Calcula valores SHAP para identificar a contribuição de cada variável
    • Gera gráficos para visualização da importância dos atributos
  5. Visualizações Especializadas:
    • Gráficos KDE para comparação de distribuições
    • Violin plots para visualização da distribuição por grupo
    • Coordenadas paralelas para análise de trajetórias individuais
    • Hipergrafos para identificação de padrões relacionais complexos
  6. Sumário Estatístico:
    • Bootstrap para cálculo de intervalos de confiança
    • Estatísticas descritivas dos dados
  7. Relatório de Insights via LLM:
    • Simulação de interpretações por diferentes LLMs
    • Síntese integrada das análises visuais e estatísticas

Especificações Técnicas

Conjunto de Dados

O notebook trabalha com um dataset de intervenção para ansiedade contendo:

  • ID do participante
  • Grupo de intervenção (Grupo A, Grupo B, Controle)
  • Nível de ansiedade pré-intervenção (escala 0-10)
  • Nível de ansiedade pós-intervenção (escala 0-10)

Modelos Simulados

O notebook simula a análise por três modelos:

  • Grok-base: Fornece interpretações básicas iniciais
  • Claude 3.7 Sonnet: Especializado em análise visual aprimorada
  • Grok-Enhanced: Simula um modelo especializado (fine-tuned) para oferecer interpretações contextuais mais sofisticadas

Saídas Geradas

Todos os resultados são salvos no diretório especificado no Google Drive:

  • Gráficos SHAP (PNG)
  • Visualizações KDE, Violin, Coordenadas Paralelas e Hipergrafos (PNG)
  • Sumário estatístico (TXT)
  • Relatório completo de insights (TXT)

Aplicações

Este notebook é especialmente útil para:

  • Pesquisadores em psicologia clínica avaliando eficácia de intervenções
  • Cientistas de dados trabalhando com análise de dados de saúde mental
  • Desenvolvedores interessados na aplicação de LLMs para interpretação contextualizada de dados
  • Profissionais de saúde buscando insights aprofundados sobre resultados de tratamentos

Como Utilizar

  1. Monte seu Google Drive no Colab
  2. Execute todas as células em sequência
  3. Todos os resultados serão salvos no caminho especificado em OUTPUT_PATH

Padrões de Design

O notebook segue princípios de design robustos:

  • Funções modulares com validação de entrada
  • Tratamento de exceções detalhado
  • Tipagem estática via anotações Python
  • Constantes claramente definidas para fácil configuração
  • Documentação clara para cada função

Autor

Hélio Craveiro Pessoa Júnior