Uma Abordagem para a Caracterizac¸a˜o do Cancelamento Eletivo de Contratos em Planos de Sau´de Privados
Uma Abordagem para a Caracterizac¸a˜o do Cancelamento Eletivo de Contratos em Planos de Sau´de Privados
Xxxxxxxxx Xxxxxxxx Xxxxxx, Xxxxxxx xx Xxxxxxx Xxxx Xxxxxxx
Universidade Federal do Piau´ı xxxxxxxxxxx@xxxxxxx.xxx, xxxxxxxxxx@xxxx.xxx.xx
Xxxxx Xxxxxxxx Xxxxxx Instituto Federal do Piau´ı xxxxxxxxxxx@xxxxx.xxx
Resumo – Uma diversidade de fatores influencia na expectativa de vida de uma pessoa, e um fator fundamental e´ o cuidado com a pro´pria sau´de. Pore´m, o cuidado com a sau´de na˜o possui um baixo custo; empresas privadas, provedoras de planos de sau´de, geralmente, sa˜o responsa´veis pelo pagamento das contas de operac¸o˜es, internac¸o˜es, medicamentos e outros custos hospi- talares. O bom funcionamento dessas empresas esta´ diretamente relacionado a` permaneˆncia dos segurados no plano de sau´de e, portanto, inversamente relacionado a` quantidade de cancelamentos desses seguros. O objetivo principal deste trabalho consiste em desenvolver uma abordagem projetada para caracterizar o cancelamento eletivo de contratos em planos de sau´de privados. A abordagem proposta e´ constitu´ıda de va´rias etapas, que sa˜o organizadas em treˆs fases: Pre´-Processamento, Minerac¸a˜o de Dados e Priorizac¸a˜o. A fase de Pre´-Processamento visa garantir uma maior qualidade a`s informac¸o˜es extra´ıdas da base de dados de um plano de sau´de privado real. A fase de Minerac¸a˜o de Dados explora os dados pre´-processados, a` procura de padro˜es, rela- cionamento entre atributos e tendeˆncias, com o intuito de descobrir novos conhecimentos. Essa fase de Minerac¸a˜o de Dados e´ responsa´vel por reconhecer contratos ativos com caracter´ısticas de contratos ja´ cancelados, e identificar que tipos de ac¸o˜es e com- portamentos levam os clientes da empresa a cancelarem seus v´ınculos. Dessa forma, a gesta˜o do plano de sau´de pode interceder de forma proativa no problema, e na˜o apenas de forma reativa. Uma comparac¸a˜o entre diferentes algoritmos de classificac¸a˜o, uti- lizados para o reconhecimento de contratos com potencial de cancelamento, e´ realizada com o objetivo de definir os paradigmas de aprendizado mais adequados a` etapa de reconhecimento de contratos. Uma complementac¸a˜o a` fase de Minerac¸a˜o de Dados e´ a experimentac¸a˜o de diferentes te´cnicas de balanceamento de classes e seu impacto nas me´tricas de precisa˜o e recall dos resultados obtidos. A fase de Priorizac¸a˜o de Contratos objetiva priorizar os contratos, com caracter´ısticas de contrato cancelado, de acordo com um grau de cancelamento. Esse grau de cancelamento e´ estimado para cada contrato por meio de uma sistema de infereˆncia fuzzy. Por fim, e´ realizado um conjunto de experimentos demonstrando passo-a-passo a execuc¸a˜o pra´tica da abordagem proposta, com a apresentac¸a˜o de resultados e discusso˜es.
Palavras-chave – Minerac¸a˜o de dados, sistema de infereˆncia fuzzy, sau´de suplementar, plano de sau´de.
Abstract – A range of different factors influences the life expectancy of a person, and a key factor is healthcare. However, this concern with healthcare is not cheap, there is usually a need for some private company, a provider of health insurance, which is responsible for payment of transaction accounts, hospitalizations, medications and other medical costs. The proper functioning of these companies is directly related to the stay of insured people in the health plan and therefore inversely related to the amount of such insurance cancellations. The main objective of this work is to develop an approach designed to characterize the elective cancellation of contracts in private health plans. The proposed approach consists of several steps, which are organized in three phases: Pre-Processing, Data Mining and Prioritization. The Pre-Processing phase aims to ensure greater quality to information obtained from the database of a real private health insurance. The Data Mining phase explores the pre-processed data, looking for patterns, relationships between attributes and trends, in order to discover new knowledge. This Data Mining phase is responsible for recognizing active contracts with features of contracts already canceled, and identify what types of actions and behaviors lead the company’s customers to cancel their ties. Thus, the health plan management can intervene proactively in the problem, not just reactively. A comparison of different classification algorithms, used for recognition of contracts with a potential cancellation is performed aiming to define the most appropriate learning paradigms to contracts recognition step. A complement to Data Mi- ning phase is experimenting with different class balancing techniques and their impact on precision metrics and recall of results. Prioritization phase objectively prioritize contracts with canceled contract characteristics, according to a degree of cancellation. This degree of cancellation is estimated for each contract by an fuzzy inference system. Finally, a set of experiments is conducted demonstrating step-by-step practical implementation of the proposed approach with the presentation of results and discussions.
Keywords – Data mining. fuzzy inference system. supplementary health. health plan. healthcare.
1. INTRODUC¸ A˜ O
Uma diversidade de fatores influencia na expectativa de vida de uma pessoa, e um fator fundamental e´ o cuidado com a pro´pria sau´de. Mas cuidar da sau´de na˜o e´ algo barato, geralmente se faz necessa´ria a participac¸a˜o de um plano de sau´de responsa´vel por pagar as contas hospitalares, seja ele um plano de sau´de pu´blico ou privado [21, 28]. Planos de sau´de privados, em pa´ıses em desenvolvimento, geralmente teˆm maior senso de responsabilidade com o atendimento prestado, sa˜o mais eficientes e autossustenta´veis que a iniciativa pu´blica [5]. Mesmo em pa´ıses melhor desenvolvidos, naqueles onde uma boa cobertura de sau´de foi alcanc¸ada, os planos privados possuem uma representac¸a˜o significativa no atendimento a` sau´de [36].
O Brasil e´ um exemplo de pa´ıs em desenvolvimento com um amplo sistema de planos de sau´de privados, tambe´m conhecido como sistema suplementar de sau´de. Informac¸o˜es da Ageˆncia Nacional de Sau´de Suplementar [1] mostram um constante aumento no nu´mero de beneficia´rios associados a alguma Operadora de Plano de Sau´de (OPS). A quantidade registrada de beneficia´rios ate´ marc¸o de 2015 totalizou quase 51 milho˜es de pessoas, representando mais de 26% da populac¸a˜o brasileira coberta pela iniciativa privada. Esse elevado nu´mero de clientes influencia diretamente na receita obtida pelos planos de sau´de. Entretanto, a alta quantidade de clientes influencia tambe´m no aumento das despesas assistenciais. Despesa assistencial e´ toda despesa resultante da utilizac¸a˜o, por parte do segurado, das coberturas oferecidas pelo plano de sau´de, representando, portanto, todo gasto que precisa ser despendido quando um cliente da empresa precisa de atenc¸a˜o me´dica, como: consultas, exames, internac¸o˜es e terapias.
Como o crescimento das despesas segue o mesmo ritmo do crescimento das receitas, e´ importante para a gesta˜o lograr eˆxito no gerenciamento e reduc¸a˜o dos custos com sau´de ao longo do ano, pois quanto mais pro´ximo esses custos forem do rendimento da empresa, menor sera´ o caixa dispon´ıvel para investimentos, pagamento de sala´rios e outros tipos de gastos administrativos. Nesse contexto com elevadas despesas assistenciais, qualquer me´todo, te´cnica ou proposta que reduza os gastos com sau´de ou mantenha a receita esta´vel, e´ relevante para o funcionamento duradouro do plano de sau´de.
O uso de minerac¸a˜o de dados na a´rea de planos de sau´de tem sido uma importante fonte para descoberta de conhecimento em bancos de dados. Ale´m disso, por meio da aplicac¸a˜o de te´cnicas de aprendizado de ma´quina, um conjunto de comportamentos no cena´rio me´dico podem ser aprendidos, detectados e ate´ mesmo antecipados. Xxxxxx et al. [30] descreveram um sistema para detectar fraudes e abusos em guias me´dicas1 de um plano de sau´de privado chileno. He et al. [23] desenvolveram uma versa˜o modificada do algoritmo KNN, que utiliza algoritmos gene´ticos com o objetivo de encontrar uma distaˆncia o´tima na˜o-euclidiana entre as instaˆncias de treinamento, para classificar profissionais me´dicos que realizam pedidos de exames desnecessa´rios a paci- entes. Arau´jo et al. [4] apresentaram um processo para realizar o aprendizado automa´tico da regulac¸a˜o me´dica/odontolo´gica de uma operadora privada de plano de sau´de. Foi executado um conjunto de experimentos para avaliar a classificac¸a˜o de algoritmos de diferentes paradigmas de aprendizado. Cada um dos trabalhos, ate´ agora apresentados, usou diferentes te´cnicas e algoritmos para solucionar problemas ligados ao contexto de planos de sau´de; entretanto, na˜o ha´ em nenhum deles um objetivo, bem defi- nido, visando entender as razo˜es e motivos que levaram aos resultados da classificac¸a˜o. Esse melhor entendimento das razo˜es e motivos, baseado na ana´lise das a´rvores de decisa˜o, foi um dos principais objetivos deste estudo.
Os trabalhos de Xxxxxxxxx et al. [40] e Xxxxx et al. [26], apesar de experimentarem uma pequeno nu´mero de algoritmos, apresentaram um interesse em entender os comportamentos que influenciaram nos resultados obtidos. Xxxxxxxxx et al. apresen- taram um me´todo que derivava regras para ajudar na preparac¸a˜o e investigac¸a˜o de guias me´dicas antes da submissa˜o das mesma para as empresas responsa´veis pelo pagamento, o que reduziu custos com erros e imperfeic¸o˜es na ana´lise das guias. Xxxxx et al. tambe´m propuseram uma abordagem para reduzir os gastos excessivos no processamento de guias me´dicas. Foi descrito um sistema com o objetivo de prever quais guias precisariam ser reprocessadas, gerando automaticamente um conjunto de motivos para explicar o porqueˆ dessas guias necessitarem de uma segunda ana´lise.
Dentre os trabalhos encontrados na literatura, dois deles possuem o mesmo dom´ınio de aplicac¸a˜o deste estudo: cancelamentos em planos de sau´de. Su et al. [38] utilizaram regressa˜o log´ıstica para elencar as caracter´ısticas mais relevantes para a sa´ıda de um cliente do plano de sau´de, assim como atribuir a cada um dos consumidores um risco de cancelamento, permitindo a
priorizac¸a˜o dos casos mais graves. E´ importante frisar que as caracter´ısticas foram elencadas de forma independente, ou seja,
motivos de cancelamento envolvendo mais de uma varia´vel na˜o foram evidenciados, diferente do presente estudo que analisa esse aspecto tambe´m sobre a o´tica de interdependeˆncia entre os fatores. Para o treinamento/validac¸a˜o do classificador, todos os consumidores foram agrupados em dois grupos, por meio do algoritmo k-Means, e o grupo em que a taxa de cancelamento era maior foi escolhido. Xxxxxxxxxxxx and Caldera [19] realizaram experimentos com diferentes classificadores para rotular um determinado consumidor como algue´m que iria continuar ou sair do plano de sau´de. O problema do desbalanceamento entre classes foi abordado por meio de um aprendizado baseado em custos, no qual ha´ uma diferenc¸a de custo para cada possibilidade de classificac¸a˜o. O teste do modelo foi realizado por meio de validac¸a˜o cruzada, com a separac¸a˜o dos clientes em 10 grupos aleato´rios.
1.1 Definic¸a˜o do Problema
Devido a` margem estreita de lucro, as empresas de plano de sau´de, juntamente com pesquisadores, teˆm investido tempo e esforc¸os na utilizac¸a˜o de te´cnicas de minerac¸a˜o de dados. Boa parte das aplicac¸o˜es tem por finalidade reduzir as despesas assistenciais ou administrativas, como: prever erros na regulac¸a˜o de guias me´dicas [26], detectar abusos em servic¸os requisitados
1Conjunto de informac¸o˜es sobre o atendimento realizado em um paciente, como: tipo de acomodac¸a˜o em caso de internac¸a˜o, medicamentos utilizados, tratamentos executados, materiais utilizados, etc.
pelos me´dicos [23, 30] e reduzir custos com ana´lises incorretas de guias [26, 40]. O foco deste trabalho e´ auxiliar a empresa, na˜o de forma direta na reduc¸a˜o dos gastos, mas na manutenc¸a˜o da receita esperada.
Como provedoras de seguro, as OPSs teˆm sua receita pautada no pagamento de um taxa perio´dica, geralmente mensal, por parte dos beneficia´rios do plano de sau´de. Essa forma de receita se baseia na metodologia de gerenciamento de risco conhecida como risk pool ou grupo de risco [12]. Nessa metodologia um grupo de agentes compartilha o risco de que algo na˜o deseja´vel acontec¸a a algum agente espec´ıfico. Dessa forma, ao inve´s de um eventual agente lesado arcar de forma individual com um de´bito alto, uma parte do valor contribu´ıdo pelo grupo e´ utilizado no pagamento dos gastos, mitigando de forma substancial o impacto financeiro para o agente envolvido [29].
Visto que o valor pago de cada beneficia´rio e´ importante para o funcionamento esta´vel do plano de sau´de, o problema abor- dado por este trabalho e´ o cancelamento eletivo dos contratos, ou seja, quando o segurado decide, deliberadamente, cancelar
seu v´ınculo com a empresa e assim encerrar sua parcela de aporte financeiro. E´ importante ressaltar que, apenas os contratos
individuais, ligados diretamente a um segurado espec´ıfico, fazem parte do escopo deste estudo. Contratos corporativos, que representam acordos entre o plano de sau´de e outras empresas, sa˜o desconsiderados, pois acredita-se que, nesse caso, o cancela- mento esta´ mais vinculado a` relac¸a˜o entre a seguradora de sau´de e a empresa contratante, do que entre a seguradora de sau´de e o beneficia´rio.
1.2 Objetivos
O objetivo principal deste estudo consistiu em desenvolver uma abordagem projetada para caracterizar o cancelamento eletivo de contratos em planos de sau´de privados. Ressalta-se que o principal guia para essa caracterizac¸a˜o foi a descoberta de conhe- cimento impl´ıcito na base de dados da OPS, pois, a priori, apesar de desconhecida para a gesta˜o, essa conhecimento apresenta particularidades expressivas para o problema em foco.
Ale´m do objetivo principal, pretendeu-se alcanc¸ar os seguintes objetivos espec´ıficos:
•
Classificar contratos ativos em contratos com caracter´ısticas de contrato cancelado. Essa classificac¸a˜o foi realizada, prin- cipalmente, na etapa Reconhecimento de Contratos (fase de Minerac¸a˜o de Dados);
•
Analisar ramos das a´rvores geradas por classificadores baseados em a´rvore de decisa˜o, para identificar que padro˜es caracte- rizam os contratos rotulados com a classe “cancelado”. Essa ana´lise foi executada na etapa Identificac¸a˜o de Caracter´ısticas (fase de Minerac¸a˜o de Dados);
•
Estimar um grau de cancelamento para cada contrato rotulado como “cancelado”. Esse grau de cancelamento foi utilizado como um fator de criticidade de forma a priorizar os contratos classificados. A estimac¸a˜o do grau de cancelamento e a priorizac¸a˜o dos contratos foram realizados na fase de Priorizac¸a˜o de Contratos;
•
Realizar uma comparac¸a˜o entre diferentes classificadores para definir os paradigmas de aprendizado e os algoritmos que apresentam melhores resultados para o problema. Essa comparac¸a˜o foi realizada na etapa Reconhecimento de Contratos (fase de Minerac¸a˜o de Dados);
•
Comparar diferentes soluc¸o˜es para resolver o problema do desbalanceamento de classes, analisando o impacto de cada uma das te´cnicas nos resultados obtidos. A comparac¸a˜o foi uma das ac¸o˜es da etapa Balanceamento de Classes (fase de Pre´-Processamento).
1.3 Contribuic¸o˜es
Como contribuic¸o˜es relevantes do estudo realizado, destacam-se:
•
Identificac¸a˜o de padro˜es, ac¸o˜es e comportamentos, que caracterizam um perfil de um contrato cancelado. De posse dessa informac¸a˜o, a gesta˜o do plano de sau´de pode, por exemplo, desenvolver pol´ıticas que atenuem algum dos comportamen- tos identificados no perfil. Dessa forma, age-se diretamente sobre os motivos que levam os beneficia´rios a cancelarem deliberadamente seus contratos;
•
Rotulac¸a˜o de quais contratos ainda ativos possuem caracter´ısticas de contrato cancelado. Por meio dessa rotulac¸a˜o, e´ poss´ıvel tomar medidas proativas sobre os contratos rotulados, com o objetivo de evitar que os beneficia´rios em questa˜o realmente concretizem o cancelamento;
•
Aferic¸a˜o de um grau de cancelamento para cada contrato classificado como “cancelado”, baseando-se, para isso, no conhe- cimento do gestor/especialista. Ao se estimar um grau de cancelamento, obte´m-se uma me´trica que condensa, em um u´nico valor, a criticidade de um determinado contrato. Ale´m disso, ao se basear na expertise do gestor, essa aferic¸a˜o realizada acaba por expressar o conhecimento adquirido, pela empresa, sobre o cancelamento de contratos;
•
Priorizac¸a˜o dos contratos com a utilizac¸a˜o do grau de cancelamento estimado. Por meio dessa priorizac¸a˜o, amplia-se o horizonte de recursos da gesta˜o, permitindo a selec¸a˜o dos contratos de acordo com a capacidade de trabalho da empresa;
•
Ana´lise comparativa sobre o impacto, nas me´tricas de precisa˜o e recall, do uso de diferentes te´cnicas que realizam o balanceamento de classes. Como o objetivo da classificac¸a˜o e´ maximizar tanto a precisa˜o como o recall, e´ poss´ıvel perceber, por meio da ana´lise, que cada te´cnica representa um soluc¸a˜o na˜o-dominada. Desse modo, pode-se optar por te´cnicas diferentes de acordo com o objetivo da gesta˜o, o que torna o processo, como um todo, flex´ıvel.
1.4 Estrutura do Trabalho
O restante deste trabalho esta´ estruturado da seguinte forma: a Sec¸a˜o 2 detalha a estrutura da abordagem proposta e de cada uma das suas fases e etapas; a Sec¸a˜o 3 expo˜e e discute os resultados encontrados com a execuc¸a˜o pra´tica da abordagem em uma OPS real e a Sec¸a˜o 4 retrata as concluso˜es, limitac¸o˜es e pontos de continuidade da pesquisa desenvolvida neste estudo.
2. ABORDAGEM PROPOSTA
A abordagem proposta objetiva caracterizar o cancelamento eletivo de contratos em planos de sau´de privados. Por caracterizar entende-se a capacidade de distinguir aspectos, padro˜es e propriedades que possam moldar, baseado em eventos passados, o perfil de um contrato cancelado. A definic¸a˜o da abordagem e´ realizada por meio de etapas que, por sua vez, pertencem a`s seguintes fases: Pre´-Processamento, Minerac¸a˜o de Dados e Priorizac¸a˜o de Contratos. A proposta desenvolvida e´ baseada no modelo de descoberta de conhecimento em banco de dados proposto por Xxxxxx et al. [15]. A estrutura geral da abordagem e´ ilustrada na Figura 1, contemplando todas as fases e as respectivas etapas.
Banco de Dados
Seleção de Contratos
Limitação de Histórico
Limpeza de Dados
Seleção de Atributos
Construção de Atributos
Balanceamento de Classes
FASE DE
PRÉ-PROCESSAMENTO
Reconhecimento de Contratos
Identificação de Características
FASE DE MINERAÇÃO DE DADOS
Determinação do
Grau de
C to
ancelamen
Ordenação de Contratos
FASE DE PRIORIZAÇÃO DE CONTRATOS
Figura 1: Estrutura da abordagem proposta.
2.1 Base de Dados
A base de dados utilizada neste estudo foi fornecida por uma OPS sediada no estado do Piau´ı, Brasil. A base possui informac¸o˜es de 22.542 beneficia´rios, com contratos estabelecidos entre Marc¸o de 2005 e Julho de 2015, presentes em 5 ta- belas, que juntas totalizam 230 colunas/atributos. Para facilitar a compreensa˜o das fases e etapas da abordagem, e´ primordial entender os seguintes conceitos comuns ao contexto de planos de sau´de:
• Beneficia´rio: segurado que possui um v´ınculo com a empresa, podendo usufruir das coberturas acordadas no contrato;
•
Titular: pessoa responsa´vel pelo pagamento das mensalidades ao plano. Essa pessoa pode ser um beneficia´rio ou apenas o responsa´vel financeiro, sem direito aos benef´ıcios do plano de sau´de;
• Dependente: beneficia´rio do plano que na˜o possui responsabilidades financeiras com a empresa;
• Cobertura: tipo de atendimento que o beneficia´rio tem direito caso necessite de alguma assisteˆncia;
• Produto do Contrato: conjunto de coberturas associadas a um contrato;
• Contrato Individual: contrato firmado diretamente com uma pessoa f´ısica;
•
Contrato Corporativo: contrato firmado com uma empresa que deseja beneficiar um grupo de funciona´rios com um plano de sau´de;
• Data de Adesa˜o: data oficial do in´ıcio do contrato de um beneficia´rio.
2.2 Pre´-Processamento
A fase de Pre´-Processamento visa garantir uma maior qualidade a`s informac¸o˜es extra´ıdas da base de dados de uma operadora de plano de sau´de real, devido a` grande quantidade de dados presentes, muitos deles irrelevantes ou prejudiciais ao entendimento do processo. Essa fase e´ constitu´ıda das seguintes etapas: Selec¸a˜o de Contratos, Limitac¸a˜o de Histo´rico, Limpeza de Dados, Selec¸a˜o de Atributos, Construc¸a˜o de Atributos e Balanceamento de Classes.
2.2.1 Selec¸a˜o de Contratos
Na etapa Selec¸a˜o de Contratos, ha´ uma primeira reduc¸a˜o na quantidade de contratos processados pela abordagem. Sa˜o seleci- onados apenas os contratos dos titulares, ou seja, os contratos que representam apenas dependentes na˜o sa˜o resgatados da base de dados. Optou-se por selecionar somente contratos de titulares porque e´ de responsabilidade do titular realizar o pagamento das mensalidades ao plano de sau´de e decidir sobre o cancelamento do contrato. Vale ressaltar que as informac¸o˜es relacionadas aos dependentes na˜o sa˜o totalmente descartadas; alguns dados relevantes para o problema sa˜o adicionados no contrato do titular associado ao dependente. Na etapa Construc¸a˜o de Atributos, ha´ mais detalhes sobre quais dados dos dependentes sa˜o utilizados.
Como o objetivo principal deste estudo esta´ relacionado ao cancelamento eletivo de contrato, apenas os contratos que foram firmados diretamente entre a OPS e uma pessoa f´ısica sa˜o selecionados. Isso significa que contratos corporativos sa˜o desconsi- derados, pois quando ha´ um cancelamento nesse caso, a motivac¸a˜o e´, geralmente, originada pela empresa que contratou a OPS, e na˜o pelo funciona´rio que perdera´ sua cobertura de sau´de.
Da base de dados original foram selecionados somente contratos com data de adesa˜o entre 01 de Janeiro de 2013 e 31 de Dezembro de 2014. Essas datas na˜o foram escolhidas empiricamente, pois de acordo com especialistas da OPS a maior parte dos produtos relacionados a contratos individuais foi adicionada em meados de 2012. Portanto, como e´ feita a selec¸a˜o apenas de contratos individuais, resolveu-se selecionar os contratos a partir do in´ıcio de 2013. A data final de selec¸a˜o foi estabelecida como o final de 2014, porque, dessa forma, sa˜o representados dois anos inteiros, de janeiro a dezembro, de contratos selecionados, ja´ que na base de dados original so´ constam registros ate´ julho de 2015.
Uma restric¸a˜o adicional, nessa etapa de Selec¸a˜o de Contratos, foi adicionada devido a uma pol´ıtica interna da OPS. Essa pol´ıtica oferece como benef´ıcio aos funciona´rios internos da empresa um plano de sau´de gratuito, ou seja, os funciona´rios da OPS sa˜o considerados titulares dos contratos, pore´m, como excec¸a˜o a` regra geral, na˜o sa˜o responsa´veis pelo pagamento de suas mensalidades.
2.2.2 Limitac¸a˜o de Histo´rico
O objetivo dessa etapa e´ limitar o histo´rico dos contratos selecionados na etapa Selec¸a˜o de Contratos, pois existe uma diferenc¸a entre beneficia´rios que comec¸aram o plano de sau´de no in´ıcio de 2013 e os que comec¸aram no final de 2014. Essa diferenc¸a e´ motivada pelo fato de que os beneficia´rios, cujos contratos iniciaram em 2013, teˆm um horizonte maior de tempo e insatisfac¸a˜o para cancelar seus contratos, enquanto outros beneficia´rios, com menos tempo de plano de sau´de, provavelmente tiveram menos experieˆncias para avaliar os servic¸os da OPS. Desse ponto de vista, a probabilidade de um contrato, cuja data de adesa˜o e´ Janeiro de 2013, estar com o estado de “cancelado”, e´ maior que a probabilidade de um contrato com data de adesa˜o em Dezembro de 2014.
Decidiu-se limitar o histo´rico de contrato para no ma´ximo 6 meses depois da data de adesa˜o, ou seja, apenas e´ considerado o u´ltimo estado associado ao contrato depois de 6 meses da entrada do beneficia´rio no plano de sau´de. A Figura 2 mostra a sa´ıda da etapa de Limitac¸a˜o de Histo´rico ao receber dois contratos de exemplo: Contrato A e Contrato B. O Contrato A tem data de adesa˜o em 01/07/2013 e data de cancelamento em 01/08/2014. O Contrato B tem data de adesa˜o em 01/09/2013 e data de cancelamento
em 01/02/2014. E´ poss´ıvel perceber que apesar de ambos os contratos estarem com estado de “cancelado” antes de entrarem na
etapa, apenas o Contrato B permaneceu nesse estado apo´s ter seus histo´rico limitado. O Contrato A passou a ser considerado “na˜o cancelado”, pois houve um diferenc¸a de 13 meses entre a adesa˜o e o cancelamento, diferenc¸a superior a 6 meses, implicando que para as pro´ximas etapas e fases da abordagem, esse contrato na˜o sera´ mais considerado “cancelado”.
O per´ıodo espec´ıfico de 6 meses foi escolhido baseado na ana´lise da quantidade de contratos cancelados entre 2013 e 2014. A Figura 3 apresenta a percentagem acumulada do total de contratos cancelados, de acordo com o nu´mero de meses apo´s a data
de adesa˜o. E´ poss´ıvel notar que 39% dos cancelamentos ocorreram em ate´ 6 meses desde a entrada do beneficia´rio no plano
de sau´de, e que, a partir desse per´ıodo, a taxa de crescimento do nu´mero de contratos cancelados comec¸a a diminuir. Escolher um per´ıodo inferior a 6 meses, ale´m de representar menos tempo de histo´rico do beneficia´rio, equivaleria a no ma´ximo 26% dos cancelamentos, caso se optasse por 5 meses. Escolher um per´ıodo superior englobaria mais histo´rico e abrangeria mais cancelamentos, pore´m, quanto maior o per´ıodo, maior sera´ o tempo de atraso para aferir se um contrato ira´ cancelar ou na˜o. Por
01/01/2013
01/07/2015
01/07/2013
01/08/2014
13 meses
01/09/2013 01/02/2014
5 meses
6 meses
01/09/2013 01/02/2014
6 meses
Contrato A
Contrato B
Limitação de Histórico
01/07/2013
Contrato A
Contrato B
Período Desconsiderado
Contrato Ativo
Contrato Cancelado
Figura 2: Exemplificac¸a˜o do processo executado pela etapa Limitac¸a˜o de Histo´rico.
exemplo, se o per´ıodo escolhido fosse 12 meses, os contratos mais adequados a essa escolha teriam que estar ha´ pelo menos um ano ativos na base de dados da OPS.
72%
76%
80%
66%
60%
51%
39%
26%
3%
7%
10%
14%
100%
% (aprox.) Total dos contratos cancelados
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
1 2 3
4 5 6 7 8 9
Quantidade de meses após a data de adesão
10 11 12
Figura 3: Percentagem acumulada do total de contratos cancelados apo´s a data de adesa˜o.
2.2.3 Limpeza de Dados
Nessa etapa sa˜o removidos todos os atributos que podem de alguma forma prejudicar a fase de Minerac¸a˜o de Dados, represen- tando dados de ma´ qualidade. Para cada uma das 5 tabelas presentes na base de dados foram definidos 5 grupos de atributos a serem removidos:
•
Atributos Polu´ıdos: representam atributos que sa˜o preenchidos sem seguir um padra˜o estabelecido, por exemplo: um atributo que deveria representar uma idade ser preenchido com valores negativos.
•
Atributos Preenchidos com Valor Padra˜o: representam atributos que, por algum motivo, na˜o esta˜o sendo utilizadas pelo sistema durante algum processo; assim, assumem o valor padra˜o para o tipo de dados representando.
• Atributos Duplicados ou Redundantes: representam atributos que conteˆm informac¸o˜es ja´ presentes em outros atributos.
•
Atributos Irrelevantes: representam atributos que conteˆm informac¸o˜es na˜o consideradas u´teis para a resoluc¸a˜o do problema. Essa atribuic¸a˜o de relevaˆncia esta´ relacionada a uma tarefa conjunta com um especialista da OPS.
•
Atributos Legais/E´ ticos: representam colunas que conteˆm informac¸o˜es de cunho sigiloso ou privado. Esse tipo de informac¸a˜o geralmente esta´ relacionado a dados pessoais, como nome, enderec¸o, dados banca´rios, etc.
2.2.4 Construc¸a˜o de Atributos
Essa etapa e´ importante para adicionar informac¸a˜o aos contratos, pois nem tudo aquilo que pode ser considerado u´til esta´ di- retamente mapeado a uma tabela ou coluna do banco de dados. A criac¸a˜o de um atributo “idade”, por exemplo, pode ser mais representativa para a fase de Minerac¸a˜o de Dados do que utilizar a data de nascimento com valores do tipo data. Para a maioria dos algoritmos classificadores e´ mais simples trabalhar com valores nume´ricos do que com valores que representam datas.
E´ nessa etapa que informac¸o˜es dos dependentes, ignoradas na etapa de Selec¸a˜o de Contratos, sa˜o adicionadas ao contrato
dos respectivos titulares. Julgou-se importante adicionar dados dos dependentes porque, apesar de na˜o serem responsa´veis pelos pagamentos, os dependentes representam uma extensa˜o do contrato do titular, seja influenciando no valor total da mensalidade a ser paga, seja na pro´pria utilizac¸a˜o da cobertura do plano de sau´de. A quantidade de dependentes de um contrato titular e´ um exemplo ba´sico de atributo que pode ser criado para expandir a informac¸a˜o contida no contrato original, pois esse dado na˜o esta´ presente de forma direta na base de dados cedida.
2.2.5 Selec¸a˜o de Atributos
Antes de passar por essa etapa, cada instaˆncia que representa um contrato ainda possui atributos que na˜o se encaixam em nenhum grupo da etapa de Limpeza de Dados e que foram adicionados na etapa de Construc¸a˜o de Atributos, acarretando em um alto nu´mero de dimenso˜es para o contrato. Como um valor elevado de dimenso˜es provoca um crescimento exponencial do espac¸o que representa uma determinada instaˆncia [7], o papel da etapa Selec¸a˜o de Atributos e´ reduzir a dimensionalidade do problema. Para isso e´ aplicado uma estrate´gia de selec¸a˜o de atributos do tipo filtro, em que a me´trica utilizada como divisa e´ a raza˜o de ganho. Apenas os atributos que tiverem raza˜o de ganho superior a zero sera˜o mantidos na instaˆncia.
2.2.6 Balanceamento de Classes
Ao final das etapas anteriores, os contratos possuem dois tipos de estados: contrato ja´ cancelado e contrato na˜o cancelado. Como a frequeˆncia de contratos ativos e´ maior que a de contratos cancelados, a quantidade entre essas duas classes possui diferenc¸as significativas. Visto que o desbalanceamento entre as classes pode influenciar em uma performance menor dos algoritmos classificadores [17], o objetivo da etapa de Balanceamento de Classes e´ definir uma estrate´gia para balancear os contratos.
Como te´cnica padra˜o para solucionar o desbalanceamento, optou-se pelo undersampling aleato´rio, por ser considerado uma das te´cnicas/estrate´gias mais efetivas [18]. Pore´m, devido a diversidade de te´cnicas existentes, com distintas abordagens para atacar o problema, e´ realizada tambe´m uma comparac¸a˜o entre os resultados obtidos ao se utilizar cada uma das seguintes es- trate´gias: undersampling aleato´rio, oversampling aleato´rio, SMOTE e SMOTE+undersampling. A comparac¸a˜o e´ realizada de acordo com as me´tricas de precisa˜o e recall alcanc¸adas por cada te´cnica.
2.3 Minerac¸a˜o de Dados
A fase de Minerac¸a˜o de Dados explora os dados pre´-processados com o objetivo de descobrir novos conhecimentos, ou seja, padro˜es, relacionamento entre atributos, e tendeˆncias ainda na˜o conhecidos pela gesta˜o do plano de sau´de. Essa fase consiste das seguintes etapas: Reconhecimento de Contratos e Identificac¸a˜o de Caracter´ısticas.
2.3.1 Reconhecimento de Contratos
Essa etapa visa reconhecer contratos ativos que possuem caracter´ısticas de contratos anteriormente cancelados. Para executar essa tarefa de reconhecimento, sa˜o utilizados algoritmos classificadores, com o objetivo de aprender um modelo capaz de rotular um contrato ainda ativo com a classe “cancelado” caso haja valores de atributos comuns a um contrato cancelado.
Para definir qual o algoritmo mais adequado a` abordagem proposta, e´ realizada uma comparac¸a˜o entre diversos paradigmas de aprendizado. A avaliac¸a˜o das te´cnicas e´ dada a partir das me´tricas: a´rea sob a curva ROC2 [14], recall e taxa de falso positivos (TFP). Uma selec¸a˜o foi realizada com algoritmos conhecidos na literatura oriundos dos paradigmas: “Baseado em A´ rvore de
Decisa˜o”, “Bayesiano”, “Baseado em Exemplos” e “Conexionista”. Os algoritmos escolhidos foram:
• Paradigma Baseado em A´ rvore de Decisa˜o: C4.5[35], RandomTree[2] e CART[6];
2A curva ROC apresenta no seu gra´fico a relac¸a˜o entre a taxa de recall e a taxa de falsos positivos ao se variar o limiar de discriminac¸a˜o na classificac¸a˜o.
• Paradigma Bayesiano: Naive Bayes[24] e BayesNet[8];
• Paradigma Baseado em Exemplos: KNN[16] e K*[10];
• Paradigma Conexionista: MLP (Multilayer Perceptron) [3] e SVM (Support Vector Machines)[11].
2.3.2 Identificac¸a˜o de Caracter´ısticas
Essa etapa, paralela a etapa de Reconhecimento de Contratos, visa identificar quais ac¸o˜es, comportamentos ou padro˜es, levam o beneficia´rio a cancelar seu contrato. Essa identificac¸a˜o e´ guiada pela ana´lise dos ramos gerados por classificadores baseados em a´rvores de decisa˜o.
Ale´m de serem computacionalmente mais econoˆmicas que outros tipos de classificadores, as a´rvores de decisa˜o podem ter seu modelo de aprendizado facilmente interpretado, diferente de redes neurais artificiais, por exemplo, que sa˜o te´cnicas tradicionalmente empregadas em problemas de classificac¸a˜o [22]. Visto isso, ao se utilizar a´rvores de decisa˜o para classificar os contratos, pode-se investigar, por meio do modelo gerado, quais caminhos/ramos sa˜o mais relevantes para descrever a classe “cancelado”. Nessa etapa de Identificac¸a˜o de Caracter´ısticas, os ramos que possuem as maiores taxas de acerto sa˜o analisados a fim de investigar o que cada atributo, contido em um desses ramos da a´rvore de decisa˜o, representa no contexto do cancelamento.
2.4 Priorizac¸a˜o de Contratos
Por fim, a fase de Priorizac¸a˜o de Contratos objetiva priorizar os contratos classificados como “cancelado”, de acordo com o risco de cancelamento associado a cada contrato. Para isso, sa˜o desenvolvidas as seguintes etapas: Determinac¸a˜o do Grau de Cancelamento e Ordenac¸a˜o de Contratos.
2.4.1 Determinac¸a˜o do Grau de Cancelamento
Apo´s a etapa de Reconhecimento de Contrato, os contratos ativos que foram rotulados como “cancelado” possuem o mesmo n´ıvel de criticidade, ou seja, na˜o se tem informac¸o˜es suficientes que indiquem quais contratos sa˜o mais suscet´ıveis a serem realmente cancelados. Visando resolver essa falta de informac¸a˜o sobre a risco de cancelamento do contrato, a etapa de Determinac¸a˜o do Grau de Cancelamento tem como objetivo atribuir um valor nume´rico, para cada contrato classificado como “cancelado”, que indique sua respectiva criticidade.
Motor de Inferência
Para estimar esse valor nume´rico, e´ utilizado um sistema de infereˆncia fuzzy (SIF) de Mamdani [33], com duas entradas e uma sa´ıda, modelado por meio da ferramenta jFuzzyLogic [9]. A primeira entrada e´ o n´ıvel de certeza (NC) da classificac¸a˜o do contrato, ou seja, a probabilidade estimada pelo classificador de que um determinado contrato pertenc¸a a classe “cancelado”. A segunda entrada e´ o valor total (VT) pago mensalmente pelo contrato, incluindo o valor de cada dependente associado. Como sa´ıda do sistema obte´m-se o objetivo da etapa, o grau de cancelamento (GC) do contrato. A Figura 4 representa a estrutura do SIF.
Nível de Certeza da Classificação
Valor Total do Contrato (normalizado)
Fuzificação
Base de Dados
Base de Regras
Grau de Cancelamento
Desfuzificação
Figura 4: Estrutura do sistema de infereˆncia fuzzy utilizado para estimar o grau de cancelamento.
Sa˜o definidos para cada varia´vel de entrada treˆs termos lingu´ısticos: baixo, me´dio e alto. Para a varia´vel de sa´ıda sa˜o definidos cinco termos: muito baixo, baixo, me´dio, alto e muito alto. A func¸a˜o de pertineˆncia definida para cada termo lingu´ıstico, seja pertencente a uma varia´vel de entrada ou sa´ıda, obedece a forma triangular. Na˜o se possuem informac¸o˜es claras de como deve ser a distribuic¸a˜o de pertineˆncia para essas varia´veis, por isso, e por sua simplicidade, foi escolhida a forma triangular para todos os termos lingu´ısticos [32]. Todos os elementos de entrada e sa´ıda do SIF sa˜o normalizados para um valor entre 0 e 1. Como o n´ıvel
de certeza ja´ esta´ compreendido entre 0 e 1, apenas o valor total do contrato precisou ser normalizado. O valor total normalizado e´ igual a raza˜o entre o valor de um determinado contrato e o maior valor encontrado presente na base de dados.
A base contendo as regras para infereˆncia e´ definida de acordo com o conhecimento do gestor do plano de sau´de. Foi pedido ao gestor que indicasse o grau de cancelamento mais adequado (muito baixo, baixo, me´dio, alto e muito alto) para cada combinac¸a˜o poss´ıvel entre as varia´veis de entrada, n´ıvel de certeza e valor total. Como existem treˆs termos lingu´ısticos para cada uma das varia´veis de entrada, a base de regras contempla nove regras. Essas regras, definidas pelo gestor, sa˜o as seguintes:
0.xx NC e´ BAIXO e VT e´ BAIXO, enta˜o GC e´ MUITO BAIXO;
0.xx NC e´ BAIXO e VT e´ ME´ DIO, enta˜o GC e´ BAIXO;
0.xx NC e´ BAIXO e VT e´ ALTO, enta˜o GC e´ ME´ DIO;
0.xx NC e´ ME´ DIO e VT e´ BAIXO, enta˜o GC e´ ME´ DIO;
0.xx NC e´ ME´ DIO e VT e´ ME´ DIO, enta˜o GC e´ ME´ DIO;
0.xx NC e´ ME´ DIO e VT e´ ALTO, enta˜o GC e´ ALTO;
0.xx NC e´ ALTO e VT e´ BAIXO, enta˜o GC e´ ALTO;
0.xx NC e´ ALTO e VT e´ ME´ DIO, enta˜o GC e´ MUITO ALTO;
0.xx NC e´ ALTO e VT e´ ALTO, enta˜o GC e´ MUITO ALTO.
2.4.2 Ordenac¸a˜o de Contratos
Nessa etapa, os contratos rotulados como “cancelado” sa˜o ordenados de acordo com o grau de cancelamento estimado pela etapa Determinac¸a˜o do Grau de Cancelamento. A ordenac¸a˜o e´ realizada do maior para o menor GC, permitindo a priorizac¸a˜o dos contratos de acordo com a sua criticidade.
Apesar de ser uma etapa simples, a etapa de Ordenac¸a˜o de Contratos realiza um papel importante na entrega de informac¸a˜o a` gesta˜o, pois se houvesse apenas a estimac¸a˜o do grau de cancelamento o gestor ainda ficaria encarregado de organizar os contratos de acordo com a sua gravidade. Outro fator importante e´ que ha´ um desacoplamento entre as etapas da fase de Priorizac¸a˜o de Contratos, o que permite, mais facilmente, a adic¸a˜o de outras informac¸o˜es para realizar a priorizac¸a˜o. Essas informac¸o˜es adicionais poderiam representar, por exemplo, a quantidade ma´xima de contratos a serem selecionados depois da ordenac¸a˜o.
3. RESULTADOS E DISCUSSO˜ ES
Nessa sec¸a˜o sa˜o demonstrados os resultados obtidos com a aplicac¸a˜o pra´tica da abordagem proposta. Para a execuc¸a˜o dos algoritmos relacionados ao aprendizado de ma´quina, e´ utilizada a ferramenta WEKA (do ingleˆs Waikato Environment for Kno- wledge Analysis). Essa ferramenta e´ largamente aceita e utilizada na academia e na indu´stria, como um instrumento de refereˆncia no processo para descoberta de conhecimento [39]. Outro dois fatores contribu´ıram fortemente para essa escolha: facilidade de realizar alterac¸o˜es na execuc¸a˜o e parametrizac¸a˜o dos algoritmos; flexibilidade oferecida para se executar os algoritmos e manipular os resultados de forma separada da interface gra´fica original.
Todo o co´digo necessa´rio para importac¸a˜o da base de dados, execuc¸a˜o dos algoritmos, compilac¸a˜o dos resultados e gerac¸a˜o de dados para ana´lise e´ desenvolvido na linguagem de programac¸a˜o JAVA, devido a` compatibilidade com a ferramenta WEKA. Adicionalmente e´ utilizado o Eclipse como plataforma de desenvolvimento e o reposito´rio Gitlab para o controle de versa˜o dos elementos produzidos.
3.1 Fase de Pre´-Processamento
Antes de iniciar a fase de Pre´-Processamento, a base de dados apresenta um total de 82.222 tuplas que representam contratos; todas essas tuplas sa˜o entradas para a etapa Selec¸a˜o de Contratos. A Figura 5 mostra a reduc¸a˜o na quantidade de contratos realizada nessa etapa, de acordo com cada restric¸a˜o descrita na Sec¸a˜o 2. Ao final, a quantidade de contratos e´ limitada a 9.814 elementos.
Apo´s a etapa Limitac¸a˜o de Histo´rico, sa˜o removidos dos contratos os atributos que podem prejudicar a classificac¸a˜o. Cada contrato pode ser visto como uma longa tupla de colunas, totalizando 230 atributos. A Figura 6 mostra a reduc¸a˜o na quantidade de atributos apo´s a remoc¸a˜o dos cinco grupos estabelecidos pela etapa Limpeza de Dados.
Os contratos, apo´s a limpeza de dados, tiveram 211 atributos removidos, restando para as etapas posteriores um total de 19 atributos. Nota-se que a maior parte dos atributos retirados pertence ao grupo de atributos irrelevantes, devido principalmente a`s colunas que representam chaves estrangeiras e valores sem representac¸a˜o para o contexto do cancelamento de contratos. O segundo grupo que obteve mais reduc¸a˜o de elementos foi o de atributos preenchidos com valor padra˜o. Deve-se isso ao longo tempo de funcionamento do sistema, desde 2005, o que acarretou uma se´rie de mudanc¸as estruturais no banco de dados, tornando obsoletas diversas tabelas e colunas. Os atributos restantes sa˜o os seguintes:
90.000
9.814
9.946
35.584
41.560
82.222
80.000
Quantidade de Contratos
70.000
60.000
50.000
40.000
30.000
20.000
10.000
0
Todos os contratos
Apenas contratos individuais Remoção contratos de funcionário
Apenas contratos titulares Adesão entre 01/2013 e 12/2014
Figura 5: Reduc¸a˜o na quantidade de contratos efetuada pela etapa Selec¸a˜o de Contratos.
250
19
60
136
155
206
230
200
Quantidade de Atributos
150
100
50
0
Todos os atributos
Sem preenchidos com valor padrão Sem irrelevantes
Sem poluídos Sem duplicados Sem éticos/legais
Figura 6: Reduc¸a˜o na quantidade de atributos efetuada pela etapa Limpeza de Dados.
1. “beneficiario”: [nominal] representa se o titular do contrato e´ um beneficia´rio do plano de sau´de. Pode assumir os valores: “SIM” e “NAO”;
2. “desconto”: [nume´rico] representa um poss´ıvel desconto dado ao contrato;
3. “diabase”: [nume´rico] representa qual o dia do meˆs foi escolhido pelo titular para realizar o pagamento da mensalidade;
4. “estadocivil”: [nominal] representa qual o estado civil do titular do contrato. Pode assumir os valores: “VIUVO”, “SOL- TEIRO”, “CASADO”, “SEPARADO” e “OUTRO”;
5. “faixapagamento”: [nominal] representa em qual faixa de pagamento se encaixa o contrato. Uma faixa de pagamento representa um valor de refereˆncia que deve pago por um beneficia´rio de acordo com uma faixa de idade. Pode assumir os valores: “0”, “1”, “2” e “3”;
6. “iddescontocontrato”: [nominal] representa qual tipo de desconto esta´ associado ao contrato. Pode assumir os valores: “1”, “2”, “3”, “4”, “5”, “6” e “7”;
7. “idempresaterceirizada”: [nominal] representa qual setor interno foi responsa´vel pelo contrato. Pode assumir os valores: “1”, “2”, “3”, “4”, “5”, “6”, “7”, “8” e “9”;
8. “idproduto”: [nominal] representa qual o conjunto de coberturas esta´ associado ao contrato. Pode assumir os valores: “1”, “25” e “26”;
9. “quantpagamentosinsuficienciafundos”: [nume´rico] representa a quantidade de tentativas de pagamento onde na˜o foi poss´ıvel efetivar a transac¸a˜o, ou seja, o pagamento da mensalidade na˜o foi efetivado por algum motivo, como problemas no carta˜o de cre´dito e cheque sem fundos.
10. “seguradoodonto”: [nominal] representa se o titular e´ um beneficia´rio da parte odontolo´gica do plano de sau´de. Pode assumir os valores: “SIM” e “NAO”;
11. “servidorpublico”: [nominal] representa se o titular e´ um servidor pu´blico. Pode assumir os valores: “SIM” e “NAO”;
12. “sexo”: [nominal] representa o sexo do titular. Pode assumir os valores: “Mulher” e “Homem”;
13. “shift”: [nominal] representa se ja´ foram realizados acordos financeiros (reajustes para diminuir o valor da mensalidade) entre o titular do contrato e o plano de sau´de. Pode assumir os valores: “SIM” e “NAO”;
14. “tipopagamento”: [nominal] representa qual o tipo de pagamento padra˜o do contrato. Pode assumir os valores: “CAR- TAO”, “BOLETO”, “CONTA CORRENTE” e “FOLHA DE PAGAMENTO”;
15. “valor”: [nume´rico] representa o valor referente apenas ao titular do contrato, na˜o estando inclusos os valores de poss´ıveis dependentes;
16. “valoradicional”: [nume´rico] representa um poss´ıvel valor extra cobrado no contrato;
17. “valororiginal”: [nume´rico] representa o valor inicialmente combinado para o contrato;
18. “valortotalcontrato”: [nume´rico] representa o valor total do contrato, incluindo o valor do titular e dos dependentes;
19. “vencimentonodiabase”: [nominal] representa se o vencimento do contrato ocorre no dia escolhido para o pagamento da mensalidade. Pode assumir os valores: “SIM” e “NAO”.
Apo´s a etapa Limpeza de Dados, 10 novos atributos foram adicionados ao contrato na etapa Construc¸a˜o de Atributos. Os elementos adicionados sa˜o os seguintes:
1. “idade”: [nume´xxxx] representa a idade do titular. Essa idade e´ calculada a partir do atributo que representa a data de nascimento do titular. Vale ressaltar que a data de nascimento na˜o faz parte dos atributos selecionados;
2. “qtd atendimentos”: [nume´rico] representa a quantidade de atendimentos realizados pelo titular ou pelos dependentes;
3. “qtd dependentes”: [nume´rico] representa a quantidade de dependentes do contrato;
4. “qtd ocorrencias”: [nume´rico] representa a quantidade de contatos telefoˆnicos realizados entre o titular, ou seus de- pendentes, com atendentes da OPS. Esses contatos podem significar du´vidas, sugesto˜es ou reclamac¸o˜es provenientes dos beneficia´rios envolvidos.
5. “tem atendimentos”: [nominal] representa se a “qtd atendimento” e´ maior do que zero. Pode assumir os valores: “SIM” e “NAO”;
6. “tem dependentes”: [nominal] representa se a “qtd dependentes” e´ maior do que zero. Pode assumir os valores: “SIM” e “NAO”;
7. “tem ocorrencias”: [nominal] representa se a “qtd ocorrencias” e´ maior do que zero. Pode assumir os valores: “SIM” e “NAO”;
8. “tipo diabase”: [nominal] representa qual per´ıodo do meˆs foi escolhido pelo titular para realizar o pagamento da mensa- lidade. Pode assumir os valores: “INICIO MES”, “MEIO MES” e “FIM MES”;
9. “ultima situacao”: [nominal] representa u´ltima situac¸a˜o do contrato antes do cancelamento. Pode assumir os valores: “Cadastrado”, “Suspenso” e “Ativo”;
10. “ultimo atendimento dias”: [nume´rico] representa a quantidade de dias corridos entre a data do u´ltimo atendimento realizado e a data limite do contrato (6 meses apo´s a data de adesa˜o).
A quantidade de atributos apo´s as etapas Limpeza de Dados e Construc¸a˜o de Atributos totaliza 29 atributos. Desses atributos, 4 foram removidos na etapa Selec¸a˜o de Atributos por possu´ırem valor de raza˜o de ganho igual a zero, sendo eles: “idade”, “valoradicional”, “diabase‘” e “desconto”.
Apo´s a consolidac¸a˜o dos atributos que devem representar os contratos, realizada nas etapas anteriores, e´ poss´ıvel executar a etapa Balanceamento de Contratos e comparar as te´cnicas de balanceamento de classes. A partir desse ponto da abordagem, a base de dados e´ dividida em 4 grupos de contratos, representando 4 semestres entre 2013 e 2014. Os grupos sa˜o os seguintes:
• “2013 1”: Contratos cuja data de adesa˜o esta´ situada no primeiro semestre de 2013;
• “2013 2”: Contratos cuja data de adesa˜o esta´ situada no segundo semestre de 2013;
• “2014 1”: Contratos cuja data de adesa˜o esta´ situada no primeiro semestre de 2014;
• “2014 2”: Contratos cuja data de adesa˜o esta´ situada no segundo semestre de 2014.
Para realizar a comparac¸a˜o das te´cnicas de balanceamento, optou-se por utilizar o algoritmo C4.5 como classificador. Sa˜o executados dois experimentos, Experimento A1 e Experimento B1. Os detalhes de qual base de dados foi utilizada para trei- namento e teste sa˜o mostrados na Tabela 1. Os resultados obtidos pelos Experimento A e Experimento B sa˜o representados na Figura 7 e Figura 8, respectivamente.
Tabela 1: Paraˆmetros utilizados nos experimentos da etapa Balanceamento de Classes.
Experimento Base de Treinamento Base de Teste A1 “2013 1” “2013 2”
B1 “2014 1” “2014 2”
R:31.59%
P:44.93%
R:35.48%
P:44.67%
R:67.20%
P:41.42%
R:62.63%
P:34.80%
R:84.81%
P:37.18%
50%
45%
40%
35%
30%
Precisão
25%
20%
15%
10%
5%
0%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90%
Recall
Sem Balanceamento Undersampling Oversampling SMOTE SMOTE+Under
Figura 7: Resultados obtidos pelo Experimento A1.
R:07.48%
P:42.86%
R:72.02%
P:38.69%
R:22.71%
P:35.04%
R:59.56%
P:40.41%
R:76.18%
P:35.21%
50%
45%
40%
35%
Precisão
30%
25%
20%
15%
10%
5%
0%
0% 10% 20% 30% 40% 50% 60% 70% 80%
Recall
Sem Balanceamento Undersampling Oversampling SMOTE SMOTE+Under
Figura 8: Resultados obtidos pelo Experimento B1.
E´ poss´ıvel verificar que, em ambos os experimentos, a te´cnica de undersampling aleato´rio obteve as maiores taxas de recall, ou seja, ao utilizar essa te´cnica para o balanceamento de classes o algoritmo classificou, corretamente, o maior nu´mero de
contratos que deveriam ser rotulados como “cancelado”. Pore´m, a mesma te´cnica de undersampling obteve as menores taxas de precisa˜o, cerca de 36%, significando que mais de 60% dos contratos classificados como “cancelado” pertencem, na verdade, a classe “na˜o cancelado”.
A te´cnica oversampling aleato´rio apresenta resultados bem pro´ximos da te´cnica undersampling, mas nota-se que ha´ um reduc¸a˜o na taxa de recall e um aumento na taxa de precisa˜o. Isso significa que, ao utilizar o oversampling, o classificador “erra” menos ao rotular contratos como “cancelado”; pore´m, isso e´ obtido ao custo de classificar uma quantidade menor dos contratos.
Nota-se que quando na˜o ha´ a utilizac¸a˜o de te´cnicas de balanceamento de classes, obteˆm-se os piores resultados para a me´trica recall. Dessa forma, a utilizac¸a˜o de qualquer das estrate´gias listadas eleva a quantidade de contratos classificados que deveriam ter sido rotulados como “cancelado”. Por se apresentarem como um conjunto de soluc¸o˜es na˜o-dominadas, no qual uma me´trica na˜o sobrepuja outra, a comparac¸a˜o realizada permite a escolha da te´cnica mais adequada a`s necessidades da gesta˜o. A ana´lise das me´tricas de precisa˜o e recall esta´ diretamente relacionada a`s restric¸o˜es impostas ao gestor do plano de sau´de. Por exemplo, caso a pol´ıtica da empresa para evitar a perda do contrato “cancelado” seja oferecer descontos para o titular, dois poss´ıveis cena´rios sa˜o os seguintes:
• Cena´rio 1. A empresa passa por uma o´tima fase financeira e pode ofertar uma grande quantidade de descontos;
• Cena´rio 2. A empresa esta´ em crise, reduzindo despesas, e so´ pode oferecer uma pequena quantidade de descontos.
No Cena´rio 1, como ha´ um boa disponibilidade de recursos, o ideal e´ alcanc¸ar o maior nu´mero poss´ıvel de contratos que tem tendeˆncia a serem cancelados no futuro, ou seja, o objetivo nesse caso e´ que a classificac¸a˜o obtenha a maior taxa de recall poss´ıvel, mesmo que a precisa˜o seja baixa e boa parte dos contratos classificados sejam, de fato, falsos positivos. Pore´m, no Cena´rio 2, a situac¸a˜o da empresa e´ mais delicada, e oferecer descontos para contratos que na˜o ira˜o cancelar, falso positivos, representaria um investimento talvez desnecessa´rio. O Cena´rio 2 e´ um exemplo de cena´rio no qual o objetivo do classificador e´ aumentar a precisa˜o, pois dessa forma, mesmo que poucos contratos sejam retornados, havera´ uma certeza maior de que o ro´tulo “cancelado” esta´ correto.
3.2 Fase de Minerac¸a˜o de Dados
Para a etapa de Reconhecimento de Contratos, foram definidos 3 experimentos: Experimento A2, Experimento B2 e Expe- rimento C2. Para essa definic¸a˜o, foi utilizado um formato no qual um semestre serviu como base de treinamento e o semestre seguinte serviu como base de testes. Como a base de dados foi dividida em quatro grupos (“2013 0”, “0000 0”, “0000 1”, “2014 2”), cada grupo representando um semestre, gerou-se os treˆs experimentos detalhados na Tabela 2. Para cada me´trica definida, a´rea sob a curva ROC, recall e taxa de falso positivos (TFP), foi gerado um intervalo de confianc¸a de 95% baseado na distribuic¸a˜o t-Student [20], pois os dados seguem, com 95% de confianc¸a, a distribuic¸a˜o normal de acordo com o teste de Shapiro-Wilk [37]. Para cada experimento, as Tabelas 3, 4 e 5 mostram os intervalos de confianc¸a para as me´tricas escolhidas. As Figuras 9, 10 e 11 representam a curva ROC do melhor algoritmo de cada paradigma de aprendizado3 utilizado.
Tabela 2: Paraˆmetros utilizados nos experimentos da etapa Reconhecimento de Contratos.
Experimento Base de Treinamento Base de Teste A2 “2013 1” “2013 2”
B2 “2013 2” “2014 1”
C2 “2014 1” “2014 2”
Tabela 3:Resultados comparativos do Experimento A2 para as m e´tricas: a´rea sob curva ROC, recall e TFP.
Algoritmo | ROC | Recall | TFP |
Bayes Net Naive Bayes | 0.721 ∼ 0.821 0.738 ∼ 0.742 | 60.0% ∼ 61.3% 51.9% ∼ 52.6% | 25.2% ∼ 26.7% 22.7% ∼ 23.0% |
XXX (Xx0) XXX (Xx0) XXX (Xx0) K* | 0.653 ∼ 0.658 0.696 ∼ 0.699 0.708 ∼ 0.712 0.757 ∼ 0.760 | 64.7% ∼ 65.4% 64.5% ∼ 65.0% 64.8% ∼ 65.4% 65.4% ∼ 65.9% | 34.0% ∼ 34.5% 34.7% ∼ 35.2% 33.7% ∼ 34.3% 28.4% ∼ 29.1% |
MLP SVM | 0.719 ∼ 0.726 0.695 ∼ 0.699 | 61.0% ∼ 62.3% 65.8% ∼ 67.2% | 29.0% ∼ 30.6% 26.8% ∼ 27.3% |
C4.5 RandomTree CART | 0.767 ∼ 0.779 0.702 ∼ 0.715 0.792 ∼ 0.801 | 70.5% ∼ 71.6% 67.0% ∼ 68.6% 73.3% ∼ 74.3% | 24.9% ∼ 25.9% 29.1% ∼ 30.5% 25.6% ∼ 27.4% |
3Baseado em Exemplos, Bayesiano, Baseado em A´ rvore de Decisa˜o e Conexionista
1
0,9
0,8
0,7
Recall
0,6
0,5
0,4
0,3
0,2
0,1
0
0 0,2 0,4 0,6 0,8 1
Taxa de Falso Positivos
BayesNet
MLP
K* CART
50%-50%
Figura 9:Gr a´fico da curva ROC dos melhores algoritmos de cada paradigma de aprendizado para o Experimento A2.
Tabela 4:Resultados comparativos do Experimento B2 para as m e´tricas: a´rea sob curva ROC, recall e TFP.
Algoritmo | ROC | Recall | TFP |
Bayes Net Naive Bayes | 0.659 ∼ 0.671 0.736 ∼ 0.739 | 73.5% ∼ 74.4% 63.8% ∼ 64.5% | 50.7% ∼ 52.0% 30.7% ∼ 32.2% |
XXX (Xx0) XXX (Xx0) XXX (Xx0) K* | 0.606 ∼ 0.616 0.666 ∼ 0.675 0.693 ∼ 0.699 0.662 ∼ 0.671 | 64.9% ∼ 66.6% 68.5% ∼ 69.6% 69.8% ∼ 70.4% 65.2% ∼ 66.7% | 43.2% ∼ 44.2% 41.5% ∼ 42.9% 40.1% ∼ 41.2% 42.4% ∼ 43.7% |
MLP SVM | 0.696 ∼ 0.717 0.624 ∼ 0.634 | 69.9% ∼ 72.4% 74.9% ∼ 75.9% | 44.3% ∼ 46.8% 48.4% ∼ 50.9% |
C4.5 RandomTree CART | 0.695 ∼ 0.721 0.573 ∼ 0.600 0.600 ∼ 0.611 | 71.4% ∼ 73.3% 66.6% ∼ 69.5% 71.7% ∼ 74.4% | 38.7% ∼ 42.1% 49.4% ∼ 52.5% 49.3% ∼ 51.5% |
Tabela 5:Resultados comparativos do Experimento C2 para as m e´tricas: a´rea sob curva ROC, recall e TFP.
Algoritmo | ROC | Recall | TFP |
Bayes Net Naive Bayes | 0.663 ∼ 0.678 0.685 ∼ 0.688 | 71.4% ∼ 72.1% 71.4% ∼ 71.8% | 50.8% ∼ 52.5% 46.8% ∼ 47.7% |
XXX (Xx0) XXX (Xx0) XXX (Xx0) K* | 0.589 ∼ 0.597 0.623 ∼ 0.630 0.637 ∼ 0.645 0.622 ∼ 0.626 | 64.5% ∼ 66.3% 64.2% ∼ 66.2% 67.0% ∼ 69.0% 65.6% ∼ 67.0% | 46.1% ∼ 47.1% 45.0% ∼ 46.8% 44.2% ∼ 46.2% 46.2% ∼ 47.1% |
MLP SVM | 0.679 ∼ 0.692 0.654 ∼ 0.660 | 67.1% ∼ 70.5% 73.1% ∼ 73.8% | 42.3% ∼ 45.8% 41.3% ∼ 42.7% |
C4.5 RandomTree CART | 0.677 ∼ 0.687 0.613 ∼ 0.635 0.654 ∼ 0.674 | 71.5% ∼ 73.7% 64.8% ∼ 70.2% 72.2% ∼ 74.3% | 41.9% ∼ 43.2% 44.1% ∼ 47.6% 45.7% ∼ 47.6% |
Nota-se, pelas me´tricas avaliadas que, na maioria dos experimentos, os paradigmas de aprendizado bayesiano e baseado em a´rvores de decisa˜o obtiveram os maiores valores para a a´rea sob a curva ROC e os menores valores para a taxa de falso positivos. Apenas no Experimento C2, o paradigma conexionista obte´m melhores resultados, principalmente apresentando menores valores para TFP. E por fim, aparece o paradigma baseado em exemplos, cujos resultados para os algoritmos utilizados na˜o tiveram destaque quando comparados aos demais paradigmas. Ressalta-se que os paraˆmetros de configurac¸a˜o, para cada algoritmo utilizado, foram os padro˜es estabelecidos pela ferramenta WEKA.
Ao se analisar a curva ROC do melhor algoritmo de cada paradigma, observa-se uma superioridade do C4.5 e CART para taxas de falso positivos inferiores a algo em torno de 40%, como pode ser notado na Figura 9 e Figura 10, implicando em um maior valor para a me´trica de recall quando o valor de TFP e´ baixo. Isso significa que esses algoritmos sa˜o mais indicados caso se queira entregar informac¸o˜es mais confia´veis ao gestor, mesmo que isso custe ignorar informac¸o˜es de outros contratos que poderiam ser analisados. Por esse motivo, escolheu-se o C4.5 como te´cnica para realizar a classificac¸a˜o dos contratos ativos. Vale ressaltar que utilizar mais de um algoritmo e combinar diversos classificadores e´ uma estrate´gia com possibilidade de obter melhores resultados para as me´tricas definidas, mas que na˜o foi realizada neste trabalho. Um exemplo ba´sico dessa combinac¸a˜o poderia ser uma votac¸a˜o por me´dia dos resultados encontrados pelos classificadores mais promissores, como o C4.5, CART e NaiveBayes.
1
0,9
0,8
0,7
Recall
0,6
0,5
0,4
0,3
0,2
0,1
0
0 0,2 0,4 0,6 0,8 1
Taxa de Falso Positivos
NaiveBayes MLP
KNN (N=5) C4.5
50%-50%
Figura 10:Gr a´fico da curva ROC dos melhores algoritmos de cada paradigma de aprendizado para o Experimento B2.
1
0,9
0,8
0,7
Recall
0,6
0,5
0,4
0,3
0,2
0,1
0
0 0,2 0,4 0,6 0,8
Taxa de Falso Positivos
NaiveBayes MLP
KNN (N=5) C4.5
50%-50%
Figura 11:Gr a´fico da curva ROC dos melhores algoritmos de cada paradigma de aprendizado para o Experimento C2.
Outro ponto que pode ajudar a entender a dinaˆmica do plano de sau´de e´ uma melhor definic¸a˜o do formato dos experimentos. Para o formato escolhido, as bases de treinamento e de testes foram definidas como semestres exatos, o que pode comprometer os resultados encontrados na classificac¸a˜o. Uma estrate´gia seria utilizar uma definic¸a˜o dinaˆmica dos conjuntos de treinamento e teste, de forma a descobrir o formato mais adequado ao contexto do cancelamento de contratos. Importante ressaltar que essa definic¸a˜o dinaˆmica pode ser ainda mais eficaz se tambe´m houver mudanc¸as na etapa Limitac¸a˜o de Histo´rico, pois e´ de acordo com o per´ıodo escolhido por essa etapa que se define o tempo necessa´rio para avaliar o histo´rico de um contrato.
A partir da definic¸a˜o do C4.5 como classificador padra˜o, da etapa Reconhecimento de Contratos, e´ poss´ıvel executar a classificac¸a˜o e encaminhar os contratos rotulados como “cancelado” para a fase de Priorizac¸a˜o de Contratos. Pore´m, antes de um maior detalhamento dessa fase sa˜o apresentados os resultados obtidos pela etapa Identificac¸a˜o de Caracter´ısticas, por meio da ana´lise das a´rvores de decisa˜o geradas pelos algoritmos C4.5 e CART. Para criac¸a˜o do modelo desses classificadores, e´ utilizada a base “2013 1” como base de treinamento e, para a avaliac¸a˜o das taxas de acerto, e´ utilizada a base “2013 2” como base de testes. Os 5 ramos com as melhores taxas de acerto, foram:
• → → →
Ramo 1: “Valor Total < RS 62” “Qtd. Tratamentos > 1” “U´ ltimo Tratamento < 75 dias” “Na˜o Cancelado (100%)”.
O Ramo 1 mostra, com uma taxa de acerto igual a 100%, que o titular na˜o cancela o contrato quando o valor total e´ menor do que R$ 62,00, a quantidade de tratamentos e´ maior do que 1 e o u´ltimo tratamento realizado foi ate´ 75 dias antes da data limite do contrato. Com uma taxa de acerto bastante expressiva, esse ramo evidencia que, quando o titular paga um contrato relativamente barato e usou recentemente a cobertura do plano, ele parece na˜o ter interesse em cancelar o seu v´ınculo. Isso poderia guiar o gestor a criar pol´ıticas de incentivo ao uso do plano de sau´de, principalmente para contratos mais baratos, com o objetivo de aproximar o titular e fortalecer a ideia de que o investimento em sau´de e´ importante.
• → → →
Ramo 2: “Tem Tratamento = SIM” “Qtd. Ocorreˆncias > 7” “U´ ltimo Tratamento > 94 dias” “Cancelado (87,5%)”.
O Ramo 2 mostra, com um taxa de acerto igual a 87,5%, que o titular cancela o contrato quando ja´ fez algum tratamento, teve registrado mais de 7 ocorreˆncias e o u´ltimo tratamento foi realizado pelo menos 94 dias antes da data limite do contrato. Esse ramo apresenta um informac¸a˜o interessante, pois o titular do plano tende a cancelar seu contrato quando ha´ um nu´mero de ocorreˆncias relativamente alto e o u´ltimo tratamento realizado na˜o e´ recente. Essa quantidade de ligac¸o˜es pode representar du´vidas e/ou reclamac¸o˜es que o titular ou dependentes esta˜o tendo sobre o plano de sau´de. Uma pol´ıtica
para contratos que se encaixem no Ramo 2 poderia ser a definic¸a˜o de contatos de aproximac¸a˜o com os beneficia´rios do contrato, visando descobrir se ha´ du´vidas, reclamac¸o˜es e/ou sugesto˜es a respeito do atendimento oferecido pela empresa.
• Ramo 3: “Tem Tratamento = SIM” → “Qtd. Tratamentos > 7” → “U´ ltimo Tratamento <= 94 dias” → “Pagamento <=
Boleto ou Conta Corrente” → “Na˜o Cancelado (94,4%)”.
O Ramo 3 mostra, com uma taxa de acerto igual a 94,4%, que o titular na˜o cancela o contrato quando ja´ fez algum tratamento, teve registrado mais de 7 ocorreˆncias, o u´ltimo tratamento realizado foi no ma´ximo 94 dias antes da data limite do contrato e o tipo de pagamento escolhido foi boleto ou conta corrente. Esse ramo deixa mais evidente que a utilizac¸a˜o recente do plano de sau´de e´ importante para que o titular mantenha seu contrato ativo, pois percebe-se, ao se comparar com o Ramo 2, que a diferenc¸a ba´sica entre os dois ramos e´ justamente o tempo em que foi realizado o u´ltimo tratamento. O Ramo 3 reforc¸a as potenciais pol´ıticas discutidas no Ramo 1 e no Ramo 2.
• Ramo 4: “Tem Tratamento = SIM” → “Qtd. Ocorreˆncias <= 7” → “Na˜o Cancelado (93,8%)”.
O Ramo 4 mostra, com uma taxa de acerto igual a 93,8%, que o titular na˜o cancela o contrato quando ja´ fez algum tratamento e teve registrado menos de 7 ocorreˆncias. Dessa baixa quantidade de ocorreˆncias, pode-se entender que o titular do plano e seus dependentes parecem estar satisfeitos com o plano de sau´de, pois ja´ foram atendidos pelo menos uma vez e na˜o entram muito em contato para esclarecer du´vidas e realizar reclamac¸o˜es por telefone. Nesse caso, o gestor poderia definir pol´ıticas visando ratificar essa tendeˆncia para o na˜o cancelamento do contrato, como ligac¸o˜es perio´dicas para os integrantes do contrato.
• Ramo 5: “U´ ltima Situac¸a˜o = SUSPENSO” → “Cancelado (98,8%)”.
O Ramo 5 mostra, com uma taxa de acerto igual a 98,8%, que o titular cancela quando a u´ltima situac¸a˜o do contrato e´ “suspenso”. Esse ramo poderia representar uma informac¸a˜o nova para a gesta˜o, mas na verdade representa uma informac¸a˜o valiosa para a abordagem proposta. Ao discutir o Ramo 5 com um especialista do plano do sau´de, notou-se que a situac¸a˜o “suspenso” e´ automaticamente atribu´ıda a um contrato que passa uma determinada quantidade de tempo sem realizar o pagamento das mensalidades, e tambe´m, automaticamente, esse contrato passa a ser considerado cancelado caso a situac¸a˜o permanec¸a. Dessa forma, a gesta˜o ja´ percebe um contrato suspenso por falta de pagamento como um contrato cancelado. Conclui-se, enta˜o, que os contratos suspensos na˜o devem ser selecionados na etapa Selec¸a˜o de Contratos da fase de Pre´- Processamento, pois a adic¸a˜o desses contratos influencia em resultados melhores para a classificac¸a˜o realizada na etapa Reconhecimento de Contratos, visto que “suspenso” e “cancelado” podem ser considerados sinoˆnimos na base de dados analisada.
A Figura 12 representa o Experimento A3, no qual sa˜o comparadas as curvas ROC do algoritmo C4.5 aplicado em duas situac¸o˜es: com contratos suspensos e sem contratos suspensos. A base “2013 1” foi utilizada para treinamento e a base “2013 2” como teste. E´ poss´ıvel perceber que ha´ um diferenc¸a significativa na parte inicial das curva ROC, pois para um menor taxa de falso positivos, a inclusa˜o dos contratos suspensos favorece a classificac¸a˜o, pois, como ja´ discutido, o n´ıvel de certeza e´ alto quando se classifica um contrato suspenso com o ro´tulo “cancelado”.
1
0,9
0,8
0,7
0,6
C4.5
Recall
0,5
0,4
0,3
C4.5
(Sem suspensos)
0,2
0,1
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1
Taxa de Falso Positivos
Figura 12: Curvas ROC obtidas no Experimento A3.
3.3 Fase de Priorizac¸a˜o de Contratos
Na fase de Priorizac¸a˜o de Contratos, sa˜o utilizados os contratos classificados como “cancelado” provenientes da etapa Re- conhecimento de Contratos. O n´ıvel de certeza dessa classificac¸a˜o e o valor total do contrato sa˜o entradas para o sistema de
infereˆncia fuzzy utilizado na etapa Determinac¸a˜o do Grau de Cancelamento. Apo´s esse processo, a etapa Ordenac¸a˜o de Contratos organiza os contratos de acordo com o grau de cancelamento estimado, visando ordenar do contrato mais cr´ıtico (maior grau de cancelamento) ao contrato menos cr´ıtico (menor grau de cancelamento).
A Tabela 6 mostra o n´ıvel de certeza, o valor total normalizado4, o valor total em reais e o grau de cancelamento dos 5 (cinco) contratos mais cr´ıticos processados pela fase de Priorizac¸a˜o de Contratos. Esses contratos fazem parte da base “2013 2”, utilizada como base de testes no Experimento A2. Pode-se notar, pelos resultados, que o n´ıvel de certeza influencia mais no grau de cancelamento do que o valor total do contrato; isso e´ um reflexo da base de regras definida pelo especialista e exposta na Sec¸a˜o 2.4.
Tabela 6: Os 5 contratos mais cr´ıticos resultantes da fase de Priorizac¸a˜o de Contratos.
# | N´ıvel de Certeza | Valor Total (norm.) | Valor Total | Grau de Cancelamento |
1 | 1,0 (100%) | 1,0 | R$ 617,72 | 0,9163 |
2 | 1,0 (100%) | 0,5120 | R$ 269,96 | 0.9163 |
3 | 1,0 (100%) | 0,6115 | R$ 322,44 | 0,9130 |
4 | 1,0 (100%) | 0,7992 | R$ 421,43 | 0,9068 |
5 | 1,0 (100%) | 0,7217 | R$ 380,57 | 0,9050 |
Ressalta-se que as definic¸o˜es adotadas para o sistema de infereˆncia ainda podem ser bastante melhoradas. E´ poss´ıvel perceber que a ordem do 2o e do 3o contratos mais cr´ıticos parece estar invertida, pois apesar de ambos possu´ırem o mesmo n´ıvel de certeza, o 3o contrato representa um valor total superior ao 2o. Isso deve-se ao fato de a normalizac¸a˜o colocar o 2o contrato com uma alta pertineˆncia para o termo lingu´ıstico “me´dio”, o que influencia diretamente na Regra 85 da base de regras e induz a um valor alto para o grau de cancelamento.
4. CONCLUSA˜ O
Neste trabalho foi proposta uma abordagem para caracterizar o cancelamento eletivo de contratos em planos de sau´de pri- vados, visando distinguir aspectos, padro˜es e propriedades que possam moldar, baseado em eventos passados, o perfil de um contrato cancelado. A definic¸a˜o dessa abordagem foi realizada por meio de etapas, que por sua vez pertencem a`s seguintes fases: Pre´-Processamento, Minerac¸a˜o de Dados e Priorizac¸a˜o de Contratos.
Na fase de Pre´-Processamento, foi reduzida a quantidade de contratos da base de dados cedida em mais de 88%, o que permitiu a ana´lise de uma conjunto mais espec´ıfico de elementos. Ale´m disso, houve uma reduc¸a˜o ainda maior na dimensionalidade do problema, pois menos de 10% dos 230 atributos dispon´ıveis foram selecionados. Por se tratar de um conjunto de dados no qual ha´ um desbalanceamento de classes, realizou-se uma ana´lise comparativa entre diferentes te´cnicas de balanceamento, visando entender a influeˆncia da utilizac¸a˜o de cada uma sobre a classificac¸a˜o dos contratos. Confirmou-se o undersampling aleato´rio como uma te´cnica efetiva, pois, nos experimentos realizados, ela obteve os melhores resultados para a me´trica recall. Pore´m, explanou-se por meio de exemplos que, dependendo da situac¸a˜o pol´ıtica/financeira da empresa, o undersampling pode na˜o ser a te´cnica mais indicada, pois te´cnicas com melhores taxas de precisa˜o do que de recall influenciariam em resultados mais apropriados a`s necessidades da gesta˜o.
Na fase de Minerac¸a˜o de Dados, realizou-se uma comparac¸a˜o entre classificadores de diferentes paradigmas de aprendizado, o que permitiu, de forma experimental, definir o algoritmo mais adequado para um melhor funcionamento da abordagem proposta. Apesar do resultado da classificac¸a˜o dos contratos na˜o ter sido elevado, com valores de recall entre 70% e 75%, considera-se um resultado promissor por estar significantemente acima de 50%, resultado esse que poderia ser produto do acaso. A ana´lise das a´rvores de decisa˜o realizada na etapa Identificac¸a˜o de Caracter´ısticas mostrou aspectos interessantes do perfil de um contrato cancelado. Com taxas de acerto acima de 87%, notou-se caracter´ısticas que teˆm influeˆncia direta na rotulac¸a˜o de um contrato como “cancelado” ou “na˜o cancelado”, informac¸a˜o que pode ser utilizada pelo gestor para criar pol´ıticas e ac¸o˜es visando evitar a sa´ıda de beneficia´rios do plano de sau´de ou manter aqueles que ja´ parecem estar satisfeitos.
A fase de Priorizac¸a˜o de Contratos se mostrou como uma fase importante na apreensa˜o do conhecimento ta´cito do gestor sobre a criticidade dos contratos. Por meio da utilizac¸a˜o de um sistema de infereˆncia fuzzy, foi poss´ıvel condensar o conhecimento do especialista em uma base de regras utilizada no processo de estimar um grau de cancelamento para cada contrato classificado. A partir desse grau de cancelamento, foi poss´ıvel na˜o so´ apresentar os contratos rotulados como “cancelado”, mas tambe´m atribu´ı-los uma me´trica de criticidade e organiza´-los de forma a facilitar a priorizac¸a˜o dos contratos com maiores chances de cancelamento.
Conclui-se com este trabalho que a abordagem proposta promoveu resultados promissores para a classificac¸a˜o dos contratos ativos e identificac¸a˜o de caracter´ısticas relevantes, para contratos cancelados e na˜o cancelados, que podem auxiliar o gestor na tomada de decisa˜o, no que diz respeito ao problema do cancelamento eletivo de contratos. Ratifica-se, enta˜o, o uso de te´cnicas de
4O valor total normalizado e´ igual ao valor total de um contrato espec´ıfico pelo maior valor encontrado entre os contratos da base de dados, com o resultado dessa divisa˜o limitado ao valor ma´ximo de 1
5se NC e´ ALTO e VT e´ ME´ DIO, enta˜o GC e´ MUITO ALTO
minerac¸a˜o de dados e descoberta de conhecimento em bancos de dados como estrate´gias aliadas no entendimento de problemas ligados a` sau´de suplementar.
4.1 Limitac¸o˜es
Durante o desenvolvimento, execuc¸a˜o e ana´lise deste trabalho, va´rios fatores foram considerados poss´ıveis limitac¸o˜es para a abordagem proposta. As limitac¸o˜es mais pertinentes sa˜o as seguintes:
•
A limitac¸a˜o de histo´rico dos contratos em 6 meses influencia diretamente na classificac¸a˜o dos contratos. Maiores ou menores per´ıodos podem retratar aspectos diferentes do cancelamento dos contratos. Outro fator cr´ıtico dessa limitac¸a˜o e´ que mesmo quando se sabe que um contrato esta´ cancelado, ha´ a possibilidade de considera´-lo um contrato ativo pela restric¸a˜o de histo´rico imposta;
•
Na˜o foi desenvolvida uma estrate´gia para combinar diferentes algoritmos para realizar a rotulac¸a˜o dos contratos. A unia˜o entre diferentes classificadores pode melhorar o resultado da classificac¸a˜o;
•
Os ramos analisados na etapa Reconhecimento de Caracter´ısticas foram definidos de forma manual, baseando-se na taxa de acerto de cada um. Essa taxa de acerto e´ baseada na frequeˆncia de elementos que foram classificados no ramo, ou seja, um determinado ramo pode ter taxa de acerto de 100% se apenas um elemento for identificado, enquanto outro ramo pode ter 99% de taxa de acerto se 99 elementos forem identificados corretos e apenas um for identificado erroneamente. Outras me´tricas mais completas podem ser utilizadas para identificar a corretude dos ramos, assim como formas automa´ticas para definir os mais importantes;
•
O sistema de infereˆncia fuzzy utiliza apenas duas entradas para a estimac¸a˜o do grau de cancelamento; todavia, outras entradas podem ser importantes na determinac¸a˜o dessa sa´ıda. Os resultados obtidos na˜o representaram ta˜o bem o conceito de criticidade, uma melhor definic¸a˜o da base de regras e do formato das func¸o˜es de pertineˆncia devem ser estudados;
•
Os algoritmos foram utilizados com a parametrizac¸a˜o padra˜o oferecida pela ferramenta WEKA. Uma definic¸a˜o mais sistema´tica desses paraˆmetros pode implicar em melhores resultados para a classificac¸a˜o dos contratos;
•
Por fim, a abordagem proposta esta´ limitada a varia´veis internas da base de dados do plano de sau´de. Fatores como desemprego, inflac¸a˜o, gastos com locomoc¸a˜o, escola para os filhos, d´ıvidas e diversos outros elementos externos podem influenciar o titular do plano a realizar o cancelamento do contrato. Formas de correlacionar indicadores socioeconoˆmicos e atributos internos da base de dados podem garantir uma maior robustez ao modelo de classificac¸a˜o.
4.2 Continuidade da Pesquisa
Baseando-se nas limitac¸o˜es encontradas e em ideias para complementac¸a˜o deste trabalho, as seguintes linhas sa˜o consideradas pontos de continuidade da pesquisa:
•
Melhorar a etapa Limitac¸a˜o de Histo´rico, realizando experimentos para que seja poss´ıvel comparar diversos tamanhos de per´ıodo, na˜o somente 6 meses, e detectar o mais adequado para analisar a base de dados;
•
Adicionar novas te´cnicas a` etapa Limpeza de Dados, como a remoc¸a˜o de atributos nume´ricos a partir de um filtro por variaˆncia. Alguns dos atributos nume´ricos selecionados possuem uma distribuic¸a˜o e dispersa˜o pouco representativas;
•
Utilizar outros tipos de te´cnicas para mitigar o problema do desbalanceamento de classes, como selec¸a˜o unilateral [25] e limpeza de vizinhanc¸a [27];
•
Avaliar a combinac¸a˜o entre os melhores classificadores por meio de estrate´gias de classificac¸a˜o que levem em considerac¸a˜o a execuc¸a˜o de cada algoritmo. Ale´m disso, avaliar tambe´m, uma melhoria na execuc¸a˜o de cada algoritmo de forma individual, utilizando te´cnicas como bagging e boosting [13];
•
Utilizar uma me´trica melhor para a taxa de acerto dos ramos da a´rvore de decisa˜o, como a correc¸a˜o de Laplace [31, 34] para a taxa de acerto baseada apenas na frequeˆncia. Por meio de uma me´trica melhorada, tambe´m se objetiva automaticamente detectar os melhores ramos a serem analisados, levando em considerac¸a˜o, de forma complementar, outros elementos como tamanho do ramo e relac¸a˜o entre ramos que sa˜o semelhantes mas classificam de forma diferente;
• Melhorar o sistema de infereˆncia fuzzy utilizado, desde a definic¸a˜o das entradas a`s definic¸o˜es da func¸o˜es de pertineˆncia;
•
Explorar os paraˆmetros dos algoritmos classificadores visando obter configurac¸o˜es mais adequadas ao conjunto de da- dos dispon´ıvel. Essa explorac¸a˜o sera´ feita de forma automa´tica, utilizando meta-heur´ısticas para realizar o tuning dos paraˆmetros;
•
Investigar uma potencial correlac¸a˜o entre o cancelamento dos contratos e indicadores socioeconoˆmicos brasileiros. O objetivo e´ utilizar informac¸o˜es externas a` base de dados visando melhorar o desempenho geral da fase de Minerac¸a˜o de Dados, principalmente;
•
Adicionar a` abordagem proposta, na fase Minerac¸a˜o de Dados, uma etapa que execute uma regressa˜o para estimar o tempo ate´ o cancelamento dos contratos rotulados como “cancelado”. Essa estimac¸a˜o, ale´m de prover uma informac¸a˜o adicional a` gesta˜o, tambe´m sera´ utilizada na etapa Determinac¸a˜o do Grau de Cancelamento, pois esta´ relacionada a` definic¸a˜o da criticidade de um contrato.
REFEREˆ NCIAS
[1]Ans, 2015. URL xxxx://xxx.xxx.xxx.xx/xxxxxx-xx-xxxxx/xxxxx-x-xxxxxxxxxxx-xx-xxxxx. [2]Xxxxx Xxxxxx. The continuum random tree. i. The Annals of Probability, 19(1):1–28, jan 1991. doi:
10.1214/aop/1176990534.
[3]Xxxxxxxx Xxxxx. A theory of adaptive pattern classifiers. IEEE Transactions on Electronic Computers, EC-16(3):299–307, June 1967. ISSN 0367-7508. doi: 10.1109/PGEC.1967.264666.
[4]Fl a´vio Xxxxxxxx Xxxxxx xx Xxxxxxx, Xxxxxxx Xxxxxx Xxxxxx, and Xxxxx xx Xxxxxxxxxx Xxxxxx Xxxx. An Approach Influenced to Pre-processing for Learning Medical Claim Process. Journal of Health Informatics, 7(1):8–15, 2015.
[5]Xxxxxx Xxxx, Xxxxx Xxxxxxx, Xxxxxxx Xxxxxxx, Xxxxxx Xxxxxxx, and Xxxxx Xxxxxxxx. Comparative performance of private and public healthcare systems in low- and middle-income countries: A systematic review. PLoS Medicine, 9(6):e1001244, jun 2012. doi: 10.1371/journal.pmed.1001244.
[6]L. Xxxxxxx, X. Xxxxxxxx, X. X. Xxxxx, and R. A. Olshen. Classification and Regression Trees. The Wadsworth and Brooks- Cole statistics-probability series. Taylor & Francis, 1984. ISBN 9780412048418.
[7]Xxxxxxx Xxxx, Xxxxx Xxxxxxxxxx, and Xxxxxxx Xxxxx e´-Ro¨hler. Measuring the curse of dimensionality and its ef- fects on particle swarm optimization and differential evolution. Applied Intelligence, 42(3):514–526, nov 2015. doi: 10.1007/s10489-014-0613-2.
[8]Xxx Xxxxx and Xxxxxxx Xxxxxxx. Comparing bayesian network classifiers. In Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence, UAI’99, pages 000–000, Xxx Xxxxxxxxx, XX, XXX, 0000. Morgan Kaufmann Publishers Inc. ISBN 1-55860-614-9.
[9]Xxxxx Xxxxxxxxx and Xxxxx Xxxxxx-Xxxx. jFuzzyLogic: a robust and flexible fuzzy-logic inference system language imple- mentation. Institute of Electrical & Electronics Engineers (IEEE), jun 2012.
[10]Xxxx X. Xxxxxx and Xxxxxxx X. Trigg. K*: An instance-based learner using an entropic distance measure. In International Conference on Machine Learning, pages 108–114, 1995.
[11]Xxxxxxx Xxxxxx and Xxxxxxxx Xxxxxx. Support-vector networks. Mach. Learn., 20(3):273–297, September 1995. ISSN 0885-6125. doi: 10.1023/A:1022627411411.
[12]Xxxxx X. Xxxxxx and Xxxxxxx X. Zeckhauser. Chapter 11 the anatomy of health insurance. In Handbook of Health Economics, pages 563–643. Xxxxxxxx XX, 0000. doi: 10.1016/s1574-0064(00)80170-5.
[13]Xxxxxx X. Dietterich. Ensemble methods in machine learning. In Multiple Classifier Systems, volume 1857 of Lecture Notes in Computer Science, pages 1–15. Springer Xxxxxx Xxxxxxxxxx, 0000. ISBN 978-3-540-67704-8.
[14]Xxx Xxxxxxx. An introduction to ROC analysis. Pattern Recognition Letters, 27(8):861–874, jun 2006.
[15]Xxxxx X. Xxxxxx, Xxxxxxx Xxxxxxxxx-Xxxxxxx, and Xxxxxxxx Xxxxx. Advances in knowledge discovery and data mining. chapter From Data Mining to Knowledge Discovery: An Overview, pages 1–34. American Association for Artificial Intel- ligence, Xxxxx Xxxx, XX, XXX, 0000. ISBN 0-262-56097-6.
[16]Xxxxxx Xxx and J. L. Hodges. Discriminatory analysis. nonparametric discrimination: Consistency properties. International Statistical Review / Revue Internationale de Statistique, 57(3):238, dec 1989. doi: 10.2307/1403797.
[17]M. Xxxxx, X. Fern a´ndez, X. Xxxxxxxxxxx, X. Bustince, and F. Herrera. A review on ensembles for the class imbalance problem: Bagging-, boosting-, and hybrid-based approaches. IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews, 42(4):463–484, July 2012. ISSN 1094-6977. doi: 10.1109/TSMCC.2011.2161285.
[18]V. Garc ´ıa, J.S. Sa´nchez, and R. A. Mollineda. On the effectiveness of preprocessing methods when dealing with different levels of class imbalance. Knowledge-Based Systems, 25(1):13–21, 2012. ISSN 09507051.
[19]T. L. Xxxxxx Xxxxxxxxxxxx and H. a. Caldera. Mining Life Insurance Data for Customer Attrition Analysis. Journal of Industrial and Intelligent Information, 1(1):52–58, 2013.
[20]W. S. Gosset. The Probable error of a mean. Biometrika, 6(1):1–25, mar 1908. doi: 10.1093/biomet/0.0.0.
[21]Xxxxxxxx Xxxx a˜o. Voluntary public health insurance. Public Choice, 162(1-2):135–157, 2014. ISSN 0048-5829. doi: 10.1007/s11127-014-0207-x.
[22]Xxxxxxx Xxxxxxx, Xxxxx Xxxxxx, Xxxx Xxxxxxxxxxx, Xxxxxxxx Xxxxx, Xxxxxx Xxxxx, and Xxxx-Xxxxx Xxxx. Business process intelligence. Computuers in Industry, 53(3):321–343, April 2004. ISSN 0166-3615. doi: 10.1016/j.compind.2003.10.007.
[23]Hongxing He, Xxxxxxx Xxxxx, and Xxx Xxx. Application of genetic algorithm and k-nearest neighbour method in medical fraud detection. In Xxx XxXxx, Xxx Xxx, XxxxxxxX. Xxxxxx, Xxxx-Xxxx Xxx, and Xxxxxxx Xxxxxxxxx, editors, Simulated Evolution and Learning, volume 1585 of Lecture Notes in Computer Science, pages 74–81. Springer Xxxxxx Xxxxxxxxxx, 0000. ISBN 978-3-540-65907-5.
[24]Xxxxxx X. Xxxx and Xxx Xxxxxxx. Estimating continuous distributions in bayesian classifiers. In Proceedings of the Eleventh Conference on Uncertainty in Artificial Intelligence, UAI’95, pages 000–000, Xxx Xxxxxxxxx, XX, XXX, 0000. Morgan Kaufmann Publishers Inc. ISBN 1-55860-385-9.
[25]Xxxxxxxx Xxxxx and Xxxx Xxxxxx. Addressing the curse of imbalanced training sets: One-sided selection. In Proceedings of the Fourteenth International Conference on Machine Learning, pages 179–186. Xxxxxx Xxxxxxxx, 1997.
[26]Xxxxx Xxxxx, Xxxxx Xxxxx, and Xxx-Xxxx Xxx. Data mining to predict and prevent errors in health insurance claims processing. In SIGKDD international conference on Knowledge discovery and data mining, pages 65–74, 2010. ISBN 978-1-4503-0055-1. doi: 10.1145/1835804.1835816.
[27]Xxxxx Xxxxxxxxxx. Improving identification of difficult small classes by balancing class distribution. In Proceedings of the 8th Conference on AI in Medicine in Europe: Artificial Intelligence Medicine, AIME ’01, pages 63–66, Xxxxxx, XX, XX, 0000. Springer-Verlag. ISBN 3-540-42294-3.
[28]Xxxxx X Xxxxxxx. Health Insurance Is Dead; Long Live Health Insurance. American Journal of Law & Medicine, 40: 195–214, 2014.
[29]Xxxxxxx Xxxxxxx. Social health insurance a guidebook for planning. VAS, Bad Homburg v.d.H, 2009. ISBN 978-3-88864- 491-7.
[30]Xxxxx X Xxxxxx, Xxxxxxx X Xxx, and Xxxxxxxx X. Figueroa. A Medical Claim Fraud / Abuse Detection System based on Data Mining: A Case Study in Chile. Proceedings of International Conference of Data Mining, 2006. doi: 10.1.1.176.796.
[31]Xxxxxxx Xxxxxxx, Xxxxxxxxxxx Xxxx, Xxxxxxx Xxxxxx, Xxxxx Xxx, Xxxxxxx Xxxx, and Xxxxxxxx Xxxxx. Reducing misclassi- fication costs. In Proceedings of the Eleventh International Conference on Machine Learning, pages 217–225, 1994.
[32]Xxxxxx Xxxxxxx. Why triangular membership functions? Fuzzy Sets and Systems, 64(1):21–30, may 1994. doi: 10.1016/0165-0114(94)90003-5.
[33]Xxxxxx Xxxxxxx. Fuzzy systems engineering toward human-centric computing. Xxxx Xxxxx IEEE, Hoboken, N.J, 2007.
ISBN 978-0471788577.
[34]Xxxxxx Xxxxxxx and Xxxxx Xxxxxxxx. Tree induction for probability-based ranking. Machine Learning, 52(3):199–215, 2003. ISSN 0885-6125. doi: 10.1023/A:1024099825458.
[35]J.R. Quinlan. Simplifying decision trees. International Journal of Man-Machine Studies, 27(3):221–234, sep 1987. doi: 10.1016/s0020-7373(87)80053-6.
[36]Xxxxxx Xxxxxx and Xxxxxxx Xxxxxxxx. Policy and Practice Private health insurance : implications for developing countries.
Bulletin of the World Health Organization, 010611(03):127–134, 2005. ISSN 00429686.
[37]S. S. Xxxxxxx and M. B. Wilk. An analysis of variance test for normality (complete samples). Biometrika, 52(3/4):591, dec 1965. doi: 10.2307/2333709.
[38]Xxx Xx, Xxxxxxxx Xxxxxx, Xxxx Xxxxxxxx, and Xxxx Xxxxxx. Customer Retention Predictive Modeling in HealthCare Insu- rance Industry. In SESUG Southeast SAS Users Group, pages 1–8, 2009.
[39]Xxx X. Xxxxxx, Xxxx Xxxxx, and Xxxx X. Hall. Data Mining: Practical Machine Learning Tools and Techniques, Third Edition (The Morgan Kaufmann Series in Data Management Systems). Xxxxxx Xxxxxxxx, 2011. ISBN 978-0-12-374856- 0.
[40]Xxxxxx Xxxxxxxxx, Xxx Xxxxxx, Xxxx Xxxxxx, and Xxxxxx Xxxxx. Rule-based prediction of medical claims’ payments: A method and initial application to medicaid data. Proceedings of International Conference on Machine Learning and Applications, 2:162–167, 2011. doi: 10.1109/ICMLA.2011.126.