Topo

Carlos Affonso Souza

Eles sabem quem é você? Entenda o monitoramento de celulares na quarentena

Carlos Affonso

17/04/2020 04h00

prostooleh/ Freepik

O governo federal voltou atrás e decidiu – por enquanto – não usar os dados agregados de aparelhos celulares para medir o índice de isolamento social nas cidades, como governos estaduais e prefeituras vêm fazendo. O presidente, segundo noticiado, teria receios sobre o impacto do monitoramento no direito à privacidade.

O uso de dados gerados por telefones celulares está na base de muitos dos programas desenvolvidos em outros países no combate ao novo coronavírus. Mas será que esses dados são mesmo anonimizados? Que lições o Brasil pode tirar das experiências internacionais? Será que o receio sobre invasão à privacidade é fundado? Separamos algumas perguntas que ajudam a entender o tema que está na pauta do dia.

1. Quais dados podem ser monitorados a partir de um telefone celular?

O seu celular diz muito sobre você. As autoridades não precisam ter acesso ao conteúdo do seu aparelho para descobrir uma série de informações para lá de importantes apenas acompanhando dados de geolocalização. O celular fica em um certo local todas as noites? Grandes chances dessa ser a residência da pessoa. Um mesmo trajeto é feito todos os dias úteis, mas não nos finais de semana? Tudo indica que você descobriu onde essa pessoa trabalha.

Enquanto todo mundo briga pela proteção dos dados de navegação na internet e do conteúdo das mensagens, muita coisa pode e vem sendo explorada a partir de dados de geolocalização, não raramente sem o consentimento ou conhecimento do titular desses dados.

2. Como funcionam e o que revelam os programas de monitoramento de celulares?

Existem várias formas de coletar dados de geolocalização, como a partir do GPS dos aparelhos ou da triangulação entre diferentes antenas de telefonia móvel às quais os celulares vão se conectando no caminho.

Essas conexões permitem que empresas de telefonia possam produzir mapas de calor indicando a maior ou menor concentração de aparelhos em uma certa área. Esse já pode ser um indicativo de aglomerações, algo que se quer evitar em tempos de combate à covid-19.

Esses dados agregados usualmente não identificam as pessoas que estão naquela área, mas apenas a presença de celulares conectados na localidade.

Já o índice de isolamento social – de que tanto falam as autoridades – pode ser medido a partir do local de pernoite do celular e o seu deslocamento no dia seguinte. Se ele passar o dia dentro de um raio bastante próximo dessa localidade (para assegurar também uma certa margem de erro), o dado entra para a estatística do grupo que respeitou a quarentena. Caso ele se desloque para além do limite já puxa o índice de isolamento social para baixo, já que se considera que a pessoa saiu de casa.

Vale destacar que a conexão dos aparelhos com as antenas espalhadas pela cidade não gera uma localização precisa do dispositivo, além de que vários fatores podem influenciar essa medição. Especialmente em grandes cidades, nas ruas e em avenidas com alta concentração de pessoas (e de antenas de celular), é fácil que um deslocamento pequeno possa fazer com que o seu aparelho mude de antena.


De qualquer forma, o uso desses dados serve para indicar locais de concentração e pode dar uma visão abrangente sobre padrões de deslocamento. É um começo de conversa, mas a gente precisa ver como esses dados são tratados e se eles podem sair de uma visão macro para a granularidade de cada indivíduo conectado.

3. Como os dados são anonimizados?

Antes de mais nada vale explicar que ainda não conhecemos como seria implementado o programa de monitoramento de celulares pelo governo federal. Então os modelos conhecidos são aqueles usados pelos governos estaduais e prefeituras – cujo funcionamento foi explicitado – e outros projetos desenvolvidos por empresas de telefonia e startups.

As empresas sempre afirmam que não fazem o uso de dados pessoais (individualizados) nessas bases, mas apenas de dados anonimizados que permitem gerar estatísticas, estudos e demais funcionalidades em cima de dados agregados. Para saber quantas pessoas visitam por dia um lugar na cidade, por exemplo, eu não preciso saber exatamente quem esteve lá, com a indicação do nome e do número de telefone do indivíduo. Mas é claro que quanto mais informações eu tiver sobre essa pessoa maior será o valor desse dado.

Para proteger a privacidade dos indivíduos as bases de dados anonimizadas podem se valer de vários expedientes, como ocultar algumas informações, generalizar outras e assim por diante. Então ao invés de saber quem exatamente visitou o meu estabelecimento eu sei que essa pessoa é homem ou mulher e que tem uma idade entre 40-50 anos, só para continuar com o exemplo. Somando todas as entradas na base de dados eu consigo gerar uma visualização de quantos % do meu público é de cada faixa etária, gênero e assim por diante.

Acontece que quanto mais informações eu jogo nessa base, mais fácil fica reidentificar a pessoa cujo dado foi anonimizado. Chegamos então em uma encruzilhada: como criar uma base de dados anonimizados que possa atingir o equilíbrio entre utilidade para quem se vale dela e ao mesmo tempo não saia por aí revelando a identidade de todo mundo?

4. Como saber então se os dados foram anonimizados para valer?

Depende do grau de anonimização, das proteções inseridas nessa base e de quem está tentando reverter esse dado. Vale prestar atenção na nomenclatura. A gente fala em dado "anonimizado" e não em dado "anônimo" para dar justamente a ideia de processo, de que esse dado um dia foi dado pessoal, mas que ele passou por um procedimento para que os vínculos com o seu titular fossem apagados, tornando o mesmo anonimizado.

A própria Lei Geral de Proteção de Dados (LGPD, Lei nº 13.709/18), que deve entrar em vigor em breve – talvez em agosto desse ano, talvez em janeiro do ano que vem – diz que dados anonimizados "não serão considerados dados pessoais para os fins desta Lei, salvo quando o processo de anonimização ao qual foram submetidos for revertido, utilizando exclusivamente meios próprios, ou quando, com esforços razoáveis, puder ser revertido".

Ou seja, para o dado ser considerado como anonimizado eu preciso olhar para dois fatores: um objetivo e outro subjetivo. Por fatores objetivos  no conceito de "esforços razoáveis" a própria lei menciona "o custo e o tempo necessários para reverter o processo de anonimização, de acordo com as tecnologias disponíveis" (art. 12, §1º). Já os fatores subjetivos olham para quem fez o processo de anonimização e para quem está tentando quebrá-lo. Tudo isso conta na hora de medir se os dados foram anonimizados para valer. Ou se a empresa apenas escondeu umas informações aqui e ali que permitem a qualquer pessoa com um pouco mais de obstinação – e tempo na vida – acessar os dados e revelar a identidade de seus titulares.

5. Tem um exemplo fácil de reidentificação para explicar como funciona?

Olha só esse. A Comissão de Taxi e Limousines de Nova York possui uma base de dados anual sobre as corridas realizadas na cidade. A base de 2013 contava com 173 milhões de corridas registradas, indicando ponto de partida e de chegada, data e hora, além do valor da corrida e se foi dada gorjeta. A comissão tomou o cuidado de ocultar os dados de identificação dos motoristas, como número da placa do carro ou da permissão para conduzir táxis.

Não demorou para que essa proteção fosse quebrada depois que um analista de dados teve acesso ao documento via lei de acesso à informação e publicar o seu conteúdo na internet. Ainda assim, você pode pensar, a planilha passou a revelar apenas os dados do motorista, mas não dos passageiros, já que essa informação nem constava lá.

Entram em cena as pessoas obstinadas e com tempo na vida. Sabendo que em Nova York é muito comum que celebridades peguem táxi na rua – e que esses momentos possam ser fotografados por paparazzi, um jornalista foi buscar fotos na internet usando na pesquisa o nome de celebridades e menções a "Nova York" e "táxi". De posse dessas imagens ele selecionou apenas aquelas que tinham a indicação de local e data do ocorrido. Tipo aquela quinta-feira, dia 10 de março de 2011, em que Caetano estacionou um carro no Leblon.

O jornalista procurou também por fotos que exibiam o número da placa ou da licença do carro (que em NY está pintado geralmente ao lado da porta). Com isso foi possível ligar o nome de celebridades aos dados de várias corridas que constavam da base da Comissão de Táxis e Limousines. Bradley Cooper, Jessica Alba, uma das Kardashians e outras celebridades tiveram então os seus trajetos de táxi revelados por mais que essa informação nem mesmo estivesse presente na planilha original. E tudo começou com uma anonimização mal feita.Recentemente a Tatiana Dias, no Intercept, mostrou como foi possível revelar a identidade de pessoas que tiveram seus dados anonimizados em uma base de dados disponibilizada pela Vivo para terceiros. O processo também usou muitas informações presentes em redes sociais para chegar na identidade de pessoas que apareciam nas bases de dados apenas com informações genéricas.

6. Então não existem dados anonimizados?

Olha, até existem, mas essa ave exótica só pode ser verdadeiramente identificada com um olho no estado da técnica e outro nos esforços e nos recursos tanto de quem procura anonimizar como de quem tenta reidentificar. Não basta esconder o nome, o endereço e o número de celular e achar que o dado foi anonimizado. Além disso, o estado de anonimização é sempre temporal, já que a tecnologia avança e algo que hoje exige muito esforço para ser quebrado amanhã pode ser simplificado.

7. Como os outros países usaram o monitoramento de celulares para combater a covid-19?

Aqui tem de tudo. Alguns países se valeram exatamente do modelo que governos estaduais e prefeituras estão usando, trabalhando com dados agregados para mostrar mapas de calor sobre a concentração de aparelhos. Não existe nada de errado com essa medida se os dados forem tratados realmente de forma agregada e sem a identificação, direta ou indireta, dos usuários. Mais adiante explicamos por que à luz da Lei Geral de Telecomunicações.

O mesmo vale para o índice de isolamento social feito a partir da movimentação de aparelhos. Só vale lembrar que em ambas as medidas não se está, a princípio, identificando ninguém, mas apenas registrando a localização e a movimentação de aparelhos para a formação de dados agregados.

Um terceiro modelo – que vai além do mapa de calor e do mapa de deslocamentos – é o chamado "contact-tracing", que procura analisar os contatos que o portador de um aparelho teve em certo período de tempo e com isso disparar alertas às pessoas com as quais teve contato quando ele testa positivo para a covid-19.

Esse foi o sistema usado na Coreia do Sul e em Singapura, por exemplo. O contact-tracing já lança uma série de questões importantes sobre o uso de dados pessoais (e não apenas dados anonimizados), uma vez que, a partir dos alertas – por mais que a identidade da pessoa seja ocultada – essa informação pode ser reconstruída. Além disso, esse sistema depende em grande medida que a população faça o teste para covid-19, o que não é uma opção viável em vários países em que o acesso ao teste é em si um obstáculo.

Apple e Google chegaram a anunciar que estão trabalhando em um modelo de contact-tracing que armazena as informações nos próprios celulares individuais, evitando assim que a identidade da pessoa infectada seja revelada facilmente. A União Europeia também trabalha em uma iniciativa transfronteiriça que permita esse mapeamento e ao mesmo tempo respeite a privacidade das pessoas.

Vale lembrar que iniciativas de contact-tracing se mostraram importantes em alguns países asiáticos para identificar possíveis caminhos da infecção pelo vírus e medidas mais pontuais de isolamento de pessoas e de áreas mais atingidas. Contudo, como dito, essa medida requer uma testagem em massa para ser eficiente.

Outra questão que pode fragilizar o regime de contact-tracing são as modelagens em que os alertas são disparados quando a própria pessoa reporta que está contaminada. Esses modelos acabam dependendo muito da boa-fé dos indivíduos em não reportar diagnósticos falsos para manipular as estatísticas.

8. O monitoramento de celulares para combater a covid-19 é legal no Brasil?

Se os dados puderem ser enquadrados como anonimizados não existe muita dúvida. A Lei Geral de Telecomunicações (LGT), por exemplo, permite expressamente que as teles usem dados sobre os seus serviços de forma agregada e anonimizada, disponibilizando essas informações para terceiros. Essa é a redação da LGT:

"Art. 72 § 2° A prestadora poderá divulgar a terceiros informações agregadas sobre o uso de seus serviços, desde que elas não permitam a identificação, direta ou indireta, do usuário, ou a violação de sua intimidade."

Ou seja, quando as empresas forem divulgar os dados, eles não podem ser dados pessoais que identifiquem ou levem à identificação dos indivíduos. Essa noção de dado pessoal está em sintonia com o que diz a Lei Geral de Proteção de Dados (LGPD), que em seu artigo 5º, I, define dado pessoal como "informação relacionada a pessoa natural identificada ou identificável".

Mas será que o dado pessoal (que identifica ou pode identificar a pessoa) não pode ser usado para combater uma pandemia? Pode sim, mas é a mesma LGPD que traz uma série de condições para que isso aconteça.

A forma mais conhecida de se permitir o uso de dados por terceiros é o consentimento por parte do titular dos dados para esse fim. Mas a lei ainda traz situações que permitem que os dados sejam usados sem o consentimento desde que observados requisitos bem específicos como "a proteção da vida ou da incolumidade física do titular ou de terceiro" (art. 7º, VII e art. 11, II, e) ou a "tutela da saúde, exclusivamente, em procedimento realizado por profissionais de saúde, serviços de saúde ou autoridade sanitária" (art. 7º, VII e art. 11, II, f).

A administração pública pode ainda se valer do "tratamento e uso compartilhado de dados necessários à execução de políticas públicas previstas em leis e regulamentos ou respaldadas em contratos", além de convênios e outros instrumentos (art. 7º, III).

O combate à covid-19 parece se enquadrar nas hipóteses acima. Todavia, vale lembrar que a chancela dada pela LGPD para o uso dos dados não é irrestrita. Os dados tratados para a geração de políticas públicas no enfrentamento da pandemia devem ser utilizados apenas para essa finalidade. Caso eles venham a ser utilizados para outros fins, como a venda de publicidade ou o envio de mensagens eleitorais, esse uso é ilícito e poderá gerar responsabilização dos envolvidos.


Vale também esclarecer que a noção de "política pública" para o uso de dados não pode ser uma cartada que se joga na mesa e os dados consequentemente precisam ser liberados. É dever do poder público informar qual política pública ele pretende atender e como os dados serão utilizados para esse fim. O Brasil vive hoje um momento em que governos em todos os níveis da federação buscam dados para gerir melhor a coisa pública. Mas quando esses dados estão em posse de empresas, não é incomum ver requisições para lá de genéricas em nome da "política pública".

Seja para combater a CCovid-19, ou para qualquer outra finalidade, quando o Estado demanda dados dos particulares ele deve fazer isso de modo bastante específico para que se evite a concentração desnecessária (e tentadora) de dados pessoais.

Resumindo então: o uso de dados de celulares de forma agregada e anonimizada é lícita no Brasil. E mesmo o uso de dados pessoais pode também ser respaldado dentro dos contornos da Lei Geral de Proteção de Dados. Certo? Não vai embora que ainda tem um problema.

9. Como fica o combate à covid-19 sem a Lei Geral de Proteção de Dados?

Acontece que a LGPD ainda não está em vigor. Ou seja, o uso agregado e anonimizado conta com o respaldo da Lei Geral de Telecomunicações, mas os dados pessoais em si precisam se valer de outras fontes para regular o seu compartilhamento com terceiros.

A Lei 13.979/20, chamada "lei da quarentena", determina que "é obrigatório o compartilhamento entre órgãos e entidades da administração pública federal, estadual, distrital e municipal de dados essenciais à identificação de pessoas infectadas ou com suspeita de infecção pelo coronavírus, com a finalidade exclusiva de evitar a sua propagação." (art. 6º). Essa obrigação "estende-se às pessoas jurídicas de direito privado quando os dados forem solicitados por autoridade sanitária." (§ 1º)

Essa medida ajuda, mas a lei da quarentena não traz todo o enquadramento sobre o uso de dados pessoais presente na LGPD, que deveria entrar em vigor em 16 de agosto de 2020. Ocorre que o Senado Federal decidiu recentemente postergar a entrada em vigor da lei para 1º de janeiro de 2021, tendo em vista que muitas empresas ainda não se adequaram e que o próprio governo ainda não criou a Autoridade Nacional de Proteção de Dados (ANPD), que vai supervisionar a aplicação da lei. A crise do coronavírus acabou servindo de motivo para atrasar a efetividade da lei.

10. Então o que podem as autoridades fazer para proteger a privacidade dos brasileiros?

A LGPD traria mais segurança para que empresas e governos possam tratar dados pessoais, oferecendo bases mais concretas e trazendo uma série de restrições sobre a finalidade do tratamento, sua adequação e proteção. A Câmara dos Deputados pode reverter a orientação que veio do Senado e manter a entrada em vigor da lei em agosto agora. O próprio Ministério Público Federal se posicionou nesse sentido. Precisamos de uma lei de proteção de dados para aperfeiçoar os controles sobre os usos de dados pessoais durante o combate à pandemia.

O governo federal também pode fazer a sua parte. De início, a primeira medida que está faltando é a efetiva constituição da ANPD, com a indicação dos seus diretores e Conselho. Essa autoridade – não custa lembrar – já consta da lei e a sua criação seria muito importante para unificar os esforços de fiscalização e orientação aos setores público e privado sobre como dados pessoais podem ser tratados em momentos de crise como o que atravessamos.

O que ganhou repercussão na imprensa nos últimos dias foi a disputa política sobre os programas de monitoramento de celulares, com pessoas nas redes sociais alegando que os programas são ditatoriais. Na verdade, sem conhecer o programa que foi ensaiado pelo governo federal não dá para afirmar que ele viole direitos dos usuários. Como visto, a legislação brasileira já possui dispositivos que permitem o uso de dados agregados e anonimizados e está prestes a ser incrementada com a entrada em vigor da LGPD.

Esperamos que essas perguntas tenham ajudado a esclarecer alguns pontos sobre os programas de monitoramento de celulares e o uso de dados agregados e anonimizados. Vai também que um dia você se depara com uma base de dados contendo informações sobre o estacionamento de carros no Leblon no dia 1o de março de 2011 por indivíduo do sexo masculino, baiano, vestindo camisa branca? Você nem vai precisar de "esforços razoáveis" para saber que esse não é um dado anonimizado.

 

Sobre o autor

Carlos Affonso é Diretor do Instituto de Tecnologia e Sociedade (ITS Rio) e professor da Faculdade de Direito da UERJ.

Sobre o blog

A Internet e as novas tecnologias estão transformando as nossas vidas. Mas quem decide se a rede será um instrumento de liberdade ou de controle? Esse é um blog dedicado a explorar os impactos da inovação tecnológica, sempre de olho nos desafios nacionais e na experiência de diferentes países em tentar regular uma rede global. As fronteiras da tecnologia você lê aqui.