Privacidade em dados de sequenciamento
por Tayná Fiúza

O sequenciamento genético individual se tornou uma tarefa rotineira para algumas empresas e grupos de pesquisa de instituições públicas, resultando em uma grande quantidade de dados com potencial para gerar benefícios concretos do ponto de vista científico e também social. Podemos dizer que o conhecimento que temos hoje sobre a origem e o desenvolvimento de diversas enfermidades se deve ao esforço conjunto de diversos grupos e instituições para gerar, analisar e, principalmente, compartilhar dados de sequenciamento. Atualmente, muitos desses dados estão armazenados em repositórios públicos (como o TCGA, para dados de câncer), permitindo que pesquisadores de diversas localidades possam usufruir desses dados e assim contribuir com diferentes análises e novas descobertas. Apesar dos benefícios que podem ser obtidos a partir dos dados de sequenciamento e do seu compartilhamento, uma questão ameaça toda essa cadeia produtiva: a segurança e a privacidade das pessoas que fornecem esses dados.

Sequências obtidas de diferentes genomas humanos não têm valor apenas dentro da perspectiva médico-biológica, mas também no prisma sócio-comercial. Podemos citar como consequências negativas que podem decorrer da falta de ética no compartilhamento e uso destes dados o tratamento diferenciado de indivíduos em seleções de emprego e em contratos com empresas de seguro. Por esta razão, a segurança desses dados, prevista na legislação de diversos países, precisa ser entendida e aprimorada.** **Com o intuito de proteger as pessoas que participaram em um estudo envolvendo o sequenciamento de seus DNA, os repositórios públicos desses dados, a princípio, não fornecem informações ou metadados que possam revelar a identidade do indivíduo sequenciado. Mas será que isso é suficiente para proteger essas pessoas? Estudos mostram que as sequências do genoma em conjunto com algumas poucas informações disponíveis em bancos de dados públicos podem levar a re-identificação do proprietário do genoma ou restringir a um pequeno grupo de candidatos.

Figura 1: Um guia visual para de-identificação de dados. Fonte: Future of Privacy Forum (FPF.org) link

Uma das maneiras de proteger a identidade dos proprietários do material genético sequenciado seria a anonimização. Isto é, a completa remoção dos dados que poderiam ser utilizados para detectar os participantes. Contudo, essa estratégia prejudicaria diversos estudos que necessitam de metadados (sexo, idade, grupo étnico, estado de saúde) para realizar suas análises e chegar a conclusões. Tal situação é conhecida como o paradoxo privacidade x utilidade dos dados, onde não é possível garantir de forma concomitante a total privacidade e a máxima utilidade dos dados. Assim sendo, busca-se o equilíbrio entre esses dois fatores por meio de métodos de pseudoanonimização, nos quais metadados são substituídos ou fornecidos de maneira incompleta. Ademais, estratégias como a inserção de ruído (dados gerados de maneira aleatória) e a validação das abordagens por métricas como anonimização-k, diversidade-l e proximidade-t vêm sendo empregadas. Alguns críticos da disponibilização aberta e gratuita de dados de sequenciamento pseudoanonimizados apontam como solução a restrição a quais grupos teriam acesso a essas informações.

Figura 2: Paradoxo Privacidade vs. Utilidade. Fonte: Data Anonymisation Software – Differences Between Static and Interactive Anonymisation link

Dados os ganhos para a comunidade científica e a sociedade em geral (incluindo os próprios participantes dos estudos), a disponibilização pública dos dados de sequenciamento é o melhor caminho para o progresso científico. No entanto, há um número de estratégias de proteção e criptografia ainda a serem testadas e avaliadas. Para que o compartilhamento dos dados e sua utilização em pesquisas científicas possa continuar,, a segurança e a privacidade de quem doou o material genético devem ser amplamente discutidas entre profissionais de diferentes setores da sociedade para melhorar a implantação de medidas de proteção e contenção de riscos.

Referências:

Para saber mais: