Num estudo recentemente publicado por Mahmoud Al‑Qudsi, engenheiro de software e investigador em segurança informática, conhecido pelo trabalho em sistemas de baixo nível, forense digital e cibersegurança, e fundador da NeoSmart Technologies, o autor argumenta num post recente do seu blog que a mais recente divulgação de arquivos relacionados com Jeffrey Epstein pelo Departamento de Justiça dos EUA (DoJ) foi tecnicamente desastrada e, em vários pontos, ilógica: redacções feitas de forma apressada, falhas de anonimização e problemas de conversão/extração deixaram parte do material inutilizável.
A descoberta principal do texto é que, em alguns PDFs divulgados, apesar de muitas partes estarem censuradas, ficaram incluídos anexos de email em formato “cru”, codificados em base64 (Content‑Transfer‑Encoding: base64). Em vez de o anexo surgir apenas como PDF “normal”, aparecem dezenas de páginas de caracteres que representam o ficheiro original codificado: algo que, em tese, pode permitir reconstruir anexos que escaparam às redacções.
O problema é que a reconstrução não é tão simples como fazer um decode direto de base64, porque o DoJ não publicou o email original: divulgou um scan/print com OCR de fraca qualidade, que introduz caracteres errados, omite outros e até gera símbolos inválidos em base64. A tipografia usada (Courier New) e a baixa qualidade do scan tornam quase indistinguíveis alguns caracteres críticos (como “1” vs “l”), o que destrói a integridade dos dados.
Al‑Qudsi descreve várias tentativas para recuperar um caso concreto (EFTA00400459): re‑OCR com Adobe, OCR com Tesseract (com “whitelist” de caracteres), conversão das páginas com ferramentas diferentes (por exemplo, pdftoppm) e, por fim, AWS Textract. Apesar de alguns progressos, as discrepâncias remanescentes bastam para corromper um PDF binário real, com secções comprimidas e estrutura interna complexa. O autor conclui que a abordagem mais promissora é a via “clássica”: métodos de validação linha‑a‑linha, tirando partido do conhecimento da fonte e do tipo de codificação.
No final, lança um desafio à comunidade: conseguir reconstruir o PDF original a partir desse base64 “sobrevivente” e procurar outros casos semelhantes nos ficheiros.
Fonte:
Mahmoud Al-Qudsi, “Recreating uncensored Epstein PDFs from raw encoded attachments”, The NeoSmart Files (NeoSmart Technologies), atualizado a 5 de fevereiro de 2026
https://neosmart.net/blog/recreating-epstein-pdfs-from-raw-encoded-attachments/

Deixe um comentário