Machine learning como apoio à ataques de exfiltração de dados: uma arquitetura integrada para diminuição de riscos de detecção
Palabras clave:
Exfiltração de dados; Aprendizado de máquina; Defesa cibernética ativa.Resumen
O presente artigo possui como objetivo propor
uma arquitetura integrada para a otimização de
ações de exfiltração de dados, utilizando fontes
de dados abertas e técnicas de machine
learning. O fluxo de aplicação prevê a detecção
de artefatos de maior interesse para o agente
executor por meio de seleção de alvos e
consequente redução do volume de dados
envolvidos na ação de exfiltração de dados,
permitindo assim acelerar o ritmo e reduzir o
risco de detecção do ataque. A arquitetura
proposta é composta por três componentes: um
crawler que utiliza motores de busca conhecidos
na web para a pesquisa e coleta de arquivos no
formato PDF; um componente de modelagem de
tópico que classifica os arquivos coletados; e um
componente de aprendizado de máquina que
utiliza os documentos classificados para treinar
um algoritmo a identificar documentos
semelhantes. Com a implementação de uma
prova de conceito, este artigo demonstra ser
possível atingir os objetivos pretendidos,
apresentando como resultado uma redução de
90% do volume de dados envolvidos em uma
ação de exfiltração de dados com a arquitetura
proposta, reduzindo o tempo de execução e os
riscos de detecção da ação.
Descargas
Citas
ANACONDA INC. (org.). Anaconda: the world's
most popular data science platform. Disponível
em: https://www.anaconda.com/. Acesso em:
20 maio 2021.
ANDRADE, I. C.; DEUS, G. R. Intelligence
gathering architecture. 2021. Disponível
em: https://github.com/isabellecda/intglgathering-arch. Acesso em: 20 maio 2021.
COLE, E. Advanced Persistent Threat:
understanding the danger and how to protect
your organization. Massachusetts, USA: Elsevier,
2013.
EXPLOSION SOFTWARE COMPANY. Spacy:
industrial-strength natural language processing.
Disponível em: https://spacy.io/. Acesso em: 20
maio 2021.
Página 41
Figura 7 - 53GB de dados coletados sem o auxílio de um exploit otimizado.
Fonte: Elaborada pelos autores (2021).
BERRAR, D. Cross-Validation. Encyclopedia Of
Bioinformatics And Computational Biology,
Oxford, v. 1, p. 542-545, 2019.
BIG Data and Information Security: Most Feared
Cyber-threats. Business Application Research
Center, 2021. Disponível em: https:/ / bisurvey.com/cyber-threats-types. Acesso em: 04
abr. 2021.
BOYD-GRABER, J.; HU, Y.; MIMNO, D. Applications of Topic Models. Foundations And Trends®
In Information Retrieval, [S.L.], v. 11, n. 2-
3, p. 143-296, 2017. Now Publishers. http://
dx.doi.org/10.1561/1500000030.
BRASIL. Decreto nº 9.637, de 26 de dezembro
de 2018. Institui a Política Nacional de Seguran-
ça da Informação. Diário Oficial da União: seção
1, Brasília, DF, n. 248, p. 23, 27 dez. 2018.
BRASIL. Decreto nº 10.222, de 5 de fevereiro de
2020. Aprova a Estratégia Nacional de Seguran-
ça Cibernética. Diário Oficial da União: seção 1,
Brasília, DF, n. 26, p. 6, 6 fev. 2020.
CEPIK, M. A. C. Espionagem e Democracia. Rio
de Janeiro: Editora FGV, 2003.
DEWAR, R. S. The “triptych of cyber security”: a
classification of active cyber defence. In: 2014
6TH INTERNATIONAL CONFERENCE ON CYBER
CONFLICT (CYCON), 6., 2014, Tallinn, Estonia.
Proceedings [...] . Tallinn, Estonia: IEEE,
2014. p. 7-21.
JOSSEN, S. The world’s most valuable resource
is no longer oil, but data. The Economist. 06
maio. 2017. Disponível em: https://
www.economist.com/leaders/2017/05/06/theworlds-most-valuable-resource-is-no-longer-oilbut-data. Acesso em: 04 abr. 2021.
HEINL, C. H. Artificial (intelligent) agents and
active cyber defence: policy implications. In:
2014 6TH INTERNATIONAL CONFERENCE ON
CYBER CONFLICT (CYCON), 6., 2014, Tallinn,
Estonia. Proceedings [...] . Tallinn, Estonia:
IEEE, 2014. p. 53-66.
HEYDON, A.; NAJORK, M. M.: A scalable, extensible Web crawler. Compaq Systems Research
Center, P alo Alto, p. 220, dez. 1999.
HONNIBAL, M. et al. spaCy: Industrialstrength Natural Language Processing in Python.
Versão 3.0.6. [S. l.],2016. Disponível em:
https://spacy.io/. Acesso em: 20 maio 2021.
KUNDER, M. The size of the World Wide Web
(The Internet). Disponível em: https:/ /
www.worldwidewebsize.com/. Acesso em: 04
abr. 2021.
LEE, S.; SHON, T. Open source intelligence base
cyber threat inspection framework for critical
infrastructures. In: 2016 FUTURE TECHNOLOGIES CONFERENCE (FTC), 1., 2016, San Francisco,
CA, USA. Proceedings [...] . San Francisco, CA,
USA: IEEE, 2016. p. 1030-1033.
LOCKHEED MARTIN. Cyber Kill Chain. 2021. Disponível em: https://www.lockheedmartin.com/
en-us/capabilities/cyber/cyber-kill-chain.html.
Acesso em: 30 abr. 2021.
MUNCASTER, P. US Military Personnel Exposed
in Latest Cloud Data Leak. Info Security Magazine, 22 out. 2019. Disponível em: https:/ /
www.infosecurity-magazine.com/news/militarypersonnel-exposed-latest/. Acesso em: 07 abr.
2021.
MURPHY, K. P. Machine Learning: a probabilistic
perspective. Massachusetts: Massachusetts Institute of Technology, 2012.
O’DEA, S. Estimated internet traffic in the United
States from 2018 to 2023. STATISTA, 09 jun.
2020. Disponível em: https://www.statista.com/
statistics/216335/data-usage-per-month-in-theus-by-age/. Acesso em: 04 abr. 2021.
PEDREGOSA, F. et al. Scikit-learn: machine learning in python. Journal Of Machine Learning Research, [S. L.] , v. 12, p. 2825-2830, 2011.
PROJECT JUPYTER (org.). Jupyter. Disponível
em: https://jupyter.org/. Acesso em: 20 maio
2021.
RAPÔSO, C. F. L. et al. LGPD-Lei Geral de Prote-
ção de Dados Pessoais em Tecnologia da Informação: Revisão Sistemática. RACE-Revista de
Administração do Cesmac, v. 4, p. 58-67,
2019.
ROESCH, M. Snort: network intrusion detection
& prevention system. Network Intrusion Detection & Prevention System. Disponível em:
https://www.snort.org/. Acesso em: 22 maio
2021.
SARAVIA, E. Fundamentals of NLP: tokenization,
lemmatization, stemming, and sentence segmentation. 2020. Disponível em: https://dair.ai/
notebooks/nlp/2020/03/19/
nlp_basics_tokenization_segmentation.html.
Acesso em: 19 jun. 2021.
TABATABAEI, F.; WELLS, D. OSINT in the Context of Cyber-Security. In: AKHGAR, Babak et al
(ed.). Open Source Intelligence Investigation:
from strategy to implementation. [S.l.]: Springer,
2016. p. 213-231.
TRUONG, C. T., ZELINKA, I. A Survey on Artificial Intelligence in Malware as Next-Generation
Threats. MENDEL, v. 25, n. 2, p. 27-34, 20 dez.
2019.
Página 42
ULLAH, F. et al. Data exfiltration: a review of
external attack vectors and countermeasures.
Journal Of Network And Computer
Applications, [S.l.], v. 101, p. 18-54, 1 jan.
2018. Elsevier BV.
*Artigo realizado a partir do trabalho de
conclusão do Curso de Especialização em Guerra
Cibernética do Centro de Instrução de Guerra
Eletrônica – CIGE pelos Tenentes Isabelle Cecilia
de Andrade e Guilherme Resende Deus.
Endereço postal: DF-001, 5, Lago Norte.
Brasília, Distrito Federal – DF, CEP: 71559-902.
email: isabelleica@fab.mil.br,
guilhermegrd@fab.mil.br.
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2026 Data & Hertz

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial-SinDerivadas 4.0.
Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
- Atribución (BY): Debe dar crédito de manera adecuada.
- NoComercial (NC): No permite el uso de la obra con fines comerciales.
- CompartirIgual (SA): Si se remezcla ou transforma el material, debe distribuir sus contribuciones bajo la misma licencia.