Συλλογή, ανάλυση και διαμοιρασμός πληροφοριών για κυβερνοαπειλές: το σύστημα inTIME

Πάρης Κολοβέας (pkoloveas@uop.gr), Θανάσης Χάντζιος (tchantzios@uop.gr), Σπύρος Σκιαδόπουλος (spiros@uop.gr), Χρήστος Τρυφωνόπουλος (trifon@uop.gr), Νίκος Κολοκοτρώνης (nkolok@uop.gr)

Στις μέρες μας η τεχνολογία είναι πιο προσιτή από ποτέ· αποτελεί βασικό στοιχείο της κοινωνίας στην οποία ζούμε και εργαζόμαστε καθημερινά και καθορίζει την αλληλεπίδραση μας. Πλήθος διαφορετικών συσκευών και πλατφορμών, οι οποίες ποικίλουν σε είδος και λειτουργικότητα και περιλαμβάνουν από εξυπηρέτες εταιρειών και προσωπικούς υπολογιστές έως κινητά τηλέφωνα και έξυπνες φορητές συσκευές (wearables), διασυνδέουν ένα ευρύ φάσμα χρηστών, όπως νοικοκυριά, δημόσιους και ιδιωτικούς οργανισμούς αλλά και κρίσιμες υποδομές. Ο τεράστιος όγκος των ανταλλασσόμενων δεδομένων, η ποικιλία των διαφορετικών λειτουργικών συστημάτων, οι ιδιαιτερότητες της εκάστοτε συσκευής, και η εκ φύσεως ευκολία προσβασιμότητας των πλατφορμών των έξυπνων συσκευών και του Διαδικτύου των Πραγμάτων (Internet of Things), αποτελούν βασικές αιτίες για τη δημιουργία ενός γιγάντιου και περίπλοκου τοπίου απειλών που είναι δύσκολο να περιοριστεί. Η παρακολούθηση και αντιμετώπιση αυτών των ταχέως εξελισσόμενων απειλών κυβερνο-ασφάλειας των έξυπνων συσκευών αποτελεί ένα διαρκώς αυξανόμενης δυσκολίας έργο για τους αναλυτές ασφάλειας, οι οποίοι στηρίζονται σε μεγάλο βαθμό στη συλλογή και χρήση πληροφοριών κυβερνο-απειλών για να ανταπεξέλθουν στο μεταβαλλόμενο τοπίο απειλών. Η αξιοποίηση των πληροφοριών αυτών προϋποθέτει τη συλλογή, ανάλυση, επεξεργασία, και διαμοιρασμό τεράστιου όγκου δεδομένων. Το σύστημα inTIME (integrated Threat Intelligence Mining and Extraction) είναι ένα καινοτόμο ολοκληρωμένο πλαίσιο εντοπισμού, συλλογής, ανάλυσης, εξαγωγής, ενσωμάτωσης και διαμοιρασμού πληροφοριών κυβερνο-απειλών που είναι εξ ολοκλήρου κατασκευασμένο με εργαλεία ανοικτού κώδικα και βασισμένο σε ανοικτά πρότυπα. Το σύστημα inTIME βασίζεται σε προηγμένες μεθόδους μηχανικής μάθησης και παρέχει μια ολοκληρωμένη πλατφόρμα η οποία εστιάζει στις διαδικασίες διαχείρισης πληροφοριών σχετικών με κυβερνο-απειλές και στοχεύει στην υποστήριξη και διευκόλυνση των υπευθύνων κυβερνο-ασφάλειας συστημάτων και οργανισμών οι οποιοι είναι επιφορτισμένοι με την προστασία και διασφάλιση των έξυπνων συσκευών που είναι στον τομέα ευθύνης τους.

Συγκεκριμένα, το inTIME είναι ένα σύστημα ανοιχτού κώδικα που αναπτύχθηκε στο πλαίσιο του έργου CYBER-TRUST (https://cyber-trust.eu/) κι επιτρέπει στους αναλυτές ασφάλειας:

την εύκολη δημιουργία και ανάπτυξη ευέλικτων υπηρεσιών συλλογής δεδομένων που περιλαμβάνουν θεματικούς συλλέκτες περιεχομένου από ιστοσελίδες (web crawlers/scrapers), δημοφιλή κοινωνικά δίκτυα, ιστότοπους συζητήσεων (forums), γνωστές βάσεις δεδομένων ασφαλείας, αλλά και από το σκοτεινό ιστό (dark web) όπου συνεργάζονται και συναλλάσσονται οι επίδοξοι κυβερνο-εισβολείς,
την αυτόματη ταξινόμηση του συλλεχθέντος περιεχομένου σύμφωνα με τη χρησιμότητα των πληροφοριών κυβερνο-ασφάλειας που περιέχει,
την ταυτοποίηση και εξαγωγή πληροφοριών κυβερνο-ασφάλειας μέσω αυτοματοποιημένων διαδικασιών κατανόησης φυσικής γλώσσας και σημασιολογικής επισημείωσης, και
τη διαχείριση, ομογενοποίηση και κοινή χρήση της αποθηκευμένης πληροφορίας μέσω ανοικτών προτύπων ασφαλείας.

Η συνολική αρχιτεκτονική του συστήματος inTIME παρουσιάζεται στο Σχήμα 1. Στην αριστερή πλευρά του σχήματος παρουσιάζονται οι ενότητες που υλοποιούν τις υπηρεσίες συλλογής δεδομένων (Data acquisition). Τα δεδομένα που συλλέγονται υπόκεινται σε επεξεργασία από το υποσύστημα ανάλυσης δεδομένων (Data analysis) και τα αποτελέσματα της ανάλυσης (εντοπισθείσες απειλές κυβερνοασφάλειας) προωθούνται στο υποσύστημα διαχείρισης και διαμοιρασμού πληροφορίας (Data management and sharing) όπου αποθηκεύονται και καθίστανται διαθέσιμα σε τρίτα συστήματα μέσω μηχανισμών push ή/και pull, ανάλογα με τη διαμόρφωση του υποσυστήματος. Τα υποσυστήματα που σημειώνονται με διακεκομμένο περίγραμμα χρησιμοποιούν εκτενώς προηγμένες τεχνικές μηχανικής μάθησης για τη λειτουργία τους.

Εκτός από τα πρωτότυπα σχεδιασμένα εργαλεία, το inTIME χρησιμοποιεί και ενσωματώνει στην αρχιτεκτονική του (βλ. Σχήμα 1) και υπάρχοντα εργαλεία ανοικτού κώδικα. Συγκεκριμένα, οι υπηρεσίες συλλογής δεδομένων χρησιμοποιούν τον ACHE Crawler^¹ για την ιστοσυλλογή και τη βιβλιοθήκη Tweepy^² για τη συλλογή πληροφορίας από κοινωνικά δίκτυα. Οι υπηρεσίες ανάλυσης δεδομένων ενσωματώνουν το γλωσσικό μοντέλο word2vec^³ μέσω της βιβλιοθήκης Gensim^⁴ για την αυτόματη ταξινόμηση της πληροφορίας, ενώ οι υπηρεσίες εξαγωγής πληροφοριών κυβερνο-ασφάλειας χρησιμοποιούν τη βιβλιοθήκη spaCy^⁵. Τέλος οι υπηρεσίες διαχείρισης, ομογενοποίησης και διαμοιρασμού της αποθηκευμένης πληροφορίας κάνουν χρήση του συστήματος MISP^⁶ και τη συνοδευτική βιβλιοθήκη pymisp^⁷.

Συμπερασματικά, το σύστημα inTIME είναι η μοναδική λύση στη διεθνή βιβλιογραφία που παρέχει μία ολοκληρωμένη πλατφόρμα διαχείρισης πληροφοριών απειλών στον κυβερνοχώρο που μπορεί να υποστηρίξει τον πλήρη κύκλο ζωής απειλών μέσω ενός ολοκληρωμένου, απλού στη χρήση, αλλά επεκτάσιμου συστήματος ανοικτού κώδικα.

1 https://ache.readthedocs.io/en/latest/index.html

2 https://www.tweepy.org/

3 https://www.tensorflow.org/tutorials/text/word2vec

4 https://radimrehurek.com/gensim/

5 https://spacy.io/

6 https://www.misp-project.org/

7 https://github.com/MISP/PyMISP