No Robots(.txt): Πώς να ζητήσετε από το ChatGPT και το Google Bard να μην χρησιμοποιούν τον ιστότοπό σας για εκπαίδευση

Τόσο η OpenAI όσο και η Google έχουν κυκλοφορήσει οδηγίες για τους ιδιοκτήτες ιστότοπων που δεν θέλουν οι δύο εταιρείες να χρησιμοποιούν το περιεχόμενο των ιστότοπών τους για να εκπαιδεύουν τα μεγάλα γλωσσικά μοντέλα (LLM) της εταιρείας. Αν και είμαστε υποστηρικτές του δικαιώματος scraping ιστοσελίδων—τη διαδικασία δηλαδή της χρήσης υπολογιστή για τη φόρτωση και ανάγνωση σελίδων ενός ιστότοπου για μεταγενέστερη ανάλυση—ως εργαλείο για έρευνα, δημοσιογραφία και αρχειοθέτηση, είμαστε υπέρ των μέσων για να εκφράσουν οι άνθρωποι τις προτιμήσεις τους . Πιστεύουμε αυτή η πρακτική είναι ακόμα νόμιμη ακόμα και όταν συλλέγονται δεδομένα εκπαίδευσης για generative τεχνητή νοημοσύνη, αλλά το ερώτημα εάν κάτι πρέπει να είναι παράνομο διαφέρει από το αν μπορεί να θεωρηθεί αγενές ή δυσάρεστο. Καθώς οι κανόνες συνεχίζουν να αναπτύσσονται γύρω από τα είδη scraping και ποιες χρήσεις των δεδομένων scraping θεωρούνται αποδεκτά, είναι χρήσιμο να υπάρχει ένα εργαλείο για τους χειριστές ιστότοπων για να σηματοδοτούν αυτόματα την προτίμησή τους σε προγράμματα ανίχνευσης. Το να ζητήσετε από το OpenAI και την Google (και οποιονδήποτε άλλον επιλέγει να τιμήσει την προτίμηση) να μην συμπεριλάβουν κομμάτια του ιστότοπού σας στα μοντέλα του είναι μια εύκολη διαδικασία, εφόσον έχετε πρόσβαση στη δομή αρχείων του ιστότοπού σας.

Έχουμε ξαναπεί για τον τρόπο χρήσης αυτών των μοντέλων που χρησιμοποιούν τέχνη για εκπαίδευση, και η γενική ιδέα και διαδικασία είναι η ίδια για το κείμενο. Οι ερευνητές χρησιμοποιούν εδώ και καιρό συλλογές δεδομένων που έχουν συλλεχθεί από το Διαδίκτυο για μελέτες λογοκρισίας, κακόβουλου λογισμικού, κοινωνιολογίας, γλώσσας και άλλων εφαρμογών, συμπεριλαμβανομένης της generative τεχνητής νοημοσύνης. Σήμερα, τόσο οι ακαδημαϊκοί όσο και οι κερδοσκοπικοί ερευνητές συλλέγουν δεδομένα εκπαίδευσης για τεχνητή νοημοσύνη χρησιμοποιώντας ρομπότ που αναζητούν σε όλο τον ιστό και «ξεκολλούν» ή αποθηκεύουν το περιεχόμενο κάθε ιστότοπου που συναντούν. Αυτό μπορεί να χρησιμοποιηθεί για τη δημιουργία εργαλείων που βασίζονται αποκλειστικά σε κείμενο ή ένα σύστημα μπορεί να συλλέγει εικόνες που μπορεί να σχετίζονται με συγκεκριμένο κείμενο και να προσπαθεί να συγκεντρώσει συνδέσεις μεταξύ των λέξεων και των εικόνων κατά τη διάρκεια της εκπαίδευσης. Το τελικό αποτέλεσμα, τουλάχιστον αυτή τη στιγμή, είναι τα chatbots που έχουμε δει με τη μορφή του Google Bard και του ChatGPT.

Θα ήταν πολύ εύκολο για άλλες εταιρείες με παρόμοια προϊόντα τεχνητής νοημοσύνης, όπως η Anthropic, η Amazon και αμέτρητες άλλες, να ανακοινώσουν ότι θα σεβαστούν παρόμοια αιτήματα.

Εάν δεν θέλετε να χρησιμοποιείται το περιεχόμενο του ιστότοπού σας για αυτήν την εκπαίδευση, μπορείτε να ζητήσετε από τα bots που αναπτύσσονται από την Google και το Open AI να παρακάμψουν τον ιστότοπό σας. Λάβετε υπόψη ότι αυτό ισχύει μόνο για μελλοντική απόξεση. Εάν η Google ή το OpenAI έχουν ήδη δεδομένα από τον ιστότοπό σας, δεν θα τα καταργήσουν. Επίσης, δεν εμποδίζει τις αμέτρητες άλλες εταιρείες εκεί έξω να εκπαιδεύουν τα δικά τους LLM και δεν επηρεάζει οτιδήποτε έχετε δημοσιεύσει αλλού, όπως σε κοινωνικά δίκτυα ή φόρουμ. Επίσης, δεν θα σταματούσε τα μοντέλα που εκπαιδεύονται σε μεγάλα σύνολα δεδομένων αποκομμένων ιστότοπων που δεν συνδέονται με μια συγκεκριμένη εταιρεία. Για παράδειγμα, το GPT-3 του OpenAI και Το LLaMa του Meta και οι δύο εκπαιδεύτηκαν χρησιμοποιώντας δεδομένα ως επί το πλείστον συλλέγονται από το Common Crawl, ένα αρχείο ανοιχτού κώδικα μεγάλων τμημάτων του Διαδικτύου που χρησιμοποιείται συνήθως για σημαντική έρευνα. Μπορείτε να μπλοκάρετε το Common Crawl, αλλά με αυτόν τον τρόπο αποκλείεται ο ανιχνευτής ιστού από τη χρήση των δεδομένων σας σε όλα τα σύνολα δεδομένων του, πολλά από τα οποία δεν έχουν τίποτα να κάνει με AI.

Δεν υπάρχει καμία τεχνική απαίτηση να υπακούει ένα bot στα αιτήματά σας. Προς το παρόν, μόνο η Google και η OpenAI έχουν ανακοινώσει ότι αυτός είναι ο τρόπος εξαίρεσης, επομένως άλλες εταιρείες τεχνητής νοημοσύνης ενδέχεται να μην ενδιαφέρονται καθόλου για αυτό ή να προσθέσουν τις δικές τους οδηγίες για την εξαίρεση. Αλλά επίσης δεν αποκλείει άλλους τύπους απόξεσης που χρησιμοποιούνται για έρευνα ή για άλλα μέσα, οπότε αν είστε γενικά υπέρ της απόξεσης αλλά δεν είστε άνετα με τη χρήση του περιεχομένου του ιστότοπού σας στο εκπαιδευτικό σετ τεχνητής νοημοσύνης μιας εταιρείας, αυτό είναι ένα βήμα που μπορείς να κάνεις.

Πριν φτάσουμε στο πώς, πρέπει να εξηγήσουμε τι ακριβώς θα επεξεργαστείτε για να το κάνετε αυτό.

Τι είναι το Robots.txt;

Για να ζητήσετε από αυτές τις εταιρείες να μην αποκόψουν τον ιστότοπό σας, πρέπει να επεξεργαστείτε (ή να δημιουργήσετε) ένα αρχείο που βρίσκεται στον ιστότοπό σας που ονομάζεται “robots.txt”. Το robots.txt είναι ένα σύνολο οδηγιών για bots και προγράμματα ανίχνευσης ιστού. Μέχρι αυτό το σημείο, χρησιμοποιήθηκε ως επί το πλείστον για την παροχή χρήσιμων πληροφοριών για τις μηχανές αναζήτησης καθώς τα ρομπότ τους ξέσπασαν τον ιστό. Εάν οι ιδιοκτήτες ιστότοπων θέλουν να ζητήσουν από μια συγκεκριμένη μηχανή αναζήτησης ή άλλο bot να μην σαρώσει τον ιστότοπό τους, μπορούν να το εισαγάγουν στο αρχείο robots.txtNo Robots(.txt):. Τα ρομπότ μπορούν πάντα να επιλέξουν να το αγνοήσουν, αλλά πολλές υπηρεσίες ανίχνευσης σέβονται το αίτημα.

Όλα αυτά μπορεί να ακούγονται μάλλον τεχνικά, αλλά στην πραγματικότητα δεν είναι τίποτα άλλο από ένα μικρό αρχείο κειμένου που βρίσκεται στον root φάκελο του ιστότοπού σας, όπως “https://www.example.com/robots.txt”. Οποιοσδήποτε μπορεί να δει αυτό το αρχείο σε οποιονδήποτε ιστότοπο. Για παράδειγμα, εδώ είναι το robots.txt των New York Times, το οποίο προς το παρόν αποκλείει τόσο το ChatGPT όσο και το Bard.

Εάν διαχειρίζεστε τον δικό σας ιστότοπο, θα πρέπει να έχετε κάποιο τρόπο πρόσβασης στη δομή αρχείων αυτού του ιστότοπου, είτε μέσω της πύλης web του παρόχου φιλοξενίας σας είτε μέσω FTP. Ίσως χρειαστεί να δείτε την τεκμηρίωση του παρόχου σας για βοήθεια σχετικά με τον τρόπο πρόσβασης σε αυτόν τον φάκελο. Στις περισσότερες περιπτώσεις, ο ιστότοπός σας θα έχει ήδη δημιουργηθεί ένα robots.txt, ακόμα κι αν είναι κενό, αλλά αν χρειάζεται να δημιουργήσετε ένα αρχείο, μπορείτε να το κάνετε με οποιοδήποτε πρόγραμμα επεξεργασίας απλού κειμένου. Η Google έχει οδηγίες για να το κάνετε εδώ.

Τι να συμπεριλάβετε στο Your Robots.txt για να αποκλείσετε το ChatGPT και το Google Bard

Με όλα αυτά να μην υπάρχουν, ορίστε τι πρέπει να συμπεριλάβετε στο αρχείο robots.txt του ιστότοπού σας, εάν δεν θέλετε το ChatGPT και η Google να χρησιμοποιούν τα περιεχόμενα του ιστότοπού σας για να εκπαιδεύσουν τα μοντέλα τεχνητής νοημοσύνης τους. Εάν θέλετε να καλύψετε το σύνολο του ιστότοπού σας, προσθέστε αυτές τις γραμμές στο αρχείο robots.txt:

ChatGPT

User-agent: GPTBot

Disallow: /

Google Bard

User-agent: Google-Extended

Disallow: /

Μπορείτε επίσης να το περιορίσετε για να αποκλείσετε την πρόσβαση μόνο σε συγκεκριμένους φακέλους στον ιστότοπό σας. Για παράδειγμα, ίσως δεν σας πειράζει αν τα περισσότερα από τα δεδομένα στον ιστότοπό σας χρησιμοποιούνται για εκπαίδευση, αλλά έχετε ένα ιστολόγιο που χρησιμοποιείτε ως ημερολόγιο. Μπορείτε να εξαιρεθείτε από συγκεκριμένους φακέλους. Για παράδειγμα, εάν το ιστολόγιο βρίσκεται στη διεύθυνση yoursite.com/blog, θα χρησιμοποιούσατε αυτό:

ChatGPT

User-agent: GPTBot

Disallow: /blog

Google Bard

User-agent: Google-Extended

Απαγόρευση: /blog

Όπως αναφέρθηκε παραπάνω, πιστεύουμε ότι το scraping είναι ένα ισχυρό εργαλείο για έρευνα και πρόσβαση σε πληροφορίες. Θέλουμε οι πληροφορίες που παρέχουμε να διαδοθούν παντού και να αντιπροσωπεύονται στα αποτελέσματα και τις απαντήσεις που παρέχονται από LLMs. Φυσικά, οι κάτοχοι μεμονωμένων ιστότοπων έχουν διαφορετικές απόψεις για τα ιστολόγια, τα χαρτοφυλάκια τους ή οτιδήποτε άλλο χρησιμοποιείτε τον ιστότοπό σας. Είμαστε υπέρ των μέσων για να εκφράσουν οι άνθρωποι τις προτιμήσεις τους και θα ήταν πολύ εύκολο για άλλες εταιρείες με παρόμοια προϊόντα τεχνητής νοημοσύνης, όπως η Anthropic, η Amazon και αμέτρητες άλλες, να ανακοινώσουν ότι θα σεβαστούν παρόμοια αιτήματα.

Πηγή άρθρου: https://www.eff.org/