KA-CAPTCHA: An Opportunity for Knowledge Acquisition on the Web Bruno Norberto da Silva, Ana Cristina Bicharra Garcia Κωνσταντίνα Κατσίγιαννη – Μ843 Στα πλαίσια του μαθήματος Προηγμένη Τεχνητή Νοημοσύνη Διδάσκων Δρ.Παναγιώτης Σταματόπουλος
Τα περιεχόμενα Το μοντέλο CAPTCHA Που εφαρμόζεται? Πως λειτουργεί ? Τα πλεονεκτήματα KA-CAPTCHA Το μοντέλο Ο στόχος Knowledge modeling Η εμπειρική αξιολόγηση Η διαδικασία Στάδια Αποτελέσματα Συμπεράσματα
Το μοντέλο Που εφαρμόζεται? Όπου υπάρχει ανάγκη προστασίας από αυτοματοποιημένες “επιθέσεις” Προστατεύει: τα blogs από comment spam τα free services από registration ( πχ account registration ) τα online polls κτλ CAPTCHA:Completely Automated Public Turing Test to Tell Computers and Humans Apart
Τα πλεονεκτήματα - Χρησιμοποιείται ήδη - Αξιοποιείται περαιτέρω η προσπάθεια των χρηστών να περάσουν το test - Μπορεί να εφαρμοστεί σε πλήθος διαφορετικών υπηρεσιών στοχεύοντας ευρύτερο ακροατήριο διαφορετικής φύσεως γνώση - δεν στηρίζεται στον αλτρουϊσμό για να πετύχει - δεν χρειάζεται να ξανασχεδιάσουμε το σύστημά μας προκειμένου να είναι ελκυστικό
Το μοντέλο Πως λειτουργεί: Το σύστημα τυχαία ακολουθία γραμμάτων ενσωματωμένο θόρυβο και ο πράκτορας καλείται να προσδιορίσει τα κωδικοποιημένα σύμβολα - μαζεύει δεδομένα από δημόσια βιβλιοθήκη - παράγει μια εικόνα με εάν όλες οι απαντήσεις είναι σωστές ο πράκτορας θεωρείται άνθρωπος
Το μοντέλο - Παράγει δοκιμές (tests) όπου οι άνθρωποι αναμένεται να περνούν εύκολα αλλά οι υπάρχοντες πράκτορες όχι - Δεν βασίζεται στη μυστικότητα των δεδομένων ή του κώδικά του ο πράκτορας πρέπει να αποτύχει είτε έχει πρόσβαση στα δεδομένα είτε όχι
Το μοντέλο Η επέκταση /KA-CAPTCHA Ο CAPTCHA πράκτορας - συνδυάζει στοιχεία και από άλλες πηγές (hypothesis generator) - διαβιβάζει την απάντηση στο Information extracting Agent Ο Information extracting Agent - αναλύει την απάντηση αναζητώντας νέα γνώση - τροφοδοτεί την αρχική βάση γνώσεων
Ο στόχος Ο σχεδιασμός ενός CAPTCHA που θα βοηθά στην περιγραφή εικόνων δύσκολο πρόβλημα λόγω: - δεν υπάρχει γενικός αλγόριθμος που να λαμβάνει ως εισαγωγή μια εικόνα και να επιστρέφει έγκυρη κειμενική περιγραφή της - οι εικόνες μπορεί να έχουν περισσότερες από μια έγκυρη περιγραφή - οι περιγραφές από metadata συχνά καταλήγουν σε μη ικανοποιητικές
Knowledge modeling υποθέτουμε τη διαθεσιμότητα δημόσιας βάσης γνώσεων εικόνων και πιθανών περιγραφών τους με μόνο Image και Label και τη σημασιολογική σχέση τους Σε κάθε σχέση αποδίδουμε μέτρα: 1) Confidence rank 2) Support rank 1) Confidence rank: πόσο έμπιστο είναι το σύστημα όσον αφορά την περιγραφή του Label για το Image (κατά το χρήστη) Confidence rank Certainty threshold Suspicion threshold Confidence rank > Certainty threshold ορθή περιγραφή εικόνας Confidence rank < Suspicion threshold λανθασμένη περιγραφή εικόνας Ενδιάμεσο περαιτέρω έρευνα
Knowledge modeling 2) Support rank: πόσοι χρήστες έχουν συνεισφέρει με μια ένδειξη για την ορθότητα συνδυασμού Label - Image Above Certainty threshold Between Thresholds Below Suspicion threshold Below Support threshold ??? Above Support threshold +?- Support rank Confidence rank Ερμηνεία και των δύο μέτρων + σχέση αληθής - σχέση ψευδής ? απαιτεί περαιτέρω έλεγχο όταν Support threshold > Support rank δεν έχει μελετηθεί από ικανοποιητικό αριθμό χρηστών στόχος: η προστασία από τις διακυμάνσεις της Confidence Support threshold:
Η διαδικασία Συμβουλεύεται τη βάση … - συλλέγει τυχαία ένα Label - ανακτά ομάδα Images / γνωρίζει ποια είναι +, -, ? - τις παρουσιάζει στο χρήστη Ο χρήστης υποβάλλει την απάντηση Αν οι απαντήσεις: έχουν λάθος αρνείται πρόσβαση είναι σωστές παρέχεται πρόσβαση θεωρεί όλες τις απαντήσεις σωστές ενημερώνει τα Support και Confidence ranks Εξετάζονται οι απαντήσεις που γνωρίζει
Η διαδικασία Ο αριθμός στηλών (#c) και εικόνων ανά στήλη (#i) είναι διαμορφώσιμοι Αν κάποιος πράκτορας προσπαθούσε να περάσει το test με τυχαίες απαντήσεις τότε θα είχε 1 επιτυχές χτύπημα κάθε (#i+1) #c-1 προσπάθειες
Η εμπειρική αξιολόγηση 2 ο στάδιο: για την πραγματική χρήση του από εθελοντές έγινε σε 2 φάσεις (1 η και 2 η βάση γνώσεων αντίστοιχα) συμμετείχαν 143 εθελοντές χωρίς να τους δοθούν οδηγίες 1 ο στάδιο: για την παραγωγή βάσεων γνώσης συμμετείχαν 2 εθελοντές χωρίς να τους δοθούν οδηγίες δημιουργήθηκαν 2 βάσεις γνώσεων (101 και 63 εικόνες αντίστοιχα) 3 ο στάδιο: για την αξιολόγηση των στοιχείων συμμετείχαν 2 εθελοντές τους παρουσιάστηκαν όλα τα δεδομένα και κλήθηκαν να κάνουν τις αντιστοιχίες Label-Image
Η εμπειρική αξιολόγηση Αποτελέσματα Μετά το 2 ο στάδιο ψευδείς αληθείς ελάχιστα πειστικές Knowledge base 1 Knowledge base 2
Η εμπειρική αξιολόγηση Αποτελέσματα Απεικόνιση σχετικά με την επιτυχή έκβαση του test (προσδιορισμός αριθμών προσπαθειών μέσου χρήστη) - knowledge base 1: το 81,48% πέρασε το test - knowledge base 2: το 93,08% πέρασε το test
Συμπεράσματα - Τα εμπειρικά αποτελέσματα αποδεικνύουν δυνατότητα εξαγωγής έγκυρης γνώσης από τους χρήστες σταθερότητα στην ικανοποίηση των αναγκών ασφαλείας - Σε γενικές γραμμές αναγνώριση της χαμηλής απόδοσης της προσέγγισης - Μελλοντικές εφαρμογές σχεδιασμό CAPTCHA για απόκτηση γνώσης κοινής λογικής (commonsense knowledge) για ανάπτυξη καλύτερων computation agents σχεδιασμό KA-CAPTCHA που να μπορεί να “λυθεί” και από άτομα με προβλήματα όρασης - Παρούσες εφαρμογές σε εξέλιξη
ΕΡωΤήΣεις