ELRC Workshop in Romania, 23.03.2016 Sharing Data and Language Resources: Technical Aspects and Best Practices Stelios Piperidis ELRC, ILSP/Athena RC 1.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Ελληνική Βιομηχανία: προς την οικονομία της γνώσης, ΤΕΕ, Αθήνα, 3-5 Ιουλίου 2006 The Knowledge Economy and Public Administration Dr. Costis Toregas George.
Advertisements

ΗΥ Παπαευσταθίου Γιάννης1 Clock generation.
ΟΡΓΑΝΙΣΜΟΣ ΒΙΟΜΗΧΑΝΙΚΗΣ ΙΔΙΟΚΤΗΣΙΑΣ “Preparing Europe for Global Competition” THE NETWORK : The Patent and Trademark Offices.
Προσομοίωση Δικτύων 2n Άσκηση Δημιουργία, διαμόρφωση μελέτη επικοινωνιακών ζεύξεων.
Week 11 Quiz Sentence #2. The sentence. λαλο ῦ μεν ε ἰ δότες ὅ τι ὁ ἐ γείρας τ ὸ ν κύριον Ἰ ησο ῦ ν κα ὶ ἡ μ ᾶ ς σ ὺ ν Ἰ ησο ῦ ἐ γερε ῖ κα ὶ παραστήσει.
WRITING B LYCEUM Teacher Eleni Rossidou ©Υπουργείο Παιδείας και Πολιτισμού.
Install WINDOWS 7 Κουτσικαρέλης Κων / νος Κουφοκώστας Γεώργιος Κάτσας Παναγιώτης Κουνάνος Ευάγγελος Μ π ουσάη Ελισόν Τάξη Β΄ Τομέας Πληροφορικής 2014 –’15.
Τελική εργασία του μαθήματος “Σχεδιασμός Δημιουργικού & Διαφημιστικών Μηνυμάτων” Ιανουάριος 2054 Ομάδα Χ Ονοματεπώνυμο 1 Ονοματεπώνυμο 2 Ονοματεπώνυμο.
Διοίκηση Απόδοσης Επιχειρηματικών Διαδικασιών Ενότητα #5: Key result indicators (KRIs), Performance Indicators (PIs), Key Performance Indicators (KPIs)
Προσομοίωση Δικτύων 4η Άσκηση Σύνθετες τοπολογίες, διακοπή συνδέσεων, δυναμική δρομολόγηση.
ELRC Workshop in Prague, Sharing Data and Language Resources: Technical Aspects and Best Practices Stelios Piperidis ELRC, ILSP/Athena RC 1.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Εισαγωγή στην Ανθρωπολογία της Τέχνης Κουλτούρα, πολιτισμός και εθνική ταυτότητα (CULTURE &I DENTITY.
Προσομοίωση Δικτύων 3η Άσκηση Δημιουργία, διαμόρφωση μελέτη σύνθετων τοπολογιών.
Αριθμητική Επίλυση Διαφορικών Εξισώσεων 1. Συνήθης Δ.Ε. 1 ανεξάρτητη μεταβλητή x 1 εξαρτημένη μεταβλητή y Καθώς και παράγωγοι της y μέχρι n τάξης, στη.
ΔΕΥΤΕΡΟ ΣΕΜΙΝΑΡΙΟ ΕΠΙΜΟΡΦΩΤΩΝ ΑΘΗΝΑ, ΣΕΠΤΕΜΒΡΙΟΣ 2011 Ο.ΕΠ.ΕΚ Αρχική Συνεδρία Γ. Τύπας, Σύμβουλος Παιδαγωγικού Ινστιτούτου και μέλος του Δ.Σ. του Ινστιτούτου.
Στάδια εξέλιξης των συστημάτων ποιότητας. ΕΞΕΛΙΞΗ ΣΥΣΤΗΜΑΤΩΝ ΔΙΟΙΚΗΣΗΣ ΤΗΣ ΠΟΙΟΤΗΤΑΣ ΕΠΙΘΕΩΡΗΣΗ ΕΛΕΓΧΟΣ ΠΟΙΟΤΗΤΑΣ ΔΙΑΣΦΑΛΙΣΗ ΠΟΙΟΤΗΤΑΣ ΔΙΟΙΚΗΣΗ ΟΛΙΚΗΣ.
Περιπτώσεις εφαρμογών σε αναπτυσσόμενες χώρες από την Practical Action This publication has been produced with the assistance of the European Commission.
ERASMUS+ - ΒΔ 1 Σχολική Εκ π αίδευση – Εκ π αίδευση Ενηλίκων Ημερίδα Παροχής Πληροφοριών για τη Διαχείριση και Υλοποίηση των Εγκεκριμένων Σχεδίων (Πρόσκληση.
Διαχείριση Διαδικτυακής Φήμης! Do the Online Reputation Check! «Ημέρα Ασφαλούς Διαδικτύου 2015» Ε. Κοντοπίδη, ΠΕ19.
Μάθημα 1 ΔΙΑΔΙΚΤΥΟ Διευθύνσεις και Πρωτόκολλα. Διευθύνσεις Πως αποκωδικοποιούνται οι διευθύνσεις: Πρωτόκολλο://server.domain.
Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών Τεχνολογία Διοίκησης Επιχειρησιακών Διαδικασιών Δημοσιεύσεις Καθηγήτρια: Αφροδίτη Τσαλγατίδου
From Applying Theory to Theorising Practice Achilleas Kostoulas Epirus Institute of Technology.
Guide to Business Planning The Value Chain © Guide to Business Planning A principal use of value chain analysis is to identify a strategy mismatch between.
Μαθαίνω με “υπότιτλους”
Διασφάλιση των κανόνων του ελεύθερου ανταγωνισμού στον τομέα των ΜΜΕ
Διευθύνσεις και Πρωτόκολλα στο διαδίκτυο
Ερωτήσεις –απαντήσεις Ομάδων Εργασίας
Πανεπιστήμιο Ιωαννίνων
Industry Led Software Development Cluster of Thessaloniki
Σύμβαση του ΟΗΕ για τα δικαιώματα των ατόμων με αναπηρία
Στάδια εξέλιξης των συστημάτων ποιότητας
Λ. Μήτρου, Επικ. Καθηγήτρια – Πανεπιστήμιο Αιγαίου Κανονιστικές και Κοινωνικές Διαστάσεις της Κοινωνίας της Πληροφορίας /3 Χειμερινό εξάμηνο
JSIS E 111: Elementary Modern Greek
Ψηφιακeς ιδEες και αξIες
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Διοίκηση Απόδοσης Επιχειρηματικών Διαδικασιών
Πανεπιστήμιο Θεσσαλίας
ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ
Chemicals: The first link in many value chains ENΕΡΓΟUMΕ ΜΕ TO NOMO
ΟΡΓΑΝΩΣΗ ΑΘΛΗΤΙΚΗΣ ΕΓΚΑΤΑΣΤΑΣΗΣ
Μουσενίκας Δημήτριος Βλάχος Χριστόδουλος
Ψαλμός 86:11 Το δρόμο σου Κύριε δίδαξε με θα στην αλήθεια σου και πάνω
Εντολές Δικτύων Command Line.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
(ALPHA BANK – EUROBANK – PIRAEUS BANK)
Σεμινάριο “Πώς να καταστήσετε το έργο σας Ανοικτής Πρόσβασης”
CYPRUS RHEUMATOLOGY SOCIETY
Ο Θεός Φροντίζει για Μας
Ο Θεός Φροντίζει για Μας
Erasmus+ Βασική Δράση 1 Σχολική Εκπαίδευση & Εκπαίδευση Ενηλίκων
Πανεπιστήμιο Θεσσαλίας
ΑΓΓΛΙΚΑ Ε’ ΔΗΜΟΤΙΚΟΥ English 5th Grade -Writing Activities-
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ – ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ Μεταπτυχιακό Πρόγραμμα Σπουδών στην Επιστήμη της Πληροφορίας «Διοίκηση και Οργάνωση Βιβλιοθηκών.
Ημερίδα Παράδοσης Συμφωνιών Επιχορήγησης Επαγγελματική Εκπαίδευση & Κατάρτιση ΚΑ Ιουνίου, 2018 Λευκωσία.
Εισαγωγή στα Τρόφιμα This publication has been produced with the support of the European Commission. The contents of this publication are the sole responsibility.
aka Mathematical Models and Applications
Study in Holland: open to international minds
ΤΙ ΕΙΝΑΙ ΤΑ ΜΟΆΙ;.
Study in Holland: open to international minds
Βάλια Τόλιου, Registry Manager for Greece
Ημερίδα Παροχής Οδηγιών Για Συμπλήρωση Αιτήσεων Πρόσκληση 2019
Εθνικό Μουσείο Σύγχρονης Τέχνης Faceforward … into my home!
CPSC-608 Database Systems
Erasmus + An experience with and for refugees Fay Pliagou.
Πρόσβαση και Περαιτέρω Χρήση Δημόσιας Πληροφορίας Η πλευρά του Χρήστη
Διεθνείς και Ευρωπαϊκές Πρωτοβουλίες για την Ανοικτή Διακυβέρνηση
Μεταγράφημα παρουσίασης:

ELRC Workshop in Romania, Sharing Data and Language Resources: Technical Aspects and Best Practices Stelios Piperidis ELRC, ILSP/Athena RC 1

ELRC Workshop in Romania, PSI vs Licensing Illustration of data packaging workflow Data  LRs (Language Resources) Identification & Selection of Data Basic docu- mentation Cleaning & Conversion (content, container) Validation Processing of LRs ( e.g. Alignment ) Description & Storage of LRs Legal Status determination Upload data to the Repository & Sharing Privacy handling and acceptance (i.e. anonymization) Value chain activity  Market knowledge  Industry network PartnershipELRC Public Partner ELRC / EC

ELRC Workshop in Romania, PSI vs. Licensing Issues to address (1) Identification & Selection of Data Basic documentati on Legal status determination  Market knowledge  Industry network Partnership Identification of sources Identification and selection of data sets (raw data) Legal issues Licensing Privacy and ethics management

ELRC Workshop in Romania, Procedural Issues –Open data by default e.g. PSI –Data requests Licensing –ELRC can help with the procedures –Model licensing agreements Government Open Licenses Standard Re-use Licenses License interoperability Legal issues 4

ELRC Workshop in Romania, PSI vs. Licensing Issues to address (2) Identification & Selection of Data Basic documentati on Legal status determination  Market knowledge  Industry network Partnership Documentation with basic identification elements (Languages, Domains, year, …) Technical issues Choice of Medium and Data formats for the transfer of the “raw” data (preference for the ELRC ad hoc platform)

ELRC Workshop in Romania, Any digital textual data !! 6

ELRC Workshop in Romania, Issues to address (3) Cleaning & Conversion (content, container) Privacy handling and acceptance (i.e. anonymization)  Market knowledge  Industry network ELRC Technical issues (cont) Cleaning of data format encoding Character sets e.g. UTF8 discarding formatting, e.g. bold, italic; graphics, ads, tables, html tags, etc. …

ELRC Workshop in Romania, Formatting example 8 Greece is a place of culture, the arts and sciences. Its tradition of contribution to global cultural and scientific communities, combined with its outstanding natural beauty and excellent infrastructure, has made it an ideal place in which to hold conferences. Over the last few years, Greece has more and more frequently welcomed people of letters, sciences and the arts, who have participated in symposia, conferences and exhibitions. Athens International Airport ‘Eleftherios Venizelos’, one of the most modern airports in the world in operation since 2001, greatly boosted the organization of international conferences.Athens International Airport ‘Eleftherios Venizelos’ Η Ελλάδα αποτελεί έναν χώρο πολιτισμού, τέχνης και επιστημών. Η μακραίωνη συμβολή της στο παγκόσμιο γίγνεσθαι, σε συνδυασμό με το μοναδικό φυσικό κάλλος και τις άρτιες υποδομές, την καθιστούν ιδανικό τόπο διεξαγωγής συνεδρίων. Τα τελευταία χρόνια, η ελληνική επικράτεια υποδέχεται όλο και συχνότερα ανθρώπους των γραμμάτων, των επιστημών και των τεχνών, οι οποίοι συμμετέχουν σε συμπόσια, συνέδρια και εκθέσεις. Ο Διεθνής Αερολιμένας Αθηνών «Ελευθέριος Βενιζέλος», ένα από τα πλέον σύγχρονα αεροδρόμια παγκοσμίως, ο οποίος λειτουργεί από το 2001, έδωσε μεγάλη ώθηση στη διοργάνωση διεθνών συνεδρίων.Διεθνής Αερολιμένας Αθηνών Greece is a place of culture, the arts and sciences. Its tradition of contribution to global cultural and scientific communities, combined with its outstanding natural beauty and excellent infrastructure, has made it an ideal place in which to hold conferences. Over the last few years, Greece has more and more frequently welcomed people of letters, sciences and the arts, who have participated in symposia, conferences and exhibitions. Athens International Airport ‘Eleftherios Venizelos’, one of the most modern airports in the world in operation since 2001, greatly boosted the organization of international conferences. Η Ελλάδα αποτελεί έναν χώρο πολιτισμού, τέχνης και επιστημών. Η μακραίωνη συμβολή της στο παγκόσμιο γίγνεσθαι, σε συνδυασμό με το μοναδικό φυσικό κάλλος και τις άρτιες υποδομές, την καθιστούν ιδανικό τόπο διεξαγωγής συνεδρίων. Τα τελευταία χρόνια, η ελληνική επικράτεια υποδέχεται όλο και συχνότερα ανθρώπους των γραμμάτων, των επιστημών και των τεχνών, οι οποίοι συμμετέχουν σε συμπόσια, συνέδρια και εκθέσεις. Ο Διεθνής Αερολιμένας Αθηνών «Ελευθέριος Βενιζέλος», ένα από τα πλέον σύγχρονα αεροδρόμια παγκοσμίως, ο οποίος λειτουργεί από το 2001, έδωσε μεγάλη ώθηση στη διοργάνωση διεθνών συνεδρίων.

ELRC Workshop in Romania, Issues to address (4) Cleaning & Conversion (content, container) Privacy handling and acceptance (i.e. anonymization)  Market knowledge  Industry network ELRC Technical issues (cont) File cleaning (e.g. conversion to XML, XLIFF, etc.) Data anonymization

ELRC Workshop in Romania, Identify a large source of data on individuals, organizations etc. Use a Named Entity Recognizer (NER) to find and remove private biodata (names, locations, dates, birth information, etc.) and replace with generic placeholders Confirm results meet acceptable requirements –Reject data if anonymization is not accurate as required Data anonymization 10

ELRC Workshop in Romania, Issues to address (5) Validation Public partner Validation and Quality control of the output of the anonymization procedure Validation and Quality Control of the output (Language Resource format, content)  accept / reject LR

ELRC Workshop in Romania, Issues to address (6)  Market knowledge  Industry network Processing of LRs ( e.g. Alignment ) Description & Storage of LRs Upload data to the Repository & Sharing ELRC / ΕΕ Data preparation and processing for Automated Translation tools (e.g. Alignment) Description of the Language Resource (meta-data) Packaging and delivery (Data Repository with e-sharing) to EC and Owner

ELRC Workshop in Romania, Identification of sources Identification and selection of data sets (raw data) –Data can be obtained from the visible sources (e.g. harvested from web) –Data can be handed over by the public sector players –Public sector players can boost the identification of visible sources Processing indicated above can be carried out in cooperation by the ELRC and the data provider Cooperation actions 13

ELRC Workshop in Romania, Support for all procedures and technical issues –Support services ELRC portal How ELRC can help? 14

ELRC Workshop in Romania, ELRC portal Screen shot goes here

ELRC Workshop in Romania, Support for all procedures and technical issues –Support services ELRC portal technical & legal support helpdesk How ELRC can help? 16

ELRC Workshop in Romania, ELRC portal: Helpdesk 17 Screen shot goes here

ELRC Workshop in Romania, Support for all procedures and technical issues –Support services ELRC portal technical & legal support helpdesk forum How ELRC can help? 18

ELRC Workshop in Romania, ELRC Portal: Web Forum 19 Screen shot goes here

ELRC Workshop in Romania, Support for all procedures and technical issues –Support services ELRC portal technical & legal support helpdesk forum repository for sharing LRs How ELRC can help? 20

ELRC Workshop in Romania, ELRC-SHARE repository (1) 21

ELRC Workshop in Romania, ELRC-SHARE repository (2) 22

ELRC Workshop in Romania, Go to the ELRC-SHARE Repository: elrc-share.ilsp.grelrc-share.ilsp.gr Click the Register button How to Contribute Data (1/8) 23

ELRC Workshop in Romania, How to Contribute Data (2/8) 24 Register Activate account Login Register / Login Describe Upload Contribute data

ELRC Workshop in Romania, Fill in the info Read the Terms of Service and click Accept if you agree Click the Create Account button How to Contribute Data (3/8) 25

ELRC Workshop in Romania, Your request is acknowledged and an activation is sent to the address you indicated Check your and click the activation link How to Contribute Data (4/8) 26

ELRC Workshop in Romania, You get redirected to the data contribution form (or click the Contribute Resources button) How to Contribute Data (5/8) 27

ELRC Workshop in Romania, Fill in the details of the dataset How to Contribute Data (6/8) 28

ELRC Workshop in Romania, Browse your computer for the respective.zip file containing your data Click Submit How to Contribute Data (7/8) 29

ELRC Workshop in Romania, Repeat the process if you want to contribute another resource, or log out How to Contribute Data (8/8) 30

ELRC Workshop in Romania, Repurposing existing data (human translations) is the best way to improve Automated Translation quality Data-driven paradigms provide an efficient way to leverage value from existing resources ELRC can help reviewing data for suitability (at any phase) Do not underestimate the value of your language resources, foresee a Data Management Plan Conclusions 31

ELRC Workshop in Romania, Best practice for the future: Capitalize on your valuable data Best Practice in Data Management 32

ELRC Workshop in Romania, Now that I know the value of data, what should my plans be? What are the best ways to collect, maintain, archive and re-use my data In particular how can I use it for improving MT performances? My data in the future 33

ELRC Workshop in Romania, PSI vs Licensing Main phases of data development Identification & Selection of Data Basic docu- mentation Cleaning & Conversion (content, container) Validation Processing of LRs ( e.g. Alignment ) Description & Storage of LRs Legal Status determination Upload data to the Repository & Sharing Privacy handling and acceptance (i.e. anonymization) Value chain activity  Market knowledge  Industry network This can be part of the data management plan (DMP) Sustainable storage 34

ELRC Workshop in Romania, Anticipate all potential legal issues –Ensure that your data IPRs are cleared –Ensure that the producing parties adhere to your right “ownership” (e.g. relations with LSP: ensure you keep all rights) –Ensure that all produced intermediary documents are yours (e.g. translation memories) –Check the privacy issues in advance and plan for anonymization if necessary Define your management plan with respect to the task –This has to account for the main goal (e.g. document writing, doc translation, etc.) Plan for repurposing (from documentation to LRs) –Request data in a usable format (not only PDFs but also TMX/Word/XML/TXT) –Make sure that your data uses up-to-date medium (no CDs?) Foresee for future publication and sharing as Public Sector Information (PSI) Concerns in creating a DMP 35

ELRC Workshop in Romania, –Specifications Ensure that the original documents are described Ensure that your needs are described Anticipate what you can get as valuable resources (a side effect) –Production Whether internal or outsourced, check that the tools used are compatible with your needs and beyond (e.g. CAT, MT, etc.) Ask for the list of tools and production software Check if you can get texts in the multiple languages aligned to each other Keep a clear documentation of the data being produced (meta- data) 36 Key elements of a Data Management Plan

ELRC Workshop in Romania, –Validation In addition to your quality control, you may want to use some of the validation tools (alignment editors, etc.) –Sharing/distribution Ensure your data falls within the PSI directive as transposed in your country If not, foresee an open and permissive licence If privacy is an issue, plan necessary procedures to handle these –Maintenance/preservation See how ELRC can assist you There is also the option of national/ European open data portal 37 Key elements of a Data Management Plan

ELRC Workshop in Romania, Key elements of a Data Management Plan 38