topografoi.com



Author Topic: Πρόσφατες διπλωματικές, μεταπτυχιακές και διδακτορικές διατριβές  (Read 6607 times)

Κωστής

  • Administrator
  • Posts: 577
  • Gender: Male
    • kp
Στην αρχική σελίδα προστέθηκε μια λίστα με 15 προσφατες εργασίες στο χώρο του Αγρονόμου και Τοπογράφου Μηχανικού προερχόμενες από το ΕΜΠ και το ΑΠΘ.

Πρόκειται για ένα script σε php που τραβάει αρχικά δεδομένα από τα xml των αντίστοιχων ιδρυματικών αποθετηρίων και στη συνέχεια διατρέχει τις σελίδες στις οποίες υπάρχουν διπλωματικές εργασίες που σχετίζονται με τους ΑΤΜ και εξάγει Όνομα συγγραφέα, Θέμα, Περίληψη, Σύνδεσμο και το μοναδικό αναγνωριστικό του αποθετηρίου. Τα στοιχεία αυτά καταχωρούνται σε βάση sqlite, απο την οποία στη συνέχεια ανακτώνται οι 15 πιο πρόσφατες που εμφανίζονται και στην πρώτη σελίδα. Στη βάση αυτη τη στιγμή έχουν καταχωρηθεί ~1350 εργασίες [~6mb]. Tα script που ενημερώνουν τη βάση είναι διαθέσιμα στο github οπού όποιος επιθυμεί μπορεί να συνεισφέρει στη βελτίωση του κώδικα.

Προβλήματα που ανέκυψαν:
Το ΕΜΠ και το ΑΠΘ χρησιμοποιούν διαφορετικό λογισμικό για τα αποθετήριά τους, οπότε συνταχθηκαν 2 διαφορετικά script που να επιχειρούν την ανακτηση των δεδομένων. Νομίζω πως και τα δύο ιδρύματα υποστηρίζουν το πρότυπο OAI-PMH για τη συγκέντρωση μεταδεδομένων όμως εγω ήθελα να πειραματιστώ με το scraping της html. Αν κάποιος διακρίνει μια πιο εύκολη προσέγγιση του θέματος, ας ορμήσει :-)

Τα μεταδεδομένα δεν είναι καταχωρημένα με όμοιο τρόπο σε όλες τις εργασίες. Στο αποθετήριο του ΕΜΠ, ειδικότερα, οι περιλήψεις αλλού απαντώνται  κάτω απο το tag "DCTERMS.abstract" και αλλού υπό το Tag "heal.abstract".

Σε ορισμένες περιπτώσεις εχει δηλωθεί εσφαλμένα η γλώσσα της περίληψης, σε άλλες δεν υπάρχει στα ελληνικά, ενώ σε κάποιες περιπτώσεις δεν υπάρχει καθόλου περίληψη. Περίπου το 2% των εργασιών που προσπελάστηκαν εμπίπτουν σε αυτή την περίπτωση.

Βρέθηκαν τρεις (3) εγγραφες στη βάση του dspace.ntua στις οποίες υπάρχει πρόβλημα με την εμφάνιση των δεδομενων (οι αντίστοιχες σελίδες του ιδρύματος εμφανίζονται κενες ενώ τα μεταδεδομένα υπάρχουν). Η προσπέλαση τους έγινε χειροκίνητα και θα ενημερωθεί και ο admin του συστήματος.

todo:
Πρέπει να βελτιωθεί λίγο η διαχείριση των σφαλμάτων που προκύπτουν
Να γίνεται έλεγχος διπλοεγγραφών
Να διορθωθεί η καταχωρηση της ημερομηνίας στη βάση (μετα την καταχωρηση διαπιστωθηκε πως στα μεταδεδομένα του dspace υπάρχουν ημερομηνία καταχωρησης στο σύστημα, παρουσίασης διπλωματικης και αναρτησης στο σύστημα) 
Να φτιαχτει μια σελίδα που θα υπάρχει πρόσβαση σε όλες τις εγγραφες της βασης με δυνατοτητα αναζητησης.
Να υλοποιηθεί καταχωρηση δημοσιεύσεων σε journals

και βλέπουμε :-)


 

Copyright © topografoi.com