Daily Archives: 2010-07-26


WatchOCR LiveCD διανομή που “διαβάζει” PDF 1

nate&marcia_toss2Αν δουλεύετε σε οργανισμούς με πολύ γραφειοκρατία  (calle me Ελληνικό Δημόσιο) τότε είναι εξαιρετικά πιθανό να έρχεστε βλέπετε δεκάδες, ίσως και εκατοντάδες έγγραφα καθημερινά. Πολλές φορές θα πρέπει να ψάξετε μέσα σε όλα αυτά τα έγγραφα για να βρείτε μια πληροφορία που μπορεί να χρειάζεστε. Ειδικά για τα έγγραφα που είναι δακτυλογραφημένα αλλά πλέον δεν υπάρχει κανένα αρχείο σε ψηφιακή μορφή η πλέον προφανής λύση είναι η χρήση τεχνολογιών OCR (optical character recongition ή οπτική αναγνώριση χαρακτήρων επί το Ελληνικότερο).

Στο Linux μια από τις πλέον αξιόπιστες λύσεις (υπάρχουν πολλές) είναι η χρήση του cuneiform και της βιβλιοθήκης ExactImage ώστε χρησιμοποιώντας ένα PDF που βασίζεται σε σκαναρισμένες εικόνες να το μετατρέπει σε PDF με κείμενο το όποιο είναι αναζητήσιμο. Φυσικά για να το κάνει κανείς αυτό σε περιβάλλον ενός μικρού γραφείου κάτι τέτοιο είναι στα πλαίσια του εφικτού με πολλούς τρόπους αν όμως πρόκειται για ένα μεγάλο οργανισμό και δεκάδες ή εκατοντάδες υπερεσίες που διατηρούν αρχεία τι γίνεται;

Μια (αρκετά ενδιαφέρουσα κατά την γνώμη μου) προσέγγιση είναι η χρήση του WatchOCR. To WatchOCR είναι μια Live διανομή που βασισμένη στο Knoppix. Ο χρήστης αφού boot-άρει το WatchOCR το μόνο που έχει να κάνει είναι να ανοίξει το browser του και να γράψει localhost ως διεύθυνση ώστε να ανοίξει το Interface διαχείρισής για να ορίζει τους φακέλους που επιθυμεί να ελέγχει το WatchOCR ώστε να εντοπίζει νέα αρχεία που χρειάζονται μετατροπή καθώς και τους φακέλους που επιθυμεί ο χρήστης να τοποθετούνται τα νέα αρχεία PDF με πληροφορία κειμένου. Επίσης το WatchOCR μια και βασίζεται το Knoppix μπορείτε να το εγκαταστήσετε και μόνιμα σε ένα server στο δίκτυο σας που μπορεί να κάνει αυτή την δουλεία.

Νόμιζω ότι είναι μια προσπάθεια που  αξίζει να παρακολουθήσουν όσοι ενδιαφέρονται για αυτή την (ομολογουμένως εξειδικευμένη) εφαρμογή.