Jak przebiega proces konwertowania obrazów graficznych na tekst w programach OCR?
Oprogramowanie OCR to specjalne programy stworzone po to, by ułatwić i usprawnić pracę we współczesnych firmach, organizacjach i instytucjach. Automatycznie odczytują one teksty ze zdjęć oraz skanów dokumentów, dzięki czemu, aby przenieść je do komputera, nie trzeba już tracić czasu ani energii na ręczne przepisywanie znajdujących się w nich informacji. Nazwa tych programów wzięła się od angielskiego określenia Optical Character Recognition, co w języku polskim oznacza „optyczne rozpoznawanie znaków”.
Skąd wziął się pomysł na oprogramowanie OCR i jakie były jego początki?
Technologia optycznego rozpoznawania znaków nie jest nowym pomysłem. Jej początki sięgają bowiem roku 1913, kiedy to powstało urządzenie Optofon. Był to rodzaj skanera ręcznego, który został zaprojektowany, aby ułatwić funkcjonowanie osobom niewidomym. Kiedy użytkownik przesuwał go nad tekstem zapisanym na kartce papieru, rozpoznawał on litery i czytał je na głos. W ten sposób osoby niewidome mogły zapoznawać się z treściami zapisanymi w niedostępnej dla nich formie pisemnej. Dzisiejsze oprogramowanie OCR jest o wiele bardziej skomplikowaną i zaawansowaną technologią z zakresu sztucznej inteligencji.
Jak dokładnie działają programy OCR?
Programy OCR szybko i precyzyjnie zamieniają zdjęcia lub skany dokumentów, które dla komputera są tylko nieczytelnym zbiorem pikseli zapisanym w formacie JPG na pliki tekstowe typu TXT albo DOC. Aby móc korzystać z takich programów trzeba najpierw dostarczyć skan lub zdjęcie dokumentu, który ma być przekształcony w czytelną dla komputera wersję cyfrową. Dokumenty, z których dane mają zostać zaczytane, mogą być dostarczone poprzez Hot foldery, e-mail albo RestAPI. Następnie rozpoczyna się optyczne rozpoznawanie znaków. Odbywa się ono w oparciu o ABBYY Fine Reader. Na tym etapie program przetwarza i analizuje obraz, z którego wyodrębnia tekst, elementy graficzne oraz puste pola.
Kiedy tekst zostanie już zlokalizowany, program OCR, którego sprzedażą zajmuje się m.in. firma ReadITOCR, dzieli go na mniejsze części, czyli najpierw na akapity, potem na zdania, a następnie pojedyncze słowa i litery. Słowa zapisane w tabelach lub wykresach są również trafnie rozpoznawane, a następnie dzielone według powyższego wzoru. Gdy tekst zostanie już zidentyfikowany i podzielony, rozpoczyna się faza prawidłowego rozpoznawania znaków. Odróżniane są podobne pod względem zapisu graficznego znaki (np. 0 od litery O lub 8 od litery B), dzięki czemu można z nich złożyć wiarygodne informacje. W celu prawidłowego rozpoznania wzorów oprogramowanie to korzysta z biblioteki programu z różnymi krojami pisma. Cechy znaków są rozpoznawane dzięki zastosowaniu metody raster. Takie postępowanie pozwala uniknąć błędów, gdyż znaki są zawsze trafnie identyfikowane niezależnie od tego, jaką czcionką czy krojem pisma zostały zapisane.
Gdy już wszystkie pojedyncze znaki składające się na tekst zapisany w przetwarzanym dokumencie zostaną rozpoznane, program zaczyna budować tekst w wersji cyfrowej. Aby treść była czytelna i poprawna, oprogramowanie OCR korzysta ze słownika i reguł gramatycznych. Ostatnim etapem jest zapisanie pozyskanych informacji w formie pliku tekstowego, sformatowanego albo PDF.
Z jakimi wyzwaniami radzą sobie programy OCR?
Programy OCR to bardzo sprawne narzędzia, które bez problemu radzą sobie nawet z takimi wyzwaniami jak: rozpoznawanie pieczątek, hiperłącza, kodów kreskowych czy formuł chemicznych zapisanych w zaczytywanych dokumentach. Potrafią rozpoznawać różne formaty tabel, złożony układ wierszy, a jeżeli wymagane dane nie znajdują się na dokumencie, system wylicza je automatycznie. Programy OCR pozwalają oszczędzić czas i wyeliminować ewentualne błędy powstające podczas ręcznego przepisywania treści dokumentów pracownikom biur, urzędów, archiwów czy biur rachunkowych.
Dziękujemy za ocenę artykułu
Błąd - akcja została wstrzymana