Дефиниция на OCR

OCR е съкращение от Оптично разпознаване на символи , израз на английски език, който може да се преведе като Оптично разпознаване на символи . Понятието се използва в компютърната наука за назоваване на процедура, която позволява дигитализиране на текст чрез скенер .

OCR

Това, което прави OCR възможно, е, че когато предава текст през определено устройство, системата разпознава символите като част от азбука . По този начин сканираният документ може да се редактира с текстов редактор , тъй като не се съхранява като изображение.

По този начин OCR улеснява работата, която много хора трябва да направят. Ако някой сканира книга с намерение да направи обобщение, благодарение на OCR може да взаимодейства с текста, сканиран чрез програма като Microsoft Word , изрязване, копиране и поставяне на всяка дума, нещо невъзможно, ако не се извърши такъв процес на разпознаване, тъй като компютърът не може да разбере текста, който е в изображение.

Освен очевидното предимство на съхраняване на текст като такъв, а не като образ, има значителна разлика в теглото: изображенията могат да заемат много повече дисково пространство от текстовете, и това трябва да се вземе под внимание, ако искате да имате книги цялото сканирано. Разбира се, не във всички случаи е препоръчително компютърът да изпълнява OCR, особено ако няма намерение да редактирате съдържанието.

Любопитно е, че само едно приложение може да промени толкова драстично капацитета на един и същ компютър, но това е, което се случва във всички случаи: въпреки че съвременните процесори могат да бъдат много ефективни, особено ако са комбинирани с памети и дискове от последно поколение, те са безполезни без правилните програми, така че една и съща машина може да премине от безполезна към изключително напреднала просто от софтуера, който има.

Случаят с OCR е много специфичен, тъй като дава на компютъра умение, което е основно за повечето човешки същества: четене. Заслужава си да споменем, че това не е лесна задача за всеки от нас, въпреки че в нашия случай обикновено се учим да го правим от много ранна възраст, затова придобиваме голямо умение, дори когато трябва да се изправим пред калиграфия, която е трудно да се разбере.

Въпреки напредъка на технологиите , OCR все още е изправен пред редица проблеми. Например получаването на цифрова система за разпознаване на ръкописен текст е доста трудно. Процесът обикновено среща проблеми при сегментирането на различните текстови единици. Същото се случва, когато думите изглеждат много близки заедно.

Други грешки на OCR могат да се появят, когато няма достатъчно контраст между думите и фона. Да предположим, че текст, написан с черни букви, се отпечатва на сив лист: вероятно процесът OCR не може да разграничи буквите и думите .

Нека не забравяме, че както действието, очевидно толкова просто, колкото да вървим по улицата, се нуждаят от редица допълнителни действия, за да се избегнат пречките и да се защити нашата цялост, четенето на отпечатан текст е резултат от няколко едновременни задачи за разузнаване, които изпълняваме. почти несъзнателно, но те ни водят работа.

Когато се сблъскате с текст, нашата собствена OCR система е отговорна за търсене и разпознаване на заглавието, за идентифициране на параграфи, пунктуационни знаци, интервали между думи и съкращения, както и за стремеж към разбиране на източниците. прекалено богато украсен или неподреден и да допълва информацията в региони, които са претърпели всякакъв вид износване, като например петно ​​от мастило или липсващ лист хартия.

border=0

Търсете друго определение