OCR - це оптичне розпізнавання символів або також відоме на іспанській мові як оптичне розпізнавання символів. OCR - це програмне забезпечення, яке дозволяє розпізнавати текст, створюючи його зображення, перетворюючи його в послідовність символів, а потім зберігаючи їх у заданому форматі, який можна використовувати в цих програмах редагування тексту. Іншими словами, завдяки цій новій технології будь-який тип тексту або документа, включаючи файли PDF, відскановані папери або навіть зображення, зроблені з цифрових камер, можуть бути перетворені в дані, щоб мати можливість редагування.
Це програмне забезпечення працює наступним чином, спочатку воно аналізує кожну частину зображення відповідного документа; розподіляти сторінку по частинах, таких як таблиці, зображення, текстові блоки серед інших; потім рядки розподіляються словами, щоб згодом стати символами; і оскільки символи вже вказані, програмне забезпечення здійснює порівняння з групою зображень малюнка. Це просувається відповідно до ряду гіпотез про те, що таке кожен персонаж; і на основі цих гіпотез він аналізує різні варіанти розбиття рядків на слова та слів на символи. І саме після великої кількості аналізу та обробки гіпотез програма нарешті представляє вже розпізнаний і перетворений текст у новому форматі.
Слід зазначити, що сьогодні існує низка програм, які пропонує комп’ютерний ринок на основі OCR, такі як OmniPage, Abbyy Fine Reader або READiris. YY, які мають можливість не тільки аналізувати та розпізнавати текст як такий, але також розпізнавати формат і стиль, але з певними обмеженнями, вимагаючи, щоб текст після аналізу був відредагований для внесення коригувань, які вимагати.