Имя пользователя:
Пароль:  
Помощь | Регистрация | Забыли пароль?  | Правила  

Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Программирование и базы данных » Распознавание текста (OCR)

Ответить
Настройки темы
Распознавание текста (OCR)
pva pva вне форума

Аватара для pva

Ветеран


Сообщения: 1180
Благодарности: 279

Профиль | Отправить PM | Цитировать


В общем, стукнуло меня в голову переложить очередную часть работы моих любимых сотрудников в моей любимой конторе на могучие плечи роботехники. Есть мысль автоматизировать ввод паспортных данных при помощи сканера или фотоаппарата. Если часть вопросов окажется не по теме - прошу модераторов не обижаться *SORRY*.
1. Если у кого в паспорте основные данные записаны от руки (а не принтером), дайте знать, пожалуйста
2. Посоветуйте метод (любой), лучше, если есть ссылки на теорию (в библиотеку идти неохота)
Задача: распознать слово, с очень небольшим уровнем шума, написанное неизвестным шрифтом в заданном прямоугольнике на картинке. Текст может включать русские или английские буквы и цифры (ну паспорт то все ведь видели). Подогнать изображение в нужный прямоугольник - это я умею.
3. За полезное сотрудничество могу поделиться результатом (dll). За очень полезное - исходниками (пишу на с++, приятным стилем, собирается почти любым компилятором)

Отправлено: 20:56, 10-03-2007

 

Аватара для vadimiron

Ветеран


Сообщения: 1864
Благодарности: 120

Профиль | Отправить PM | Цитировать


pva
Не знаю, как самому писать, но мы пользуемся уже готовыми утилитами (конечно платные), которые либо сканируют весь документ и мы потом разбираем результаты, или другой тип программ: создаётся средствами программы форма с указанием какие где поля будут, и программа далее сканирует эти регионы и возвращает результат

Из бесплатного могу посоветовать проект simpleOCR, gocr(jocr)

-------
Fortes fortuna adiuvat


Отправлено: 23:27, 11-03-2007 | #2



Для отключения данного рекламного блока вам необходимо зарегистрироваться или войти с учетной записью социальной сети.

Если же вы забыли свой пароль на форуме, то воспользуйтесь данной ссылкой для восстановления пароля.


Аватара для CyberDaemon

DOOMer


Сообщения: 3254
Благодарности: 438

Профиль | Отправить PM | Цитировать


Цитата:
при помощи сканера или фотоаппарата
Я тут книжку фотографированную распознавал.... Морока та еще, сканер намного лучше картинку дает. Хотя, конечно, паспорт поменьше, чем А5 будет

Отправлено: 12:39, 12-03-2007 | #3


Аватара для vadimiron

Ветеран


Сообщения: 1864
Благодарности: 120

Профиль | Отправить PM | Цитировать


Цитата:
Морока та еще, сканер намного лучше картинку дает
Да, это верно. Но есть software, которое вроде под фотоаппараты оптимизировано, например topOCR, но сам я не пробЫвал

-------
Fortes fortuna adiuvat


Отправлено: 12:57, 12-03-2007 | #4

pva pva вне форума Автор темы

Аватара для pva

Ветеран


Сообщения: 1180
Благодарности: 279

Профиль | Отправить PM | Цитировать


В общем, почитал, что по этому поводу народ пишет. Пришёл к выводу, что самая страшная проблема - нахождение строчек текста и разбиение на слова и буквы. Честно говоря, не нашёл в этом ничего сложного. Тем более, что в паспоте найти строчки не так трудно.
Обнаружил, что всё-таки ещё есть паспорта, заполненные от руки, но это пренебрежимое исключение. Заполняются данные 2-мя шрифтами: Ариал струйниками/лазерниками и встроенным матричным (больше похож на курьер), с двойной прогонкой строчек.
Почитал, какие есть методы. Почему-то распознаются всё время 2-цветные изображения, хотя я привык работать с полноцветными (оттенки серого). Есть 2 основных метода идентификации символов: свёртка с изображением символа шрифта и трассировка контуров. Ещё, правда, используются нейронные сети (больше для рукописного текста), но на это я не зарюсь (мне столько текста не найти, да и не надо для моих целей).
Так как типы шрифтов внегласно унифицированы, я могу смело применять более точный (но специализированный) метод - сравнение с буквой шрифта.
Короче, систематизировал кучу информации, буду пробовать. А чтобы не перевариться в собственном соку, очень хочу услышать ваше мнение:
1. Как оделять символы друг от друга?
2. Каким методом идентификации символа предпочтительней воспользоваться (или модификацией)?
3. Если ваш паспорт заполнен не рукописно и не матричным принтером, дайте знать (я уже достал всех знакомых этим вопросом)?

Отправлено: 16:55, 13-03-2007 | #5



Компьютерный форум OSzone.net » Программирование, базы данных и автоматизация действий » Программирование и базы данных » Распознавание текста (OCR)

Участник сейчас на форуме Участник сейчас на форуме Участник вне форума Участник вне форума Автор темы Автор темы Шапка темы Сообщение прикреплено

Похожие темы
Название темы Автор Информация о форуме Ответов Последнее сообщение
Офис и Текст - [addon] OCR CuneiForm 12 eXamp1e Наборы обновлений для Windows XP/2003/Windows 7 9 11-11-2009 12:36
OCR CuneiForm: Распознавание текстов отныне бесплатно ShaRP Новости информационных технологий 14 26-11-2008 16:00
OCR EndErr Общий по Linux 0 24-04-2007 15:53
Распознавание формул. BlackEric Хочу все знать 1 05-06-2006 01:52
Распознавание e-mal'а ivank Вебмастеру 6 02-04-2002 19:59




 
Переход