В этой ветке я предлагаю обсуждать создание программ для обработки "сырых" сканов бумажных книг. Такая программа нужна как промежуточный этап между сканированием бумажной книги и кодированием её в формат DjVu/Pdf.
Наиболее известная программа такого типа - СканКромсатор.
Читайте также статью О возможности альтернативы СканКромсатору.
Также известны (на сегодняшний день):
1. unpaper v0.2 http://unpaper.berlios.de/
2. Pagetools http://pagetools.sourceforge.net/ (ищется автор проекта)
3. POST http://akakii.net/post.html (имеется только описание)
Цель этой ветки - обмен идеями, ссылками, а в дальнейшем - и алгоритмами в виде исходных кодов.
Предлагаю обсуждать только программы с открытыми исходными кодами.
Родственные ветки:
Электронные книги: сканирование, обработка, сборка - II
Ссылки:
OCR Проект "Открытый код" Санкт-Петербургский государственного университета.
Смотрите также список ссылок на алгоритмы с исходниками:
[more]Список бесплатного графического софта:
http://www.graphiccompetitions.com/grsoft.php
Материалы для разработчиков:
http://www.djvu-soft.narod.ru/scan/#dev
Англоязычные проекты с открытыми исходниками:
http://freeimage.sourceforge.net/ - эта графическая библиотека считается наилучшей.
http://www.xdp.it/cximage.htm - графическая библиотека CxImage - не рекомендована к использованию, но зато содержит немало готовых алгоритмов.
http://sourceforge.net/forum/forum.php?thread_id=1356269&forum_id=36109 - сравнение CxImage и FreeImage.
http://unpaper.berlios.de/ - проект по обработке сканов книг.
http://www.leptonica.com/local-sources.html - библиотека базовых операций над изображениями.
http://pagetools.sourceforge.net/ - алгоритм deskew (пока только это там есть). Автор - кто-то из Рубордовцев. Кто - неизвестно.
http://durendal.org:8080/twiki/bin/view/Deskew/WebHome - исследования по алгоритму deskew.
http://www.codeproject.com/samples/matlabeng.asp - Using MATLAB Engine API to control MATLAB.
http://cvs.pld.org.pl/pocr/ - какие-то материалы, вроде бы по теме - но где там исходники?
http://www.codeproject.com/useritems/Deskew_an_Image.asp - How to Deskew an Image.
http://filters.sourceforge.net/ - библиотека графических фильтров на базе FreeImage.
http://jocr.sourceforge.net/links.html - список GPL OCR (+ http://tesseract-ocr.sourceforge.net/ )
http://akakii.net/post.html - проект по обработке сканов книг. Нет ни исходников, ни экзешников. Кто - неизвестно.
http://www.efg2.com/ - полезный сайт по работе с графикой. Вроде бы есть исходники там.
http://autotrace.sourceforge.net/ - проект по конвертации растр->вектор. Содержит много полезных ссылок для нашей тематики.
Несколько статей по теме "Исправление искривленных строк текста" (это называется Dewarping):
http://library.graphicon.ru/pubbin/list_papers.pl?search_p_child=1&search_prop_id=363
[/more]
Наиболее известная программа такого типа - СканКромсатор.
Читайте также статью О возможности альтернативы СканКромсатору.
Также известны (на сегодняшний день):
1. unpaper v0.2 http://unpaper.berlios.de/
2. Pagetools http://pagetools.sourceforge.net/ (ищется автор проекта)
3. POST http://akakii.net/post.html (имеется только описание)
Цель этой ветки - обмен идеями, ссылками, а в дальнейшем - и алгоритмами в виде исходных кодов.
Предлагаю обсуждать только программы с открытыми исходными кодами.
Родственные ветки:
Электронные книги: сканирование, обработка, сборка - II
Ссылки:
OCR Проект "Открытый код" Санкт-Петербургский государственного университета.
Смотрите также список ссылок на алгоритмы с исходниками:
[more]Список бесплатного графического софта:
http://www.graphiccompetitions.com/grsoft.php
Материалы для разработчиков:
http://www.djvu-soft.narod.ru/scan/#dev
Англоязычные проекты с открытыми исходниками:
http://freeimage.sourceforge.net/ - эта графическая библиотека считается наилучшей.
http://www.xdp.it/cximage.htm - графическая библиотека CxImage - не рекомендована к использованию, но зато содержит немало готовых алгоритмов.
http://sourceforge.net/forum/forum.php?thread_id=1356269&forum_id=36109 - сравнение CxImage и FreeImage.
http://unpaper.berlios.de/ - проект по обработке сканов книг.
http://www.leptonica.com/local-sources.html - библиотека базовых операций над изображениями.
http://pagetools.sourceforge.net/ - алгоритм deskew (пока только это там есть). Автор - кто-то из Рубордовцев. Кто - неизвестно.
http://durendal.org:8080/twiki/bin/view/Deskew/WebHome - исследования по алгоритму deskew.
http://www.codeproject.com/samples/matlabeng.asp - Using MATLAB Engine API to control MATLAB.
http://cvs.pld.org.pl/pocr/ - какие-то материалы, вроде бы по теме - но где там исходники?
http://www.codeproject.com/useritems/Deskew_an_Image.asp - How to Deskew an Image.
http://filters.sourceforge.net/ - библиотека графических фильтров на базе FreeImage.
http://jocr.sourceforge.net/links.html - список GPL OCR (+ http://tesseract-ocr.sourceforge.net/ )
http://akakii.net/post.html - проект по обработке сканов книг. Нет ни исходников, ни экзешников. Кто - неизвестно.
http://www.efg2.com/ - полезный сайт по работе с графикой. Вроде бы есть исходники там.
http://autotrace.sourceforge.net/ - проект по конвертации растр->вектор. Содержит много полезных ссылок для нашей тематики.
Несколько статей по теме "Исправление искривленных строк текста" (это называется Dewarping):
http://library.graphicon.ru/pubbin/list_papers.pl?search_p_child=1&search_prop_id=363
[/more]