Ru-Board.club
← Вернуться в раздел «Программы»

» Universal Share Downloader

Автор: Vulcanite
Дата сообщения: 21.12.2006 18:32
KireevSasha
ну я где наблудил?
Автор: KireevSasha
Дата сообщения: 21.12.2006 18:36
Vulcanite
Гм. А в чем проблема?

Если то что тут http://forum.ru-board.com/topic.cgi?forum=5&topic=21567&start=1060#14
То вроде все правильно....
Я сейчас забросил Gocr

Автор: Alex_Lost
Дата сообщения: 21.12.2006 18:37
Новая версия GOCR (043) выглядит посимпатичнее старой, но то, что я смог
выкачать заточено под новый формат *.pnm, у меня не хватило ума заставить
его нормально работать с библиотекой. Как-нибудь надо сконвертить старую
библиотеку в pnm и заставить обучалку работать с новым форматом.
У меня она упорно сохраняет PBM, видно, параметр -m имеет сокровенный
смысл, но хуже документации чем у GOCR не встречал - не нашел описания
параметров.

Кроме того, там есть параметры удаления паразитных маленьких пикселов -
тоже поиграться бы с ними.


Добавлено:
Однако распознавание в новом GOCR без обучения лучше, чем в обученном старом.
Автор: SlavaMSK
Дата сообщения: 21.12.2006 18:46

Цитата:
Я сейчас забросил Gocr

А зря. В гостивой у Димониуса отписался Andrew (тот что пробел убрал в конце буковок). Он интересную идею подкинул, сейчас тестирую... предворительно результат не плохой.


Цитата:
Для тех, кто использует Gocr с обучением:

после фильтрации и перевёртывания выполняемые UDS.exe границы букв становится очень нечёткими и поэтому Gocr очень трудно найти 95 процентное (по умолчанию) совпадение как при обучении (база при этом так нехило пухнет), так и при распознавании.

Что необходимо сделать (если распознавание натроено через gocr, если ещё не настроен то на борде ищите инструкцию, там все по пунктам):
1) отсюда (http://forum.ru-board.com/topic.cgi?forum=5&topic=21567&start=980#15) взять новый usd.exe настроить на него
забор RapidShareCom.bmp с последующем вызовом recognize.cmd в FineOCR.bat
2) оттуда же взять BMP.rar (распаковать в data кильнуть jpg), удалить старую базу из db.
3) добавить параметр для gocr.exe -a 65 в learn.cmd и -a 50 в recognize.cmd (вот тогда gocr будет нечетко сравнивать. для обучения процент точности побольше, а для распознавания поменьше, он все равно в базу будет смотреть)
4) используя learn.cmd обучить gocr на bmpешках с борды их там хватает (с точность 65 это займет 15 минут)
5) все распознаем через FineOCR.bat
Автор: vengeance
Дата сообщения: 21.12.2006 18:48
Да, GOCR рулит конечно. Особенно если время не знаешь как убить - можно занять себя его обучением - пару -тройку дней убьет только так. Тем же, кто свое время ценит и не хочeт переливать из пустого в порожнее при каждой смене картинок, - выбор ФР.
Автор: Karlo Daddy
Дата сообщения: 21.12.2006 18:50

Цитата:
Можешь удалить если именно usd.ini а не USDownloader.ini


да нет, с usdowloader мне ясно. пытаюсь вникуть что за чем включается.
не могу проникнуться в алгоритм работы. А каким боком ImageMagick
к всему происходящему относится?
Автор: KireevSasha
Дата сообщения: 21.12.2006 18:52
SlavaMSK
Я не спорю что Gocr в каком-то плане лучше - меньше, не такой грузный и т.д.
Но у него большой минус - он хуже (гораздо) обучается и больше ошибается, кроме того нужна куда больше база что б его хоть как-то обучить
Мне проще научить FR на 100 картинках (которые собираются собсвтенно ручно за час-полтора в атомате - просто ставишь вместо распознавалки коллектор и все) чем научить Gocr на 1000 (которые еще собрать нада), кроме того что время потратить - он то спрашивает чаще всего даже и 999 картинке все 4 символа.
Автор: Gimlei
Дата сообщения: 21.12.2006 18:54
qpola

Цитата:
Ага. Отличный наборчик ~50 Mb добра, чтобы качать с одной Рапиды...


Ну, учитывая то, что вряд ли кто-то будет трахаться с автоматической скачкой с рапиды чтобы скачать один-два файла, 50 Мб не так уж и много. Да и у некоторых людей (у меня, например) FineReader стоит и для других целей. В целом аргументы вполне справедливы, но пока что это вроде лучшее решение.

Кстати - никто не пробовал использовать FineReader'овский распознавальщик для других сервисов? iFolder там, и тд?
Автор: Alex_Lost
Дата сообщения: 21.12.2006 18:54
vengeance
Я не могу на работе держать ворованный ФР. И многие не могут.
Это факт, какой смысл рассуждать о времени?

SlavaMSK
Обрати внимание на мое замечание о новой версии GOCR.
Если бы знать все его параметры и хорошо обучить, было бы гораздо лучше.
Даже необученный он хватает не менее двух букв в моих попытках.

Автор: vengeance
Дата сообщения: 21.12.2006 18:55
Karlo Daddy



Цитата:
...каким боком ImageMagick
к всему происходящему относится
Автор: Alex_Lost
Дата сообщения: 21.12.2006 18:58
Кстати, нашел бесплатную SimpleOCR - хватает все четыре символа без обучения
и настроек, если только словари отключить.
Но она только в виде GUI - пакетного режима нету. А ее SDK, который можно было
бы подключить для написания проги - платный.
Автор: KireevSasha
Дата сообщения: 21.12.2006 19:01
Karlo Daddy
ImageMagick сейчас никаким.
Все делается силами usd.exe

1. USDownloader получает ссылку которую нужно скачать.
2. Тянет ее по гостевому аккаунту - получает картинку
3. Картинку сохраняет в Rapidsharecom.jpg
4. Если не включено автоматическое распознавание - выкидает окно с картинкой - мол вводи
5. Если включено автоматическое распознавание - запускает то что прописано в секции [Plugin_rapidshare.com] в ключе RecogniseCMDю В большинстве случаем там ""C:\USDownloader\FineOCR.bat"" - если пути такие. Если нет - значит другое
6. В FineOCR.bat запускается USD.exe - програмка для очищения картинки, вычленения символов, поворота их на правильный угол.
Команда такая
start /wait usd.exe Rapidsharecom.jpg Rapidsharecom.bmp
7. Дальше запускается система распознавания
Если это Finerader то так
c:\Program Files\ABBYY FineReader 8.0 Professional Edition\fineocr.exe" "C:\USDownloader\RapidShareCom.bmp" /lang rapidcaptcha /send clipboard /optionsfile usd.fbt
Если Gocr то так
call "C:\USDownloader\Gocr\recognize.cmd"
9. Дальше плагин ищет нету ли файла Rapid.txt (если научиться сохранять результат распознавания в файл - плагин будет меньше весить, ввиду отсютвия бибиотек работы с буфером)
10. Если нату файла Rapid.txt берем то что есть в буфере и считаем за код
11. Удаляем из кода все символы кроме 0-9 и A-Z
12. Если код остался длиной 4 символа (не больше и не меньше) то все ок - генерим ссылку на скачивания и ждем тикета. Если код не 4 символа (значит была ошибка распознавнаия) - бросаем эту сессию и открываем новую - тоесть идем в п1.
13. Качаем файл по сгенеренной ссылке и сохраняем его на диск.
14. Идем в п1.
Автор: SlavaMSK
Дата сообщения: 21.12.2006 19:06
KireevSasha

Цитата:
Но у него большой минус - он хуже (гораздо) обучается и больше ошибается

Если знать свойства Gocr, то можно добится хороших результатов.


Цитата:
кроме того нужна куда больше база что б его хоть как-то обучить

Выложенной тобой базы вполне хватило, и времени как раз занило минут 15.
Автор: KireevSasha
Дата сообщения: 21.12.2006 19:15
SlavaMSK
Я не настаиваю на FR и тем более не агитирую против Gocr - у самого Gocr трудился до тех пор пока нормально распознавал, и ранние варианты (с цветными картинками) я выкладывал именно с Gocr (njulf плакали дай настройки еще и на FR, обучи и положи сюда).
Меня сейчас устраивает FR, тем более что он стоит не зависимо от того качает через него Udownloader или нет, платный он или нет.
Как только появиться Gocr с нормальными результатами и базой - сразу перейду на него.
Самому этим занимать пока не охота, и так дел хватает.

PS: Сессия на носу млин.... А еще синенькая папочка в столе так и лежит...
Автор: Dimoniusis
Дата сообщения: 21.12.2006 19:16
По поводу комплекта - ну извините. Наоборот спасибо Саше и EHZ за то, что можно спать и качать (я про других, сам то я не качаю, другие дела). Успокоится рапида - опять будет plg "все в одном" - и распознавание и фильтрация и прочее одним плагом в 35-40 килобайт... без внешних прог
Автор: sadafaga
Дата сообщения: 21.12.2006 19:34
Alex_Lost

Цитата:
Но она только в виде GUI - пакетного режима нету. А ее SDK, который можно было
бы подключить для написания проги - платный.


Там есть SDK Demo и ещё онлайн распознавание - hxxp://www.simpleocr.com/Demo/
Может кто попробует , вдруг чтото плучится ....
Автор: gyra
Дата сообщения: 21.12.2006 19:37
Dimoniusis
с рапидой все понятно... а нельзя ли сделать автоматическое скачивание (без ввода кодас) с таких обменников как megaupload, sexuploader там вроде картинки особо не меняют...
Автор: Vulcanite
Дата сообщения: 21.12.2006 19:42
KireevSasha
а это "-m 258 " что? я его убрал щаз.....
Автор: KireevSasha
Дата сообщения: 21.12.2006 19:46
В общем скачал Gocr 0.43
Посмотрел
Удобно что к нему идет (вернее можно скачать) отдельная прога для конвертации jpeg в pnm формат, с которым и работает новый gocr

В общем попробовал разобраться с learn.cmd
Поправил файлик - он работает на 2-3 картинках и потому уходит в error
Кто разбирался с ним - поглядите, может и вправду полчиться.
Заманчиво, что все это дело весит чуть меньше 500кб (Gocr0.43, DJpeg и его Dll)
Тоесть реально очень компактно, если б еще и заставить его учиться/распознаваться то вообще неплохо было б.

http://www.dimonius.ru/PROG/USD2/Gocr043.rar
Тут лежат мои начинания в этой области...
Автор: Vulcanite
Дата сообщения: 21.12.2006 20:12
SlavaMSK

Цитата:
добавить параметр для gocr.exe -a 65 в learn.cmd и -a 50 в recognize.cmd

а куда именно в строке писать, там же уже есть куча параметров ?
Автор: lanass
Дата сообщения: 21.12.2006 20:15
gocr распознавал 1 раз из 5 после обучения 2000 файлов. после удаления "-m 258" стал распознавать 2 раза из 5. это уже радует. еще 2000 и можно жить.
спасибо вам, добрые программирующие люди! что не оставляете в трудностях нас, которые с кривыми руками.

(что-то я переоценила gocr, видимо коды легкие были. сейчас вновь 1 из 5)
Автор: SlavaMSK
Дата сообщения: 21.12.2006 20:22
Vulcanite
Сам не знаю, пришлось методом "а может сюда?"

learn
gocr.exe -i tmp.pbm -m 386 -C 0-9A-NP-Z -a 65

recognize
%PP%gocr.exe -i %PP%tmp.pbm -o %PP%tmp.txt -m 258 -C 0-9A-NP-Z -v 63 -a 50 2>%PP%data\%TMPNAME%.log
Автор: Vulcanite
Дата сообщения: 21.12.2006 20:35
KireevSasha

Цитата:
если б еще и заставить его учиться/распознаваться то вообще неплохо было б

как то совместить ручной ввод букв с выданной плагом картинки, и обучением Gocr.
тоесть , расопзнавательбы вставлял "опознанные буквы в окно которое выдал плаг, и там бы галочку "верно" "исправить" если верно то ткнешь сам ОК если неверно то исправишь и Gocr "подучиться"...........вообщем помечтать то можно....

Добавлено:
SlavaMSK

Цитата:
методом

ну и как? помогает

Добавлено:
KireevSasha
а это ваще за что отвечает "-m 258"
Автор: SlavaMSK
Дата сообщения: 21.12.2006 21:24
Vulcanite

Цитата:
ну и как? помогает

Можешь сам оценить. Все пути прописал, всё распознал. Разархивируй в С:\ и можешь качать.
Автор: jupiter1976
Дата сообщения: 21.12.2006 21:32
Народ, а что с рапидой? Она мне уже минут 20 пишет wait 50 minutes. У всех нормально?
Автор: Vulcanite
Дата сообщения: 21.12.2006 21:44
SlavaMSK

Цитата:
Можешь сам

спасибо......сравню со своими настройками........но на первый взгляд стало лучше

jupiter1976

Цитата:
Она мне уже минут 20 пишет wait 50 minutes

тоесть 20минут одно и тоже?
Автор: jupiter1976
Дата сообщения: 21.12.2006 21:50
Уже больше получаса. е верите могу лог прислать. пипец
Автор: SlavaMSK
Дата сообщения: 21.12.2006 21:53
jupiter1976
давай, посмеёмся.
Автор: Alex_Last
Дата сообщения: 21.12.2006 21:55
KireevSasha

Цитата:
Поправил файлик - он работает на 2-3 картинках и потому уходит в error

я через это тоже проходил.
Проблема в том, что новая версия требует себе для работы картинки PNM,
а сама при обучении пишет в библиотеку DB файлы PBM. И сама, тут же
не может их подгрузить.

То есть, нужно одно из двух:
1. Либо кто-то разберется, чем конвертить BMP после USD в PNM и как заставить
новый GOCR писать в DB в том же формате.
2.
Либо кто-то сумеет собрать GOCR из сорсов с опцией поддержки нормальной
(хотя бы старой, PBM) графики. Тот EXE под винды, что мы скачали - это творение
одного из ихних юзеров, скомпиленное им под себя. А нормального exe-шника
под винды у них нет, только сорсы.
Автор: Vulcanite
Дата сообщения: 21.12.2006 21:57
SlavaMSK

Цитата:
давай, посмеёмся

а мне уже не смешно........имею тоже самое

Добавлено:
самое смешное что вручную тоже самое

You have requested http://rapidshare.com/files/850345/DJ04.part09.rar (97656 KB).

You have reached the download-limit for free-users. Want to download more?
Get your own Premium-account now! Instant download-access! (Or wait 52 minutes)

Страницы: 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172

Предыдущая тема: Advanced Vista Codec Package


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.