Потому всем желающим настроить USDownloader и Gocr/Finereader делаем следующее
1. Если еще не скачали, качаем Universal Share Downloader v 1.3.4 Beta 8 отсюда
http://www.dimonius.ru/dusd.php (c) Dimoniusis 2. Во избежание всяческих недоразумений по поводу путей с пробелами и т.д. Universal Share Downloader v 1.3.4 Beta 8 ставим в папку C:\USDownloader\
Если Вы понимаете что делаете и можете сами поправить файлы конфигураций – устанавливайте в любую папку и правьте пути в соответствии с Вашим выбором.
ABBY Finerader 3. Если планируется работа с системой ABBYY Finerader - его необходимо установить, зарегистрирова и
активировать.
Скачать полный комплект можно
отсюда.
тут и
тут только пилюля для удобной и безпроблемной работы
4. Далее необходимо провести настройку ABBYY Finerader. Подробная иснтрукция лежит
тут.
(c) C0USIN 5. В кратце - необходимо добавить пользовательский язык rapidcaptcha и обучить Finerader на наборе картинок.
6. Мой usd.fbt файл-результат обучения лежит тут
http://dump.ru/files/8/8004058190/ (c) KireevSasha Gocr 3. Для работы с системой распознавания Gocr качаем набор Antirap для распознавания файлов отсюда
http://webfile.ru/1239616 (c) bormoglot & Andrew 4. Содержимое архива (папку Antirap) распаковуем в папку C:\USDownloader\
5. В файле C:\USDownloader\Antirap\recognize.cmd исправляем путь к программе на наш C:\USDownloader\
Для этого открываем на редактирование файл recognize.cmd и находим там строку set PU=I:\Inet\Downloads\USDownloader\ и заменяем ее на set PU=C:\USDownloader\
6. Аналогично в файле C:\USDownloader\Antirap\collect.cmd исправляем путь к программе на наш C:\USDownloader\
Для этого открываем на редактирование файл collect.cmd и находим там строку set PU=I:\Inet\Downloads\USDownloader\ и заменяем ее на set PU=C:\USDownloader\
7. Находим файл USDownloader.ini, который должен находиться в папке C:\USDownloader\. Если его нет – тогда запустите USDownloader.exe, обновите плагины и закройте программу – будет создан файл USDownloader.ini с настройками по умолчанию. В нем (USDownloader.ini) находим секцию [Plugin_rapidshare.com] и заменяем ее такой
[Plugin_rapidshare.com]
NetworkNum=0
WaitTime=1
RecogniseCMD=""C:\USDownloader\FineOCR.bat"" 8. Сохраняем файл USDownloader.ini и качаем прогу USD.exe отсюда
http://dump.ru/files/2/2818326425/ (c) KireevSasha Прога не требует никакх .NET и т.д. и умеет очищать картинку и поворачивать символы для удобного распознавания. Для удобного использования я создал BAT файл FineOCR.bat, в котором запускается программа USD.exe и за ней одна из систем распознавнания.
call USD.EXE
"c:\Program Files\ABBYY FineReader 8.0 Professional Edition\fineocr.exe" "C:\USDownloader\RapidShareComR.bmp" /lang rapidcaptcha /send clipboard /optionsfile usd.fbt
rem call "C:\USDownloader\Gocr\recognize.cmd" Сейчас файл настроен на вызов FinerReader, если есть необходимость его перенастроить - можно заккоментировать вторую строку и убрать коммент с третей. Тут нужно учитывать, что имя файла, в котором храниться очищенная картинку RapidsharecomR.bmp, в то время как recognize.cmd ищет Rapidsharecom.bmp - потому нужно или подправить recognize.cmd или удалять файл Rapidsharecom.bmp и переименовывать RapidsharecomR.bmp в Rapidsharecom.bmp. Тогда BAT файл примет вид
call USD.EXE
rem "c:\Program Files\ABBYY FineReader 8.0 Professional Edition\fineocr.exe" "C:\USDownloader\RapidShareComR.bmp" /lang rapidcaptcha /send clipboard /optionsfile usd.fbt
Echo Yes | Del Rapidsharecom.bmp
rename RapidsharecomR.bmp Rapidsharecom.bmp
call "C:\USDownloader\Gocr\recognize.cmd" Gocr 9. Качаем набор картинок для обучения распознавалки отсюда
http://dump.ru/files/6/613454445/ (c) KireevSasha Содержимое архива 870 файлов BMP распаковуем в папку Data, которая расположена в C:\USDownloader\Antirap\
10. После того как распаковали файлы запускаем файл C:\USDownloader\Antirap\learn.cmd
Это начнет процесс обучения. Система распознавания будет пытаться распознать сброшенные ей картинки и при когда будет сомневаться – выбрасывает на экран текстовое изображение картинки (символами изображая вид подозрительного символа). Нудно ввести с клавиатуры тот символ, на котором сомневается программа. И дальше система спросить, что делать с полученной информацией – нужно ввести цифру 2, которая скажет ей, что необходимо занести это в базу (которую потому она сама будет использовать при распознании уже новых картинок для скачивания файлов)
11. Когда все файлы будут пройдены и процесс обучения закончиться – считаем что все готово и можно приступать к работе.
Вместо пунктов 10-11 можно взять мою базу. Хотя ввиду малого количества картинок работает она явно хуже FinerReader (
http://dump.ru/files/9/983487334/ )
(c) KireevSasha 12. Запускаем USDownloader.exe и загружаем файлами очередь и ждем. Для начала можно таки поглядеть в лог и проследить все ли распознается….
В логе "интересными должны быть строки вида"
17.12.2006 20:17:48 Rapidshare: Download Code Image: "http://ul43.rapidshare.com/access4458304.jpg" to "c:\USDownloader\RapidShareCom.jpg"
17.12.2006 20:17:48 GET URL:
http://ul43.rapidshare.com/access4458304.jpg …
17.12.2006 20:17:54 Rapidshare: AccesCode="91HS"
17.12.2006 20:17:54 Ссылка:
http://dl43cg2.rapidshare.com/files/7310884/4458304/kart_fokusy.part1.rar?accesscode=91HS 17.12.2006 20:17:54 Ожидание на включение Download Ticket
Если все выглядит примерно так, то все ок. Главное, что б в строке Rapidshare: AccesCode="91HS" было 4 символа в распознанном коде и они соответствовали тем, что изображены в файле Rapidsharecom.jpg, который находиться в папке C:\USDownloader и постоянно обновляется тем, что получен от Rapidshare.com в качестве кода на скачивание, который мы столько времени более-менее успешно обходим.
Вот и все.
Думаю детальней некуда….
================================================================================
Кому в облом читать все это / разбираться в этом / не хватает времени / интелекта и т.д.
Качаем отсюда
http://dump.ru/files/7/7319911478/ то что получиться в папке C:\USDownloader\
Содержимое архива распаковуем в корень C:\ и все - запускаем, все готово к употреблению и проверено лично....
Этот вариант работает с FineReader, так как у меня нет достаточного количества картинок и времени, что б обучить Gocr
На сотне картинок FinerReader ведет себя явно лучше чем Gocr и не глотает буквы и т.д.
А отключить перехват буфера у DownloadMaster для меня не большая проблема.
================================================================================
Всем желающим - собирать картинки формата JPG, которые выдает сервер Rapidshare.com и сохранять в укромном месте выкладывая их на форум (вернее на сервера обмена а на форум линки). Так можно будет быстро обучить FineOCR.
Для сбора картинок предлагаю такой вариант - создать файл Copier.bat и в него поместить такой вот код
(с) Ka3ax set SCHETCHIK=0
set /p SCHETCHIK=<schet
echo %SCHETCHIK%
type schet
set /a SCHETCHIK=SCHETCHIK + 1
echo %SCHETCHIK% > schet
copy "C:\USDownloader\RapidShareCom.BMP" "C:\USDownloader\BMP\%SCHETCHIK%.BMP"
copy "C:\USDownloader\RapidShareCom.JPG" "C:\USDownloader\BMP\%SCHETCHIK%.JPG"
copy "C:\USDownloader\RapidShareComR.BMP" "C:\USDownloader\BMP\%SCHETCHIK%_R.BMP" Предварительно нужно создать папку BMP в папку C:\USDownloader если она еще у Вас не создана.
Если у Вас не включена работа по расписанию, то в файл USDownloader.ini добавить секцию
[Schedule]
item0_active=1
item0_day=0
item0_event=2
item0_time=0
item0_action=0
item0_actparam="C:\USDownloader\Copier.bat|3|0" Если шедулер включен - тогда просто добавить задание на выполнение коммандного файла :\USDownloader\Copier.bat
каждый раз перед закачкой файла.
Все файлы (JPG и BMP будут сохраняться в папке BMP)