Ru-Board.club
← Вернуться в раздел «Программы»

» Нужна программа по поиску повторяющихся сочетаний букв

Автор: KDPoid
Дата сообщения: 26.09.2015 14:02
Поскольку я могу запустить Грамотея под отладчиком - приведите непонятный текст, опишите, что вас изумляет, я его запущу и посмотрю внутри, как там считается и что за числа получаются.

Частотный словарь - фишка технических писателей. Если вы пишете инструкцию к холодильнику, то, наверно, бессмысленно избегать повторения слова холодильник через предложение.

Сначала для всего анализируемого текста составляется частотный словарь. Потом частота встречаемости конкретного слова используется для вычислений похожести. Чем чаще слово встречается в тексте, тем менее чувствительной к нему становится программа.
А выпячиваются, наоборот, созвучия редких слов. Поскольку используемые коэффициенты вообще никак не соотносятся с повседневным опытом, управление оставлено на уровне "влияет больше, влияет меньше". Моя практика показывает, что для текстов одной тематики нужны разные значения порога срабатывания для случая использования словаря и без него. Сам использую редко.

Цветовой градиент. Если вы ищете созвучия, степень похожести - это число. Так что появляется возможность выделять цветом, насколько созвучны слова. Левый цвет - это похожесть на уровне порога срабатывания. Минимум. Правый цвет - похожесть на уровне 1500 и выше. Максимум. Все промежуточные значения будут выделяться соответствующим промежуточным цветом.

Если поиск созвучий отключить, у всех слов с точно совпадающим фрагментом похожесть станет 1500 и эффекта от градиента не будет. Всё будет выделяться правым цветом.

Про встраивание в офисы не скажу, я ими не пользовался, и что там у них с возможностью расширений - без понятия. Если найдутся желающие, исходники программульки отдам легко, переносите под что угодно.

Делать самому мне будет лень. Вот почему:

Я включаю в плагине автопроверку при попадании текста в буфер обмена, при обнаружении ощибок звуковая сигнализация и переключаться в окно Грамотея. Дальше MAGGOT с запущенными плагинами работает фоном. Я набираю текст где угодно. В Word-е, в почте, в этом форуме. Перед отправкой: Ctrl+A - Ctrl+C
Грамотей перехватывает текст из буфера, автоматически проверяет, при обнаружении косяков издаёт злорадный бздыньк, и пытается всплыть с окном наверх. Услышав звук, я заглядываю в Грамотея и прикидываю: мои созвучия от косноязычия или это литературный приём...

Мне уже удобно, так что на прокачку Опенофиса вам нужно поискать кого-нибудь другого.

Автор: 404NF
Дата сообщения: 26.09.2015 23:06
KDPoid

Цитата:
приведите непонятный текст, опишите, что вас изумляет, я его запущу и посмотрю внутри, как там считается и что за числа получаются

Для меня главное, что оно работает и работает неплохо. Не без ложных срабатываний, ну так за тем и человек перед монитором, чтобы за машиной следить. Так что пусть волшебство останется волшебством
Про частотный словарь понял - вряд ли мне это нужно.
Насчет конвертирования плагина под офисный пакет поспрашиваю в профильных форумах, может кто-то и возьмется. Потому что держать на экране все время два окна (с Райтером и с Грамотеем) и постоянно переключаться с одного на другой не очень удобно. Но это не в упрек, вы нужное дело сделали, а уж дальше каждый о своем удобстве заботится сам.
Автор: KDPoid
Дата сообщения: 28.05.2016 06:44
А вот услышал я от пользователей аналогичных программ, что за мечту - возможность выделять близкорасположенными только однокоренные слова...

Ну, для тех странных людей, которые считают, что написать "паркет в зоопарке" - это хорошо

И задумался я, а смогу ли такое написать...
Кто-нибудь располагает словарями однокоренных слов в электронном виде?
Автор: dmitrykalashnikov
Дата сообщения: 15.06.2016 13:51
В Орфограммке теперь тоже есть своего рода "свежий взгляд", точнее поиск тавтологий. Но у нас реализована проверка исключительно на однокоренные слова.

Вот, какие слова находятся проверкой в примере Свежего взгляда (http://kirsanov.com/fresheye/)

http://orfogrammka.ru/%D0%BA%D0%B0%D0%B1%D0%B8%D0%BD%D0%B5%D1%82/report/57612f9be4b01a91bb7ad8ed/annotated.html

Я не лингвист, и не уверен, что такой вариант более адекватный, но мне сложно углядеть ошибку, например, в сочетаниях ".если хотя бы пару раз пытались разобраться..." и "...поле ввода предназначено для числового значения...".

Автор: KDPoid
Дата сообщения: 25.06.2016 17:55
dmitrykalashnikov, Вы рассматриваете себя как конкурента СВ?


Цитата:
...Орфограммке теперь тоже...

Вы - не "тоже"
СВ и Грамотей не занимаются поиском тавтологий, поскольку не имеют внутри словаря однокоренных слов. Разыскиваются только паронимы.
По моему опыту - вопрос религиозный.
Вот Толстого и меня корчит от "кишки кошки", а Вы не видите ничего странного в "значение предназначено". Слова не однокоренные - и ладно.

В силу используемых алгоритмов, СВ и Грамотея можно настроить под себя, под своё личное восприятие уровня похожести, свой конкретный тип текста. Я себе настроил Грамотея так, что
"пару раз пытались" - и у меня не считается проблемой, а вот вторая фраза - это, конечно, корявенько, и на неё ругается, в полном соответствии с моими эстетическими представлениями....

Значительная часть функционала Орфограммки для меня осталась непонятной.
Орфоэпия? Для чего? Зачем бывает нужно найти в письменном тексте "занял"?
Эпитеты? Смысл слова и получаемые при этом результаты не вызывают у меня ни каких ассоциаций.

Неблагозвучность работает как-то неуверенно.
"запуск которого", "без знакомства" и даже "не несет" - это неблагозвучно,
а "приник к образу" - услада уха?

Ну и скорость работы...
Кирсанов у себя на сайте про СВ пишет:

Цитата:
"Основной недостаток программы — неторопливость. Скорость проверки не превышает тысячи слов в минуту..."


У Орфограммки этот параметр лучше просто никогда не мерять...

А ещё вы забыли упомянуть о существенной особенности Орфограммки:

"2 руб. за одну проверку. Оптовикам скидка."






Автор: dmitrykalashnikov
Дата сообщения: 26.06.2016 07:30
[more]
Цитата:
Вы рассматриваете себя как конкурента СВ?


Я бы не назвал это конкуренцией, просто предлагаем похожую функциональность, которая может быть полезна многим, плюс инструменты по исправлению таких ошибок (синонимы и эпитеты).


Цитата:
Разыскиваются только паронимы.


Ну это сильно сказано, мне кажется. Понятие паронима до конца не определено в русской лингвистической традиции, однако "кишки" и "кошки" -- уж точно не паронимы.


Цитата:
можно настроить под себя, под своё личное восприятие уровня похожести, свой конкретный тип текста

А нужно ли? Это ведь ОЧЕНЬ субъективно, в отличие от ошибок тавтологии.


Цитата:
Орфоэпия? Для чего? Зачем бывает нужно найти в письменном тексте "занял"?


Для того, чтобы правильно произносить это слово, грамотно ставить ударение. Вдруг вы проверяете свой доклад на конференции.


Цитата:
Эпитеты? Смысл слова и получаемые при этом результаты не вызывают у меня ни каких ассоциаций.


Вы не знаете, что означает слово "эпитет"? Ну тогда лучше толковым словарём воспользоваться А смысл этого инструмента в "раскрашивании" текста.


Цитата:
"запуск которого", "без знакомства" и даже "не несет" - это неблагозвучно,
а "приник к образу" - услада уха?


Не услада, да, исправим.


Цитата:
У Орфограммки этот параметр лучше просто никогда не мерять...


Полагаю, это не так принципиально. Но в будущей версии скорость станет заметно выше.


Цитата:
А ещё вы забыли упомянуть о существенной особенности Орфограммки:
 
"2 руб. за одну проверку. Оптовикам скидка."


Или условно безлимитная подписка. Но за это ведь не только поиск тавтологий, правда? И сервису нужно развитие. Также мы экспериментируем с бесплатными вещами, например, если вы писатель/поэт, то дадим бесплатную подписку. [/more]
Автор: KDPoid
Дата сообщения: 26.06.2016 14:25

Цитата:
, плюс инструменты по исправлению таких ошибок (синонимы и эпитеты).


А-а-а... так синонимы и эпитеты, это не места в тексте, требующие отдельного внимания, а инструменты, помогающие с ними бороться...
То, что первые и вторые расположены вперемешку, в одной куче примечаний, оставим на совести вашего эксперта по юзабилити...

Бесплатный вариант Орфограммки ограничен так, что даже мой предыдущий пост, чтобы проверить, пришлось бы разрезать на три части, поэтому возьмём ваш отчёт:
h__p://orfogrammka.ru/%D0%BA%D0%B0%D0%B1%D0%B8%D0%BD%D0%B5%D1%82/report/57612f9be4b01a91bb7ad8ed/annotated.html

Включаем синонимы...
116 слов выкрашено в одинаковый цвет. Что является парой к чему - не понятно. В первой фразе: четыре слова из шести - синонимы. Наверное, и у первой четвёрки где-то в тексте есть синонимы. Но как этим пользоваться?

Та же история с эпитетами, только их 135...
Вот в тексте фраза:
"...в виде частично видимой фотографии..."
"Виде-видимой" - корявость, отмечаемая и Грамотеем и Орфограммкой.
Включаем эпитеты. Выделяется "фотографии". Видимо, кликнув в "эпитеты", я вызвал выделение всего, кроме эпитетов...

Цитата:
А смысл этого инструмента в "раскрашивании" текста.

Что дальше предполагается с этим делать? Посмотреть на раскрашенный текст, плюнуть, пойти и "воспользоваться толковым словарём"?


Цитата:
...
Разыскиваются только паронимы.
...
А нужно ли? Это ведь ОЧЕНЬ субъективно, в отличие от ошибок тавтологии.

Как я уже писал,
Цитата:
вопрос религиозный
, не вижу смысла начинать холивар, с какого конца разбивать яйцо. Естественно, очень субъективно. Кто-то думает: "Я - новый Александр Грин", завышает чувствительность и копается в куче ложных срабатываний выверяя текст, а кому-то и "Приплыл пароход. Другой пароход уплыл." - потянет. Они же в разных предложениях.


Скорость работы:

Грамотей ~50000-70000 слов в минуту.
Свежий взгляд, в варианте гуглодока ~700 слов в минуту.
Орфограммка ~200 слов в минуту.

Результаты весьма приблизительные, с точностью до "во сколько раз".
Для Грамотея всё выполняется локально, так что время зависит от компьютера пользователя, на 1000 слов результат укладывается в секунду, поэтому можно получить разброс значений в зависимости от работы других программ, Орфограммка на пробу позволяет проверить только клочок текста около 50 слов, и, в добавок, есть время ожидания в очереди, которое я не выделял.

Цитата:
Полагаю, это не так принципиально.

Полагаю, это водораздел между двумя классами инструментов.

Скорость Грамотея и ранних версии СВ позволяют проверять текст на каждый чих, быстро и параллельно с работой в основном инструменте. Набирать в ворде, или в форуме, или где мне ещё взбредёт в голову. От Грамотея требуется удобство внести текст и вынести результат. Особых средств редактирования не нужно.

Проверка в Свежем взгляде времён Гуглодока и в Орфограммке - это проце-е-ес. Через слово запускать проверку - не располагает... Так что работа будет внутри инструмента, чтобы продолжать видеть все результаты теста и вносить максимальные правки между редкими сеансами проверки. В этом случае важнее становится удобство и функциональные возможности редактирования по месту, а внести-вынести допустимо абы как, это же только один раз.


Цитата:
Но за это ведь не только поиск тавтологий, правда? И сервису нужно развитие.

Вы как будто оправдываетесь... Ваш труд - ваши ценники.
Думаю, упоминания "Для поэтов - бесплатно" было бы достаточно.
Автор: dmitrykalashnikov
Дата сообщения: 26.06.2016 14:45
[more]
Цитата:
Включаем синонимы...  
116 слов выкрашено в одинаковый цвет. Что является парой к чему - не понятно.  В первой фразе: четыре слова из шести - синонимы. Наверное, и у первой четвёрки где-то в тексте есть синонимы. Но как этим пользоваться?


Очень просто. Это ведь по сути синонимайзер, т.е. вы заменяете слова синонимами, просто кликая на слове в аннотации (в правой панели). То есть тут нет понятия пар и прочего, просто подсвечиваются слова в тексте, на которые у Орфограммки нашлись синонимы. Этот же инструмент можно использовать для устранения тавтологий -- путём замены повтора на синоним.


Цитата:
Та же история с эпитетами, только их 135...


Эпитеты то же самое. Подсвечиваются слова, на которые есть эпитеты. Этим инструментом можно разрешить ошибки неблагозвучности, путём вставки эпитетов.


Цитата:
Включаем эпитеты. Выделяется "фотографии". Видимо, кликнув в "эпитеты", я вызвал выделение всего, кроме эпитетов...


Не совсем понял, поясните.



Цитата:
Что дальше предполагается с этим делать? Посмотреть на раскрашенный текст, плюнуть, пойти и "воспользоваться толковым словарём"?


Я специально взял слово в кавычки, чтобы подчеркнуть переносный смысл Раскрасить текст, значит сделать его более красивым, путём устранения тавтологий, неблагозвучности и вообще добавив эпитеты


Цитата:
Проверка в Свежем взгляде времён Гуглодока и в Орфограммке - это проце-е-ес.



Вот именно. Как и в жизни. Сначала пишется текст, потом происходит его редактура/корректура. Это именно что отдельный процесс, тут не надо спешить и не надо смешивать проверку текста с его написанием. Подразумевается, что написав текст, автор его проверит на грамотность, потом на "Красоту", отредактирует, устранит тавтологии и прочее.
[/more]
Автор: KDPoid
Дата сообщения: 26.06.2016 16:40

Цитата:
Не совсем понял, поясните.

Всё, разобрался.

Я просто подумал, что синонимы и эпитеты вы находите в моём тексте, а не предлагаете варианты из своей базы.
Как только до меня дошло, что "Пожалуйста, выберите интересующее вас место в редакторе при помощи мыши...", это не "выделить слово мышью", а "кликнуть в середину, чтобы туда встал курсор", так всё сразу и встало на свои места.

Вопросов больше не имею.

Страницы: 12

Предыдущая тема: oMega Commander


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.