Ru-Board.club
← Вернуться в раздел «Программы»

» Работа с информацией: сбор, структурирование, доступ

Автор: Gnom_s_Borodoi
Дата сообщения: 19.08.2009 11:46
А если к "прозе жизни"?
Дано: Есть pdf-файл с романтическим названием "curing analytic pathologies"
Хочу сделать машинный перевод.
PDF to Word 3.0 создала гигантский файл на 50М, который открылся только d WordPad.
Поплыло все: разметка страниц, шрифт и т.д.
Что можно применить, чтобы этого не было?
Автор: Nafanja
Дата сообщения: 19.08.2009 13:46
abboot
Нет, не пользовался. Но по своему опыту скажу, чуда не ждите, - как правило, монстрообразный набор всего что нужно и не нужно.


Gnom_s_Borodoi
машинный перевод в навороченном редакторе - это не реально, чем прощее формат текста, тем чище перевод, впрочем, я сам на этом не специализируюсь.
Автор: Gnom_s_Borodoi
Дата сообщения: 19.08.2009 14:52

Цитата:
машинный перевод в навороченном редакторе - это не реально, чем прощее формат текста, тем чище перевод, впрочем, я сам на этом не специализируюсь.


так меня интересовал чистый текст. Но поискав по форуму понял, что проблема общая для всего софта. "легкая конвертация" просто миф. Вопрос снят




Автор: abboot
Дата сообщения: 19.08.2009 17:32
Теги этого сообщения: тегирование; идеи; текст.

Задача/идеи.
направление: тегирование (текста и сообщений)

1. Читаю много разных электронных книг. В ходе прочтения возникает желание сохранить для себя некоторые мысли/цитаты/информацию. Каждый вырванный кусок я, как правило, записываю в определённый раздел своей "записной книжки" (по сути, это пока набор разрозненных файлов, да ещё и в разном ПО). Примеры "разделов": стимул, здоровье, программирование, английский, заработок... И уже видна проблема - ведь тот же раздел "стимул" может содержать стимулы для всех других разделов! (стимулы заниматься здоровьем, стимулы изучать английский, стимулы заняться подработкой в новом найденном направлении...). Другая проблема - установить связь заметки с первоисточником, желательно активную (ссылка на то самое место, откуда выдран кусок и быстрый/удобный переход туда).
Один из способов, который я стал использовать - если книга в Ворде или её туда несложно перевести, то использую комменты с собственными пометками/тегами... Но это убого.
А вот какова идея. Изучаемая книга переводится в некий формат (на основе HTML или собственно в него). По ходу прочтения книги выделяются приглянувшиеся места и сразу проставляются теги. Все прочтённые книги хранятся в базе программы и т.о. всегда доступен первоисточник. Далее, на основе тегов и "многократного использования блоков" текста, в любой удобной иерархии формируются страницы записной книжки (или создаваемого документа) из протегированных блоков "исходников". А при чтении сформированных Знаний создаётся возможность мгновенного перехода на оригинал блока (в книгу). Если происходит исправление блока (как в книге, так и в записной книжке - вторично отображаемого), то меняется, естественно, исходный блок-оригинал.
Если же читать оригинал, то должны также отображаться протегированные блоки выделенными и отображаться собственно теги для каждго блока...
Ещё сюда надо добавить перекрёстные ссылки между блоками, да и исходниками вообще.
Если развить мысль ещё глубже - придётся добавить сюда возможность отображения теговых и блочных структур создаваемой базы Знаний в разных графических моделях - MindMap, PersonalBrain, структура документа (как в MS Word)...
В общем, в таком направлении мысль идёт...
2. А ведь было бы очень неплохо ввести на форумах тегирование сообщений (постов). Вот представьте, что данная тема разрослась до больших размеров. Вот много полезного накопилось. А ведь тема очень всеобъемлюща и по сути включает в себя много разных направлений - здесь и разные технологии (тегирование, регэкспы, майндмапс, вики...), здесь и направления (идеи, задачи/решения, софт, опыт участников...). А теперь представьте, что каждый осмысленный пост, его автор снабжает тегом (можно из набора, определённого только для этой темы, составленного, набора тегов, в ходе развития темы и её шапки, и имеющего иерархическую структуру...) или тегами. Ну а после любой желающий может выбрать из списка тег интересующей его тематики (например софт\NotesBrowser или идеи\тегирование) и тут же найти все соответствующие сообщения участников. Мне кажется это невероятно заманчиво.

Gnom_s_Borodoi
я тоже в своё время искал решение, но так и не нашёл панаци. Всё упёрлось в конвертацию...
Nafanja
да, такие же мысли - огромные неповоротливые монстры. Но при возможности обязательно взгляну. Может так какие-то идеи будут интересные по структурированию.
Автор: Gnom_s_Borodoi
Дата сообщения: 24.08.2009 12:50
ну пока народ отдыхает...

посмотрите ссылку _http://www.egems.com

Ideal for students, writers, independent researchers, small to mid-size workgroups,
eGems Collector Pro 2.6 is the easiest and fastest way to capture, organize and source your electronic research! It will help you save your valuable research "gems"- text, images and links - from the Internet, digital libraries, email and open applications.

Автор: Nafanja
Дата сообщения: 27.08.2009 18:05
Gnom_s_Borodoi

Хорошая, полезная информация. Спасибо.
Вопрос: ранее была информация об ConnectedText - я посмотрел даже что-то построил, но как я это сделал не помню Может о ней пару слов напишите? Думаю будет в тему. С уважением
Автор: abboot
Дата сообщения: 27.08.2009 19:02
Gnom_s_Borodoi
отличная информация! спасибо. Только нужно время на усвоение... а ведь я ещё "navamind" для сценаристов не успел почитать...

Nafanja
Начал смотреть на ConnectedText, но время сейчас нет. Буду разбираться обязательно позже, а после отпишусь. А пока лишь бегло ознакомился, но уже очень разочарован тем, что отсутствует WYSIWYG (во время редактирования/набора не отображается форматирование сразу...). Большой недостаток... Ещё как-то не очень красиво/удобно реализовано отображение графической схемы проекта... Есть возможность плагинов/макросов - это здорово. wiki я вообще раньше не юзал, вот на примере ConnectedText заодно и опробую удобство... А так, там хорошая справка (стартовый проект и ещё можно в виде CHM скачать) - по-моему очень подробная и понятная...
Автор: limonka
Дата сообщения: 27.08.2009 19:51
Gnom_s_Borodoi

"Что можно применить, чтобы этого не было?" - используйте Solid Convertor (предварительно закрыв выход в интернет и "вылечив" Дает хорошие компактные тексты. Есть в верезнике.
Автор: Gnom_s_Borodoi
Дата сообщения: 28.08.2009 13:10
Сборка-разборка на время: WikidPad _http://zverok-kha.livejournal.com/6937.html

А с ConnectedText сам разбираюсь.
Автор: Gnom_s_Borodoi
Дата сообщения: 08.09.2009 14:00
Aduna Autofocus and ConnectedText


Кластер Карты новый способ визуализации результатов поиска. Вместо длинного списка, сортируются по релевантности, вы увидите карту с товары, такие как документы, веб-страниц, электронной почты, представленные в виде небольших цветных сфер.

Карта дает общее представление о связи между результатами запроса. Каждая часть вашего вопроса представлены как кластер результатов. Скажем, вы ищете все документы PDF на Sesame и безопасности. На карте Вы увидите все товары сгруппированы в несколько помечены кластеры. Нажмите на эскиз для дополнительной информации
Автор: Nafanja
Дата сообщения: 08.09.2009 15:22
Пользовался Aduna AutoFocus, давно уже, все работало, находил даже файлы, но было какое-то недоверие -- ну как игрушечное это "поле карты". Однако, елозишь по нему мышкой -- выскакивает информация о каждой ячейке. Мое мнение: имеет смысл применять.
Автор: Gnom_s_Borodoi
Дата сообщения: 09.09.2009 10:02

Цитата:
Пользовался Aduna AutoFocus, давно уже, все работало, находил даже файлы, но было какое-то недоверие -- ну как игрушечное это "поле карты". Однако, елозишь по нему мышкой -- выскакивает информация о каждой ячейке. Мое мнение: имеет смысл применять.


Тогда прошу совета - как настроить грамотно?
Автор: Nafanja
Дата сообщения: 09.09.2009 12:31
Э-э-э... подождите надо ведь установить, чтобы вспомнить (давно это было

p.s. от 14.09.09, возможности всё ещё нет

к стати, может Вы попали в точку -- ведь Aduna и даст нам то самое облако, если есть общий признак.
Автор: Gnom_s_Borodoi
Дата сообщения: 09.09.2009 17:46

Цитата:
Э-э-э... подождите надо ведь установить, чтобы вспомнить (давно это было

У них есть коммерческий продукт (триал на 14 дней) Там все просто с настройками. Плохо, что по русски не понимает...

Автор: Gnom_s_Borodoi
Дата сообщения: 17.09.2009 09:50
Тема "спит"...



Автор: mxa
Дата сообщения: 17.09.2009 12:37
Gnom_s_Borodoi

Мне больше нравится QuotePad, практически тоже самое но намного удобней будет.
http://quotepad.info/

А тот отчет от КОННАСИ как на меня вообще бред полный, они смотрели на вопрос слишком узко, только с своей точки зрения, с того что нужно только им конкретно.
Лично я пользуюсь старым Evernote 2 и считаю что лучше программы для меня нету. У программы есть несколько преимуществ: захват текста и графики из любой программы, распознавание текста, рисование от руки, очень удобный для поиска инфы внешний вид, фильтры. Сделал несколько файлов, в зависимости от инфы и все там акуратно держу.
Автор: Nafanja
Дата сообщения: 17.09.2009 14:37

Цитата:
у нас есть цель. нам необходимо найти продукт под названием
"Персональная Система Накопления Знаний"
, - точная формулировка, над этой проблемой и бьемся, надо только

Цитата:
четче формулировать желания и отключить "туннельное мышление"

Смысл не в управлении накопленной информацией - это начальный этап, этап сборки знаний. Смысл в том, чтобы Персональная база знаний высвобождала наше время для творчества, взяв на себя рутинную работу и счетчики разного рода. На мой взгляд ближе всего к этой "мечте идиота" стоит PB-5, но он сам ничего не делает, кроме (говорят) индексации pdf-файлов. Сейчас выбираю из трёх: WebResearch+Outlook, UltraRecall и ConnectedText. Собственного ума не хватает, поэтому и прошу совета или помощи.
Если просматривать эту ветку с начала, особенно через некоторое время собственного поиска, удивительно умные соображения высказаны и четкие оценки, за редким исключением. Рад необыкновенно, спасибо всем.
Автор: Gnom_s_Borodoi
Дата сообщения: 18.09.2009 08:42
ИМХО: Основная проблема в получении знаний - качественный переход из одного состояния в другое. Качественный переход происходит после накопления данных и их обработки.


Цитата:
Лично я пользуюсь старым Evernote 2 и считаю что лучше программы для меня нету. У программы есть несколько преимуществ: захват текста и графики из любой программы, распознавание текста, рисование от руки, очень удобный для поиска инфы внешний вид, фильтры. Сделал несколько файлов, в зависимости от инфы и все там акуратно держу.


И я тоже! В портабле вообще вещь супер!
Автор: Nafanja
Дата сообщения: 18.09.2009 11:58
Ну, спасибо! Уважил, я задумался на 2,5 часа. Только сейчас отпустило... Решил:
Тогда делаем проще: комп. - это "будильник", его задача вываливать мне на голову "А вы пропустили..., дата будет повторена." Тем не менее, меня заинтересовал SWOT Analysis, что-то я уже делал, или только собирался....
А вот с головой -- проблемы, кроме того, по книжкам много не постигнешь (техники работы), здесь нужен человек - Учитель, а таковых сейчас мало. Остается форум "Структурирование..." .

Кто знает, что такое словесно-числовой список, то это вопросы к ним:
1. Вы не замечали, что желательно на каждый день всё же иметь свой СЧС, т.к. ассоциации начинают путаться
2. А может кто-то читал, как можно задачи раскидывать по дням недели, что-то типа СЧС, но с календарной сеткой, никто не слышал? Вообще, есть такое?


Цитата:
"Дата майнинг" говорят много, нормальных книг мало, понимания того, когда и как это работает еще меньше.

- у них главный процесс, который застолбил ещё в стародавние времена некто Плюшкин, -- свалить всё в одну кучу (убедитесь, что нигде ничего не осталось), а затем вытаскивать оттуда каждую инфу и за 2 минуты решить: в урну или оставить.

p.s. http://log-in.ru/books/6384/
Автор: ronmael
Дата сообщения: 18.09.2009 13:53
Заинтересовал заголовок темы, почитал, засунул в закладки... Вот некоторые вопросы и комментарии.

Оговорить в шапке то, что речь идет только о работе с цифровой формой представления информации я предложил бы до формулирования любых определений

Цитата:
Данные - просто цифры (или информация в цифровом виде вообще)

Имхо без максимально точного определения, что понимается под "Данными" (ведь это фундамент, на котором все и строится) вся тема будет представлять собой замок на песке, который рано или позно рухнет...
Я бы предложил что-то вроде "Данные - набор сведений в цифровой форме, не подвергавшихся какой либо обработке."
При такой формулировке слово "сведения" дает понять о наличии потенциальной полезности данного набора цифр. Оговорка же об отсутствии обработки, говорит о том, что это именно исходный материал для получения из него Знаний на следующих этапах.
***


Цитата:
Информация - осмысленные Данные (несущие смысловую нагрузку)

1. "осмысленные" и "смысловую" - имхо тавтология (предложил бы поискать синоним)
2. Из одних и тех же данных может быть извлечена самая разная Информация (в зависимости от поставленной задачи). Примером этого может служить возможность самых разных вариантов структурирования или получения весьма разной статистики в зависимости от поставленных целей. Универсального же (пригодного на все случаи жизни) способа осмысления каких-либо данных просто быть не может.
3. Посему может быть использовать определение "Информация - Данные подвергнутые предварительной Обработке в соответствии с поставленной Задачей"
Note: под Обработкой можно понимать очистку, формализацию, структурирование, теги, анализ etc. - зависит от конкретной задачки
***


Цитата:
Информационный цикл:
1.Определение цели исследования
2.Непосредственно сбор данных
3.Упорядочивание, обработка и оценка
4.Анализ информации.
5.Предоставление результата исследования


предложил бы следующий вариант:
Информационный цикл (п.п. 3-5):
1.Определение цели исследования
2.Постановка задачи

3. Подготовка Данных
3.1. Непосредственно сбор Данных
3.2. Упорядочивание Данных
4. Преобразование Данных в Информацию (оценка, интерпретация Данных)
5.Преобразование Информации в Знания
5.1. Анализ Информации.
5.2. Формирование представления результата исследования

6. Выдача результата конечному потребителю

***

Тогда для третье определение в шапке может выглядеть так: "Знания - Данные, прошедшие все стадии Информационного цикла и доведенные до конечного потребителя"
(note: слово "потребитель" - мне глаз режет, но пока ничего лучшего сходу не подобрать)
Автор: Gnom_s_Borodoi
Дата сообщения: 20.09.2009 09:59

Цитата:
- у них главный процесс, который застолбил ещё в стародавние времена некто Плюшкин, -- свалить всё в одну кучу (убедитесь, что нигде ничего не осталось), а затем вытаскивать оттуда каждую инфу и за 2 минуты решить: в урну или оставить.


Ну никто не пишет, что Дата майнинг работает только с качаственными значениями. Я, по молодости , сам до этого дошел постучавшись головой о стену
И теперь, слушая рассуждения Грефа о профиле оптимального заемщика Сбербанка, неприлично смеюсь ) И еще понимаю, что этот парень не понимает, что такое репрезентативная выборка. )

Цитата:
Кто знает, что такое словесно-числовой список, то это вопросы к ним:

Ну это методика развития памяти направленная на ассоциативное запоминание больших чисел.


Цитата:
Тем не менее, меня заинтересовал SWOT Analysis, что-то я уже делал, или только собирался....


Ну это анализ сильных и слабых сторон, возможностей и угроз применяется в основном в бизнесе, но годится и для личной жизни


Автор: Nafanja
Дата сообщения: 20.09.2009 10:29
Gnom_s_Borodoi
Спасибо, особенно насмешила ссылка на Грефа. Со SWOT Analysis я быстро разобрался, а вот по поводу СЧС что-то есть ещё кроме развития. Но это совсем не обязательно, к делу не относится. Здесь есть ветка http://forum.ru-board.com/topic.cgi?forum=5&bm=1&topic=5881&start=560 на 29 странице. которой есть некоторый анализ Web-органайзеров, но нет ConnectedText, а мне что-то мнится что Wiki -- это будущее. Поделитесь мнением, если будет время.
23.09.09
Замечательно, совпадает с моим мнением по каталогизаторам, это придает мне уверенности в действиях, Спасибо !
Автор: Gnom_s_Borodoi
Дата сообщения: 23.09.2009 09:36
ИМХО: Web-органайзеры группа программ для собирания "коллекций" страниц и управления архивом.
К списку можно было бы добавить и AskSam (но его неправильно крякают и функция сохранения страниц из инета отваливается после триал периода) и нет OneNote (который сохраняет страницу с сылкой на исходник), но эти две программы несколько более функциональны, чем просто Web-органайзеры. Возможна организация внутренних перекрестных ссылок и др.
Wiki-исходно технология совместного редактирования сайтов, т.е. технология совместной работы с информацией.
ConnectedText (сегодня, кстати, вышла новая версия 4.0) служит для хранения и обработки - в этом отношении шире по применению, но теряет часть функционала.
Вопрос в том - кому что нужно.

Добавлено:
Термин гиперте́кст был введён Тедом Нельсоном в 1965 году для обозначения «текста ветвящегося или выполняющего действия по запросу
В 90-х в среде информационщиков активно обсуждалась эта технология, которая давала новые возможности по осмыслению материала.
Сейчас это реализуется Wiki-технологиями
Автор: Nafanja
Дата сообщения: 23.09.2009 14:24

Цитата:
Вопрос в том - кому что нужно.
-- спасибо, хороший вопрос.
Одно дело если идет потоковая информация, т.е. по насущной теме (книга, диссертация,...)
Другое -- когда у вас в обязанности отслеживать ситуацию примерно на 200 направлениях, причем на одних всё динамично, а на большинстве вялотекущий процесс с изменениями раз в 5 лет (3 года), а сверху происходят вообще непредсказуемые действия сильно отупевших чиновников (по сравнению с советским периодом). Внутри этой системы куча исполнителей, которых надо окормлять. Нужна рукотворная система, которая всё это, в том числе и вас, должна построить, если к ней обратятся, конечно.
Вот почему я вас тереблю за рукав

p.s. что-то самому стало страшно, когда перечитал. Но я знаю умельцев, которые уже часть работы выполнили (одну из подсистем).
Автор: Gnom_s_Borodoi
Дата сообщения: 24.09.2009 09:46
Вопрос в том, в каких параметрах отслеживается процесс - качаственных или количественных.
Если, например, мониторинг ситуации по СМИ, то в СССР в МИДе дыла такая система-"Ариадна" Я видел только демо-ролики, но впечатлило
Когнитивным моделированием развития ситуации занимался ИПУ РАН. Они даже в конце 90-х распихивали свои наработки по главам регионов, но тогда в основном пилили собственность и было не до этого.
Но судя по вашему "воплю души" - вам надо формировать ситуационный центр. не зная конкретных задач/интересов/бабла которого не жалко трудно советовать что-то конкретное. Но реально сделать
Автор: Nafanja
Дата сообщения: 24.09.2009 10:02

Цитата:
система-"Ариадна"
- да, давно это было, я потерял её, а получить заново... - (похоже, что была действующая моделька).

Цитата:
Они даже в конце 90-х распихивали свои наработки по главам регионов
- жаль, я поздно спохватился.

Цитата:
не зная конкретных задач/интересов/бабла
- надо подумать об этом.

Цитата:
Но реально сделать
- - готовлюсь.
Спасибо за участие.
Автор: Gnom_s_Borodoi
Дата сообщения: 24.09.2009 10:29

Цитата:
- да, давно это было, я потерял её, а получить заново... - (похоже, что была действующая моделька).


НУ!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!



[
Автор: Nafanja
Дата сообщения: 24.09.2009 12:53

Цитата:
НУ!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
- время было трудное, всё распадалось. На заре и-нета был одноименный browser Ariadna, я искал его, зам.дир. говорит у меня в коробках посмотри - я глянул, не то... , я скорее почувствовал чем понял, что это было.

Спасибо за обзор СЦ, я распечатал себе как вводную установку. Но мне надо торопиться понять, создать и освоить в реале, чтобы передать другим.
Я с тёплым чувством вспоминаю простенький советский планшет А3 из 10 листов миллиметровки, -- бросишь на стол и чирикаешь на нём всё что приходит, а постепенно вырисовывается блок-схема... Тут один чел. создал такое на компьютере см. http://www.aicommunity.org/members/no/ приложено несколько примеров.


p.s. спасибо за ссылку на статью Explain Феодоритова.
Конечно, хотелось-бы продолжения по Индивидуальным Ситуационным Центрам.
Автор: Gnom_s_Borodoi
Дата сообщения: 24.09.2009 14:51
Explain имеется в виду? Да! хорошая программа для стуктурирования "мягких" проблем. Но и для многого другого годится. Автор, праавда перестал ее развивать дальше. Возможно и правильно. Она может и портейбл работать, но чувствительна к имени диска
http://forum.ru-board.com/topic.cgi?forum=5&bm=1&topic=12634#1
Автор: Gnom_s_Borodoi
Дата сообщения: 19.10.2009 11:03
Блюменау Д.И.

Информация – Сознание – Интуиция – Творчество.
Часть 1

Страницы: 1234567891011121314151617181920212223242526272829303132

Предыдущая тема: Полная информация о мультимедийном файле


Форум Ru-Board.club — поднят 15-09-2016 числа. Цель - сохранить наследие старого Ru-Board, истории становления российского интернета. Сделано для людей.