Alexey87
Предлагаете скачать его с очередного говнообменника? Ладно.
> В файле c:\html\0125.html есть аж целых 12
И не одного не разорванного возвратом каретки и переводом строки, а Греп-тот читает файл построчно.
На свое удивление не нашел у него ключа, задающего произвольный символ — разделитель записей, поэтому могу только преложить предварительно потереть эти символы:
$ awk -v RS='\r\n' -v ORS=' ' '1' /tmp/0125.html.utf-8 | grep -Pio '<h[1-6].*?>.*?</h[1-6]>'
<h1 id="fav_name_1" class="news_item_header">Всемирный день IPv6: мир движется к новой версии интернет-протокола</h1>
<h1 id="fav_name_1" class="news_item_header">Мультимедиа: DarkWave Studio v.3.2.6</h1>
<h1 id="fav_name_1" class="news_item_header">Чистильщики: Driver Sweeper v.2.8.5</h1>
<h1 id="fav_name_1" class="news_item_header">Почтовые клиенты и фильтры: Gmail Manager v.0.6.3</h1>
<h1 id="fav_name_1" class="news_item_header">Настройщики: GBoost v.1.03.0</h1>
<h1 id="fav_name_1" class="news_item_header">Чистильщики: Norton Removal Tool 2011.0.5.9</h1>
<h1 id="fav_name_1" class="news_item_header">Утилиты: PDFCreator v.1.2.0</h1>
<h1 id="fav_name_1" class="news_item_header">Мультимедиа: VideoLAN v.1.1.6</h1>
<h1 id="fav_name_1" class="news_item_header">Диагностика: Gigabyte EasyTune6 v.B10.1228.1</h1>
<h1 id="fav_name_1" class="news_item_header">SearchInform о прогнозах в области информационной безопасности на 2011 год</h1>
<h1 id="fav_name_1" class="news_item_header">OPTIMA-WorkFlow и iDecide — управление бизнес-процессами на iPad</h1>
<h1 id="fav_name_1" class="news_item_header">Российским врачам будет ассистировать iPad</h1>
— вот как-то так это выглядит у меня.
Предлагаете скачать его с очередного говнообменника? Ладно.
> В файле c:\html\0125.html есть аж целых 12
И не одного не разорванного возвратом каретки и переводом строки, а Греп-тот читает файл построчно.
На свое удивление не нашел у него ключа, задающего произвольный символ — разделитель записей, поэтому могу только преложить предварительно потереть эти символы:
$ awk -v RS='\r\n' -v ORS=' ' '1' /tmp/0125.html.utf-8 | grep -Pio '<h[1-6].*?>.*?</h[1-6]>'
<h1 id="fav_name_1" class="news_item_header">Всемирный день IPv6: мир движется к новой версии интернет-протокола</h1>
<h1 id="fav_name_1" class="news_item_header">Мультимедиа: DarkWave Studio v.3.2.6</h1>
<h1 id="fav_name_1" class="news_item_header">Чистильщики: Driver Sweeper v.2.8.5</h1>
<h1 id="fav_name_1" class="news_item_header">Почтовые клиенты и фильтры: Gmail Manager v.0.6.3</h1>
<h1 id="fav_name_1" class="news_item_header">Настройщики: GBoost v.1.03.0</h1>
<h1 id="fav_name_1" class="news_item_header">Чистильщики: Norton Removal Tool 2011.0.5.9</h1>
<h1 id="fav_name_1" class="news_item_header">Утилиты: PDFCreator v.1.2.0</h1>
<h1 id="fav_name_1" class="news_item_header">Мультимедиа: VideoLAN v.1.1.6</h1>
<h1 id="fav_name_1" class="news_item_header">Диагностика: Gigabyte EasyTune6 v.B10.1228.1</h1>
<h1 id="fav_name_1" class="news_item_header">SearchInform о прогнозах в области информационной безопасности на 2011 год</h1>
<h1 id="fav_name_1" class="news_item_header">OPTIMA-WorkFlow и iDecide — управление бизнес-процессами на iPad</h1>
<h1 id="fav_name_1" class="news_item_header">Российским врачам будет ассистировать iPad</h1>
— вот как-то так это выглядит у меня.