Автоматическое определение движка форума. Автоматическое определение движка форума Продлится index php topic powered by smf

Здравствуйте, уважаемые читатели блога сайт. Итак, мы продолжаем тему настройки форумного движка под названием SMF, начатую в посте про его . Там мы еще не сделали форум русским, в плане перевода с английского интерфейса. На данный момент он выглядит не очень презентабельно, но после русификации (если она еще не была произведена) и создания соответствующих разделов, его вид существенно улучшится.

Сегодня мы рассмотрим темы оформления и сделаем его русским, а так же поставим компонент JFusion, который умеет работать с обоими движками (и Джумлой, и СМФ), что позволит иметь общую базу пользователей на двоих и всего лишь одну форму их регистрации и входа.

Темы оформления и установка русского языкового пакета

Движок Simple Machines Forum поддерживает возможность смены тем, причем, их можно менять, как для всего форума целиком, так и для отдельных его разделов в частности. Лично я использовал тему оформления по умолчанию, но при этом внес в нее достаточно много изменений вручную. В частности я сменил фон, цветовые решения некоторых элементов, добавил часики на флеше, радио и многое другое, о чем я расскажу в последующих постах данной рубрики.

Почему я не использовал какую-либо из дополнительных тем оформления при создании форума? Ну, тут, наверное, все дело в моей лени. Нет, мне было не лень искать и скачивать новые темы, благо мест, где это можно сделать, множество. Моя лень заключается в другом.

Дело в том, что все многообразие модов для этого движка, призванных расширить его возможности, ориентированно именно на дефолтную тему. Поясняю. Если тема оформления у вас дефолтная, то добавление того или иного мода в SMF проходит за считанные секунды и, как правило, не требует ручной правки кода.

В случае же установки мода на тему оформления, отличную от дефолтной, потребуется, как говорится, все необработанные детали обработать напильником. Иными словами, вам придется с помощью FileZilla (скачать и настроить ее можно получать доступ к сайту по протоколу FTP и открывать на редактирование файлы вашего форумного движка, в которые данный мод вносит изменения.

Затем искать нужное место в коде и производить нужные действия: либо замена кода, либо удаление, либо добавление участка кода до или после нужно фрагмента. Если учесть, что файлов, в которые нужно будет вносить изменения, может быть в районе десятка, то можно себе представить, как хлопотно это будет проделать. При этом нужно быть очень внимательным и не ошибаться, т.к в противном случае форум может вообще не открыться.

Если все перечисленные выше проблемы использования не дефолтной темы вас не пугают, то вы можете скачать их отсюда . Темы там отсортированы по разделам (минимализм, близкие к классической, модерновые и т.д.) и для каждой из них можно посмотреть ее скриншот на полный экран. Как устанавливать эти самые темы я расскажу чуть позже.

Если Вы не русифицировали форум на этапе заливки файлов движка на хостинг, как было описано в первой части этого опуса (см. ссылку в самом начале статьи), то можно сделать это сейчас. Предварительно скачанный с этой страницы русский языковой пакет с нужной , нужно распаковать, а затем скопировать папку Themes в корневую папку, где уже присутствует каталог с аналогичным названием.

По окончании копирования нужно зайти на форум под логином и паролем администратора. Выбрать в верхнем меню пункт «Admin», а затем в левой колонке щелкнуть по пункту «Server Settings».

В открывшемся окне находим пункт «Default Forum Language» и выбираем из выпадающего списка русский язык, а затем жмем на кнопку «Save» внизу страницы.

Все, теперь ваша конференция уже полностью на русском.

Решение проблем при установке не поддерживающих русский язык модов

Обратите внимание, что в дальнейшем при добавлении модов на SMF, не имеющих русского перевода, у вас иногда может возникнуть проблема с отображением настроек модов в админке. Собственно, этих самых настроек в админке будет просто-напросто не видно, т.к. не будет файлов русификации для них. Поэтому у вас будет два варианта решения этой проблемы.

Первый способ заключается в переходе на английский язык для всего форума. Как это можно сделать, вы можете посмотреть несколькими абзацами выше. Соответственно, после того, как вы произведете необходимые действия с этими настройками, нужно будет опять вернуть на русский язык.

Второй способ более сложный, но зато позволит нам видеть настройки установленных модов в админке всегда, а не только при активации английского языка. Я так подробно останавливаюсь на этом моменте, потому что вопрос о том, что кто-то установил мод и не может найти ее настроек в админке своей конференции, является очень распространенным.

Итак, второй способ заключается в добавлении строк перевода в файлы русификации для только что добавленных модов. Как определить, в какие файлы русификации нужно вносить изменения и где их брать, я расскажу позже. А пока, временно, вы можете использовать первый способ.

Установка JFusion для интеграции сайта и форума

Сначала вам нужно будет скачать JFusion и его русификацию. Войдя в админку Джумлы выполняем стандартные действия: выбираем из верхнего меню админки пункты «Расширения» - «Установить/Удалить» - «Загрузить файл пакета» - кнопка «Обзор» - находим на своем компьютере файл с компонентом jfusion_package.zip - жмем на кнопку «Загрузить файл&Установитьш>».

После этого появляется окно, сообщающее о том, что компонент установлен удачно. Если возникают проблемы, то вы можете ознакомиться с вариантами решения некоторых из них по приведенной чуть выше ссылке.

Теперь очередь за русификацией, которая добавляется точно так же, как и сам компонент. Т.е. повторяем последовательность действий: «Расширения» - «Установить/Удалить» - «Загрузить файл пакета» - кнопка «Обзор» - находим на своем компьютере файл русификации JFusion - жмем на кнопку «Загрузить файл&Установить». Теперь мы можем зайти в настройки по пути «Компоненты»- «JFusion» и убедиться, что русификация была успешно добавлена и работает.

Удачи вам! До скорых встреч на страницах блога сайт

Вам может быть интересно

Настройка JFusion для для объединения форума SMF и Джумла-сайта
Модули JFusion для вывода сообщений с форума на сайте, а так же создание кнопки в SMF для возврата в Джумлу
Создание пункта меню в Joomla для входа на форум и перенос регистрации пользователей из SMF на сайт
Установка форума SMF - Интеграция Joomla 1.5 и Simple Machines Forum с помощью компонента JFusion
Расширения для Joomla - что это такое и где скачать компоненты, модули и плагины для Джумлы, как их устанавливать и удалять
Компонент K2 для создания блогов, каталогов и порталов на Joomla - возможности, установка и русификация Фотогалерея для Joomla — Часть 3 — Создание галерей в Joomla 1.5 с помощью компонента Phoca Gallery — добавление категорий и загрузка изображений в фотогалерею
ARTIO JoomSEF - настройка ЧПУ (SEF) ссылок и Title в Joomla, а так же создание страницы 404 ошибки с помощью этого расширения
Akeeba Backup (бывший JoomlaPack) - создание бэкапа сайта на Joomla и восстановления из резервной копии в два клика

Начнем сразу с кода основного скрипта:

#!/usr/bin/perl

# which-forum.pl script
# (c) 2010 Alexandr A Alexeev, http://сайт/

use strict;

# закомментированные строки - для строгости
# если задача - собрать статистику движков, оставить как есть
# если составить список форумов - раскомментировать

my $data ;
$data .= $_ while (<> ) ;

# проверить, сколько было Powered by phpBB без ссылки в подвале
print "phpbb\n "
if ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?phpbb\.com\/?"[^>]*>phpBB/i or
# $data =~ /viewforum\.php\?[^""]*f=\d+/i or
$data =~ /phpBB\-SEO/i or
$data =~ /) ;
print "ipb\n "
if ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?invision(?:board|power)\.com\/?[^"]*"[^>]*>[^<]*IP\.Board/i or
$data =~ /]+href="[^"]*http:\/\/(?:www\.)?invisionboard\.com\/?"[^>]*>Invision Power Board/i or
$data =~ /

/i or
$data =~ /index\.php\?[^""]*showforum=\d+/i ) ;
print "vbulletin\n "
if ($data =~ /Powered by:?[^<]+vBulletin[^<]+(?:Version)?/i or
$data =~ /) ;
print "smf\n "
if ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?simplemachines\.org\/?"[^>]*>Powered by SMF/i or
$data =~ /index\.php\?[^""]*board=\d+\.0/i ) ;
print "punbb\n "
if ($data =~ /]+href="[^"]*http:\/\/(?:(?:www\.)?punbb\.org|punbb\.informer\.com)\/?"[^>]*>PunBB/i ) ; #or
# $data =~ /viewforum\.php\?[^""]*id=\d+/i);
print "fluxbb\n "
# if($data =~ /viewtopic\.php\?id=\d+/i or
if ( $data =~ /]+href="http:\/\/(?:www\.)fluxbb\.org\/?"[^>]*>FluxBB/i ) ;
print "exbb\n "
if ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?exbb\.org\/?"[^>]*>ExBB/i ) ; # or
# $data =~ /forums\.php\?[^""]*forum=\d+/i);
print "yabb\n "
if ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?yabbforum\.com\/?"[^>]*>YaBB/i or
$data =~ /YaBB\.pl\?[^""]*num=\d+/i ) ;
print "dleforum\n "
if ($data =~ /\(Powered By DLE Forum\)<\/title>/i or
$data =~ /]+href="[^"]+(?:http:\/\/(?:www\.)?dle\-files\.ru|act=copyright)[^"]*">DLE Forum<\/a>/i ) ;
print "ikonboard\n "
if ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?ikonboard\.com\/?[^"]*"[^>]*>Ikonboard/i or
$data =~ /\n "
if ($data =~ /\n "
# if($data =~ /forums\.php\?fid=\d+/i or
# $data =~ /topic\.php\?fid=\d+/i or
if ($data =~ /]+href="http:\/\/(?:www\.)?flashbb\.net\/?"[^>]*>FlashBB/i ) ;
print "stokesit\n "
# if($data =~ /forum\.php\?f=\d+/i or
if ($data =~ /]+href="http:\/\/(?:www\.)?stokesit\.com\.au\/?"[^>]*>[^\/]*Stokes IT/i ) ;
print "podium\n "
# if($data =~ /topic\.php\?t=\d+/i or
if ($data =~ /]+href=[""]?http:\/\/(?:www\.)?sopebox\.com\/?[""]?[^>]*>Podium/i ) ;
print "usebb\n "
# if($data =~ /forum\.php\?id=\d+/i or
if ($data =~ /]+href="http:\/\/(?:www\.)?usebb\.net\/?"[^>]*>UseBB/i ) ;
print "wrforum\n "
# if($data =~ /index\.php\?fid=\d+/i or
if ($data =~ /]+href="http:\/\/(?:www\.)?wr\-script\.ru\/?"[^>]*>WR\-Forum/i ) ;
print "yetanotherforumnet\n "
if ($data =~ /Yet Another Forum\.net/i or
$data =~ /default\.aspx\?g=posts&t=\d+/i ) ;

Этот и другие скрипты, упомянутые в посте, вы найдете в этом архиве .

Скрипт which-forum.pl изучает код html-страницы на предмет наличия в нем сигнатур форумного движка. Аналогичный прием мы использовали при определении WordPress и Joomla , но есть пара отличий. Во-первых, сам скрипт не загружает код страницы, а читает его из stdin или файла, переданного в качестве аргумента. Это позволяет загрузить страницу один раз, к примеру, с помощью wget, а затем прогнать ее через несколько анализаторов, если у нас их не один. Во-вторых, в данном скрипте наличие сигнатуры является 100% признаком движка. В прошлый раз наличие сигнатуры лишь придавало веса соответствующему движку и «выигрывал» движок с наибольшим весом. Я решил, что в данном случае такой подход лишь напрасно усложнит код.

Чтобы протестировать работу скрипта, я провел небольшое исследование. Я составил список из нескольких тысяч форумов и прогнал каждый из них через свой скрипт, определив тем самым процент срабатываний программы и популярность различных движков.

Для получения списка форумов я воспользовался своим парсером Google . Поисковой системе посылались запросы типа

site:forum.*.ru
site:talk.*.ru
site:board.*.ru
site:smf.*.ru
site:phpbb.*.ru
....

и так далее. Полный код генератора запросов вы найдете в файле gen-forumsearch-urls.pl . Помимо зоны.ru также использовались.su .ua .kz и.by. В прошлый раз провести такое исследование было затруднительно, поскольку сайты на WordPress и Joomla не имеют подобных сигнатур в URL. Каталоги типа cmsmagazine.ru/catalogue/ не обеспечивают достаточного объема выборки. Что такое 600 сайтов на Drupal?

Надо признать, результаты эксперимента меня огорчили. Из 12590 исследуемых сайтов только на 7083 движок был определен успешно, то есть лишь в 56% случаев. Может быть, я не учел какой-нибудь движок? Неужто на половине форумов стоял Bitrix? Или мне стояло больше времени уделить поиску сигнатур? В общем, тут требуются дополнительные исследования.

Среди 56% успешно опознанных движков самыми популярными, как и следовало ожидать, оказались IPB (31%), phpBB (26,6%) и vBulletin (26,5%)

За ними с большим отставанием следуют SMF (5,8%) и DLEForum (5,3%). Мой любимый punBB оказался лишь на 6-м месте (1,64%). Я не советовал бы сильно доверять этим цифрам (мол, каждый третий форум в рунете работает на IPB), но определенные выводы сделать, конечно, можно.

Например, если вы намерены делать сайт на форумном движке и планируете модифицировать форум, скажем, платить пользователям по 0.01$ за каждое сообщение с автоматическим выводом средств раз в неделю, то вам следует выбрать один из трех наиболее популярных движков. Чем популярнее форум, тем больше шансов найти программиста, который хорошо в нем разбирается.

Если же существенных изменений в движке не предвидится, то возможно имеет смысл выбрать не самый популярный движок, например SMF или punBB. Этим вы уменьшите число хакерских атак на свой форум и количество автоматически рассылаемого на нем спама.

Скриптам для поиска/определения форумов также можно найти не одно практическое применение. Первое, что пришло лично мне в голову — это отсортировать по тИЦ опознанные форумы и разместить на первой сотне посты с ссылками на один из своих сайтов. Однако сотня форумных dofolllow-ссылок никак не повлияла на тИЦ (прошло 2 апдейта), так что лучше не тратить тут время, если только вас не интересуют переходы.

Понятно, что названное применение скриптов далеко не единственное. Думаю, вы легко придумаете, как еще можно их использовать.

Организованном Ботмастер Лабс, не планировал. Время нету, видео нужно для конкурса, как новомодное веяние, хоть легче все хорошими скринами можно объяснить (моё ИМХО), да и палить особо не хочется ничего. Тем уж очень мало осталось прибыльных, тупой спам уже совсем не рулит, тут нужно думать и темы никто палить не будет, если только отжившие попытаться в красивую обвёрку засунуть и припудрить немного. :) Но это не про нас. Вобщем, эти 3 "не", думаю, в основном и стали барьерами для участия в конкурсе для большинства потенциальных участников. Тут как с ремонтом машины из трех: дешево, качественно, быстро - в сервисе могут только 2 условия одновременно выполнить. сиди и выбирай, что тебе ближе. :) С конкурсом тоже самое: есть время, умею делать видео, но нету темы, или умею делать видео, есть тема, но нету совсем времени, или же и время свободное появилось и темка небольшая есть, но видео пугает. Но это хорошо,если одновременно 2 условия выполняются. Ну, да ладно, отбросим лирику. Я про себя продолжу. Не планировал, значит, я в конкурсе участвовать, даже выбрал за какую статью голосовать буду. Что ни говори, а Доз очень хорошо софт знает и очень толково его применять умеет. Но сегодня узнал, что в конкурсе интрига появилась. Оказывается я голосовать не смогу, а смогут это делать только новички, кто приобрел софт в 2011 году и конкурс рассчитан на них. Удивился немного, но хозяин - барин. Конкурс - это рекламная компания и Александру виднее, как ее проводить. Вобщем, решил тогда выложить статью, несколько легче писать, когда ясно для кого, для всего колхоза на самом деле это сделать невозможно.
Длинное вступление закончилось, теперь к сути.
Что нужно новичку, когда он приобрел такой супер-комбайн, которым является комплекс Xrumer +Hrefer ? Правильно, научиться на нем работать и отбросить иллюзии, что, начав спамить простынями, можно заработать деньги. Если вы так думаете, лучше сразу пожертвуйте ваши деньги на благотворительность. Вам нужно научиться использовать инструменты комплекса, желательно затачивая его под себя. Время "бери больше - кидай дальше" ушло. Количество уступает место качеству. Значит будем собирать базу под себя, не научитесь это делать - отстанете от поезда. В этом нам поможет, естественно, Хрефер. Если вы планируете продвигать свои ресурсы в Гугле, то и искать сайты-доноры нам нужно также через Гугл. Думаю, это понятно и логично. Но Гугл, как хозяйка медной горы, всем подряд свои богатства не отдает. К нему подход нужен. Сразу хотел бы сказать, что не надейтесь, что по признакам, которые вы найдете в паблике вы что-то сможете собрать. Они оттого и доступны в паблике, что грош им цена. Дальше тему развивать не буду. Лучше расскажу, как правильно собирать, чтобы вы увидели результат, остальное сами доработаете, главное понять принцип. Собирать по правильному нужно по признакам конкретных, нужных нам движков, а не признакам форумов вообще. Это главная ошибка новичков - не сконцентрироваться на конкретном, а пытаться охватить все целиком. И еще, если хотите напарсить более-менее нормальную базу, откажитесь от использования в запросах операторов. Никаких "inurl:", "site:", "title" и т.д. Гугл таких как вы искателей забанит моментально. Поэтому тщательно изучаем движки, с которыми в настоящий момент работает Хрумер:

Powered by php-Fusion

В версии Хрумер 7,07 программа обучена нескольким новым движкам:

forumi.biz, forumb.biz, 1forum.biz, 7forum.biz и т.п.

phpBB-fr.com, Solaris phpBB theme

И процесс обучения новому идет непрерывно.
Вобщем, нам нужно готовить правильные запросы для парсинга Хрефером. Возьмем для примера форумный дижок SMF Forums . И начнем разбирать его на запчасти для парсинга. В этом нам поможет наш любимый Гугл. Вводим в Гугл запрос SMF Forums - много мусора в выдаче, отматываем на какую-нибудь 13-ю страницу и выбираем любую ссылку. Мне попалась на глаза вот такая: http://www.volcanohost.com/forum/index.php?topic=11.0 . Открываем ее и изучем. Нам нужно найти на странице что-то характерное, что можно применить к поиску других страниц на данном движке. В футере замечаем следующую надпись Powered by SMF 1.1.14 , кавычим её и вводим в Гугл, он нам показывает, что по данному запросу он знает около 59 млн вариантов. Бегло просматриваем ссылки, добавляем к данному ключевику еще парочку-другую вариантов, например, "Powered by SMF 1.1.14" тополь либо "Powered by SMF 1.1.14" viagra . Убеждаемся, что запрос шикарный, в выдаче только форумы и почти никакого тебе мусора.

Нам же кроме того, не количество интересно, а качество, как я говорил выше. Идем дальше. Из того же форума берем еще одну фразу из футера: , также ее кавычим и скармливаем Гуглу. В ответ он показывает, что ему известно более 13 млн результатов. Снова бегло просматриваем выдачу, добавляем допслова и проверяем выдачу с ними. Убеждаемся, что запрос отличный и также почти нету мусора. Вобщем, уже есть 2 железных запроса. Я предлагаю, первый форум пока оставить в покое и продолжить собирать запросы уже по другим форумам. Благо Гугл у нас открыт по запросу 2006-2008, Simple Machines LLC . Берем из выдачи, например, эти форумы: http://www.snowlinks.ru/forum/index.php?topic=1062.0 и http://litputnik.ru/forum/index.php?action=printpage;topic=380.0 в футерах у них берем следующие запросы: "Powered by SMF 1.1.7" и "Powered by SMF 1.1.10" (вбивать для Хрефера запросы всегда советую закавыченными, ведь нам качество нужно в первую очередь). Думаю, понятно, что мы делаем, в конце концов у нас соберется некая база запросов для поиска форумов на движке СМФ (он выбран для примера, с остальными движками аналогично).
Выглядеть это будет примерно так:

"Powered by SMF 1.1.2"

"Powered by SMF 1.1.3"

"Powered by SMF 1.1 RC2"

"Powered by SMF 1.1.4"

"Powered by SMF 1.1.8"

"Powered by SMF 1.1.7"

"2006-2008, Simple Machines LLC"

Причем и это еще не всё. Собирая версии движков мы на некоторых форумах СМФ в футере обнаруживаем надвись "2001-2006, Lewis Media". Проверяем этот запрос, он тоже нас полностью удовлетворяет. Находим похожий запрос: "2001-2005, Lewis Media". Пробегая футеры далее находим следующий запрос: "SMFone design by A.M.A, ported to SMF 1.1". Проверяем - отлично. И так далее. Полчаса работы и у вас замечательная база запросов по движку, причем за данные запросы Гугл будет банить значительно реже, чем, если вы будете использовать в них операторы. И в то же время база у вас будет значительно чище, чем, если вы будете использовать запросы, типа "index.php?topic=", потому как тут Гугл будет отдавать не только нужные нам форумы, но и много левых ресурсов, где удалось оставить ссылку на топик форума. Вы можете возразить, мол, а что в этом плохого? Другие же оставили ссылку, значит и мы можем. Но! Ссылки может оставлять не только Хрумер, но и другие программы. причем они могут быть специально заточены для оставления комментариев в определенный ресурс, так называемый узкоспециальный софт, плюс такие ссылки могли быть оставлены руками. Опять повторюсь, нам не количество мусорное важно, а качество, базу правильными запросами мы и так соберем. Плюс данного метода еще и в том, что вам практически не нужно будет в Хрефере настраивать sieve -filter , его можно будет попросту отключить, ведь Гугл вам практически не будет отдавать мусора.


Считаю, что научиться на начальном этапе грамотно пользоваться Хрефером очень важно, ведь научившись этому можно всегда найти применение Хрумеру, как бы не менялась ситуация. Защиты усложняются, и если на каких-то типах движков усилили защиту и с ней не справляется в данный момент Хрумер, то нет смысла тратить ресурсы на сбор данных линков, а потом на работу по ним Хрумером, лучше сосредоточить силы на том, что даёт результат. И в то же время, если команда Ботмастер Лабс обучила Хрумер чему-то новому, можно оперативно препарировать нового пациента и подготовить базу Хрумеру, пока пациент еще тепленький. Время - деньги, ресурс может быть уже не актуальный, когда вы купите базу. собранную кем-то. Кроме того правильное собирание баз под себя значительно расширяет "белое" применение Хрумера. А это именно то, куда все и движется, хотим мы того или нет, а процесс беления или серения идет. Черные простыни по чему только можно уходят в прошлое.
Все остальные, уже технические моменты работы с Хрефером можно посмотреть в хелпе и останавливаться на них не имеет смысла, все голы-очки-секунды выставляются опытным путём для каждой машины индивидуально.
В качестве бонуса выложу здесь шаблон для парсинга китайского поисковика Baidu, на днях у меня про него спрашивали, вот сделал между делом, извините за каламбур. :)


Hostname=http://www.baidu.com
Query=s?wd=
LinksMask=
TotalPages=100
NextPage=

NextPage2=

CaptchaURL=
CaptchaImage=
CaptchaField=


Пробовал им тестово попарсить, бана не было, ресурсы Хрефер собирал живо, все запросы для парсинга аналогичные Гугловским, но ресурсов китайских - море, причем с высоким ПР, а кроме того, много куда там не ступала нога европейца. Парсить лучше китайскими запросами. В этом поможет Гугл-транслейт, набираете список ключевиков по-русски и переводите это на китайский. Правда в "вордс " Хрефера слова нельзя складывать на китайском, нужно перекодировать.
Вместо китайских:

伟哥 - виагра

吉他 - гитара

其他 - отдых

保险公司 - страховка

Положить в файл вордс вот эти коды их замещающие:

%E4%BC%9F%E5%93%A5

%E5%90%89%E4%BB%96

%E5%85%B6%E4%BB%96

%E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8

Если вы продвигаете сайт по страховкам, то разместив ссылку в профиле на тематичном (!) даже китайском форуме найденному по запросу "форум СМФ" 保险公司 будет очень неплохо.
В заключение хотел бы сказать, что никогда не понимал людей, которые жаловались на то, что Хреферы плохо либо не то парсят, на это всегда хотелось сказать, вы просто не умеете их готовить. Лучше хрефера ни один парсер не умеет собирать выдачу, просто запросы должны быть правильные. Хрефер - машина: хорошая, добротная, сделанная по-немецки, но управляет ей человек и все зависит от того, на сколько толково ей управляют, нельзя одновременно заставлять ехать машину и направо и налево.
Отдельная тема - чистка баз, я когда-то 3 года назад для предыдущего конкурса . С большего там по прежнему все актуально, но от проверки на 200 ОК теперь можно отказаться, мне правда этот процесс не особо и нравился, очень погрешности были большие, много лишнего отфильтровывалось. Теперь это можно делать практически на автомате в процессе работы Хрумера, хоть данный процесс и не является полным аналогом проверки на "200 ОК". Вобщем, к делу: не так давно в Хрумере появилась замечательная возможность - граббить информацию с ресурсов в момент прогона проекта. Выглядит это так. Вы вбиваете шаблон, который в процессе работы будет обрабатываться, и собранная по шаблону информация будет заноситься в файл xgrabbed.txt в папке Logs. Применять эту функцию можно для чего угодно, полет фантазии огромный. Я раз в неделю использую эту функцию для удаления из рабочей базы "экспиред" ссылок. Не секрет, что форумы отмирают каждый день, чтобы почистить от таких ресурсов базу нам и поможет в данном случае инструмент "Автограббинг".
Ведь согласитесь, частенько набирая, например, http://www.laptopace.com/index.php мы видим, что доменом этим уже, например, гоудядя барыжит, а форума там нету. Так вот чтобы выкинуть из базы этот шлак, будем граббить. :) Открываем исходный код страницы и видим там данную запись:

laptopace.com
Для граббинга преобразуем её в
[...]

Теперь все "мертвецы" от гоудадди нам будут известны поимённо.
Вот небольшая подборка для инструмента "Автограббинг", если вы захотите почистить базу от разных "экспиред" доменов:


[...]

[...]
[...]
[...]

[...]
This domain may be for sale. [...]Buy this Domain

[...]<body bgcolor="#ffffff" text="#000000"> </span><br> Список далеко не полный, но думаю он поможет не гонять многомиллионные базы мусора многократно. Создать шаблон не сложно, открываете экспиред-ссылку и делаете маску шаблона. <br> При помощи того же автограббинга можно и ваши существующие базы прошерстить и рассортировать по ресурсам, разбив по движкам.Сортировка баз по движкам позволит оптимальнее использовать все возможности и настройки Хрумера, в частности процесс обучения. А кроме того при помощи Автограббинга вы можете удалить мусор из баз, если вы предпочитаете их собирать не Хрефером, а скачивая со всевозможных файлообменников. Для этого вам нужно либо сделать маску для отбора форумов и потом из базы собрать только то, что сграббится по маске, либо наоборот сделать маску для нефорумов и потом удалить то, что сграбится. Первый вариант логичнее и надежнее, потому что мы точно знаем, что искать.<br> Успехов в работе.<br> ПыСы. Видео сделал узконаправленное (намучился с ним, первый раз делал:)), правда запускал Хрефер с домашней машины, скорость нета не очень хорошая, тут у меня копии только для тестов стоят, так что не обессудьте за скорость работы. :)<br><p><span class="BlWV-EuxoOk"></span></p> <h4>16 комментариев:</h4> <p> jeka комментирует... </p><p>Какой программой вы подбирали ключевые слова?</p> Serge Glazko комментирует... <p>если мне нужно собрать тематичные ресурсы, то слова в Вордс подбираю ручками и через Адвордс. но по многим темам к меня уже подобраны слова, тут только может добавляю-удаляю какие-то слова, но тоже не автоматом, а просматриваю их все.</p> <script type="text/javascript"> <!-- var _acic={dataProvider:10};(function(){var e=document.createElement("script");e.type="text/javascript";e.async=true;e.src="https://www.acint.net/aci.js";var t=document.getElementsByTagName("script")[0];t.parentNode.insertBefore(e,t)})() //--> </script><br> <br> <script>document.write("<img style='display:none;' src='//counter.yadro.ru/hit;artfast_after?t44.1;r"+ escape(document.referrer)+((typeof(screen)=="undefined")?"": ";s"+screen.width+"*"+screen.height+"*"+(screen.colorDepth? screen.colorDepth:screen.pixelDepth))+";u"+escape(document.URL)+";h"+escape(document.title.substring(0,150))+ ";"+Math.random()+ "border='0' width='1' height='1' loading=lazy>");</script> </div> </div> <div class="sidebar_right"> <div class="block_buttons"> <a href="/category/internet/"><img src="/assets/icon-doctor.png" width="36" height="36" loading=lazy> Интернет</a> <a href="/category/windows-7-xp/"><img src="/assets/icon-doctor.png" width="36" height="36" loading=lazy> Windows 7, XP</a> <a href="/category/windows-8/"><img src="/assets/icon-doctor.png" width="36" height="36" loading=lazy> Windows 8</a> <a href="/category/windows-10/"><img src="/assets/icon-doctor.png" width="36" height="36" loading=lazy> Windows 10</a> <a href="/category/bezopasnost/"><img src="/assets/icon-doctor.png" width="36" height="36" loading=lazy> Безопасность</a> <a href="/category/sovety/"><img src="/assets/icon-doctor.png" width="36" height="36" loading=lazy> Советы</a> <a href="/category/programmy/"><img src="/assets/icon-doctor.png" width="36" height="36" loading=lazy> Программы</a> <a href="/category/gadzhety/"><img src="/assets/icon-doctor.png" width="36" height="36" loading=lazy> Гаджеты</a> <a href="/category/nastrojjka-wi-fi/"><img src="/assets/icon-doctor.png" width="36" height="36" loading=lazy> Настройка Wi-Fi</a> <a href="/category/televizory/"><img src="/assets/icon-doctor.png" width="36" height="36" loading=lazy> Телевизоры</a> </div> <div class="block-row-list"> <div class="wrapper_list_clause"> <div class="block-text-list"> <div class="title_clause"><a href="/raznoe/kak-ustanovit-spid-dial-speed-dial-vizualnye-zakladki-dlya-firefox/">Speed Dial – визуальные закладки для FireFox</a></div> <div class="anons"> <p>Mozilla Firefox – мощный и удобный браузер, функционал которого можно значительно расширить за счет специальных дополнений, которые можно загрузить из магазина, встроенного в браузер. В этой статье я хочу вам рассказать о дополнении Speed Dial – удобной и</p> </div> <div class="add_info"><img src="/assets/icon-eye.png" / loading=lazy> <img style="margin-left:10px" src="/assets/icon-comment.png" / loading=lazy> </div> </div> </div> </div> <div class="block-row-list"> <div class="wrapper_list_clause"> <div class="block-text-list"> <div class="title_clause"><a href="/windows-7-xp/obraz-diska-dmg-otkrytie-faila-dmg-na-raznyh-platformah-drugie-instrumenty-dlya/">Открытие файла DMG на разных платформах</a></div> <div class="anons"> <p>С расширением dmg чаще всего встречаются пользователи операционной системы Mac OS. Файл dmg представляет собой классический образ диска. В файле с текущим расширением могут храниться любые данные по аналогии с . Дополнительно нужно . Данная статья расскаж</p> </div> <div class="add_info"><img src="/assets/icon-eye.png" / loading=lazy> <img style="margin-left:10px" src="/assets/icon-comment.png" / loading=lazy> </div> </div> </div> </div> <div class="block-row-list"> <div class="wrapper_list_clause"> <div class="block-text-list"> <div class="title_clause"><a href="/programmy/novyi-aifon-h-obzor-obzor-iphone-x-dizain-cveta-harakteristiki-ceny-start/">Обзор iPhone X: дизайн, цвета, характеристики, цены, старт продаж в России</a></div> <div class="anons"> <p>Существует такое мнение, что лучше купить прошлогодний флагман, чем новую модель среднего класса. В мире Android-смартфонов это правило работает безотказно, но можно ли его применить к царству Apple? Для этого мы взяли прошлогодний iPhone X и новейший iPh</p> </div> <div class="add_info"><img src="/assets/icon-eye.png" / loading=lazy> <img style="margin-left:10px" src="/assets/icon-comment.png" / loading=lazy> </div> </div> </div> </div> <div class="most_popular_clauses"> <div class="block clauses"> <div class="block_header">Самые читаемые материалы</div> <a href="/raznoe/kak-ustanovit-spid-dial-speed-dial-vizualnye-zakladki-dlya-firefox/" class="block-row-most"> <div class="wrapper_list_clause_most clearfix"> <div class="clauses_img_most"><img src="https://i1.wp.com/bezwindowsa.ru/wp-content/uploads/2015/01/speed-dial1.png" width="97" height="79" alt="Speed Dial – визуальные закладки для FireFox" title="Speed Dial – визуальные закладки для FireFox" class="block-row-img" loading=lazy></div> <div class="block-text-most"> <div href="/raznoe/kak-ustanovit-spid-dial-speed-dial-vizualnye-zakladki-dlya-firefox/" class="black">Speed Dial – визуальные закладки для FireFox</div> </div> </div> </a> <a href="/windows-7-xp/obraz-diska-dmg-otkrytie-faila-dmg-na-raznyh-platformah-drugie-instrumenty-dlya/" class="block-row-most"> <div class="wrapper_list_clause_most clearfix"> <div class="clauses_img_most"><img src="https://i2.wp.com/windd.ru/wp-content/uploads/2019/05/kak-zapustit-dmg-fajl-na-windows-10.png" width="97" height="79" alt="Открытие файла DMG на разных платформах" title="Открытие файла DMG на разных платформах" class="block-row-img" loading=lazy></div> <div class="block-text-most"> <div href="/windows-7-xp/obraz-diska-dmg-otkrytie-faila-dmg-na-raznyh-platformah-drugie-instrumenty-dlya/" class="black">Открытие файла DMG на разных платформах</div> </div> </div> </a> <a href="/programmy/novyi-aifon-h-obzor-obzor-iphone-x-dizain-cveta-harakteristiki-ceny-start/" class="block-row-most"> <div class="wrapper_list_clause_most clearfix"> <div class="clauses_img_most"><img src="https://i0.wp.com/wylsa.com/wp-content/uploads/2018/10/iPhone-XR-3.jpg" width="97" height="79" alt="Обзор iPhone X: дизайн, цвета, характеристики, цены, старт продаж в России" title="Обзор iPhone X: дизайн, цвета, характеристики, цены, старт продаж в России" class="block-row-img" loading=lazy></div> <div class="block-text-most"> <div href="/programmy/novyi-aifon-h-obzor-obzor-iphone-x-dizain-cveta-harakteristiki-ceny-start/" class="black">Обзор iPhone X: дизайн, цвета, характеристики, цены, старт продаж в России</div> </div> </div> </a> <a href="/programmy/kak-prilozheniya-peremestit-na-kartu-pamyati-android-kak-perenesti/" class="block-row-most"> <div class="wrapper_list_clause_most clearfix"> <div class="clauses_img_most"><img src="https://i1.wp.com/protabletpc.ru/wp-content/uploads/2016/09/fajlovyj-menedzher-na-android.jpg" width="97" height="79" alt="Как перенести приложения с внутренней памяти на SD карту в Android" title="Как перенести приложения с внутренней памяти на SD карту в Android" class="block-row-img" loading=lazy></div> <div class="block-text-most"> <div href="/programmy/kak-prilozheniya-peremestit-na-kartu-pamyati-android-kak-perenesti/" class="black">Как перенести приложения с внутренней памяти на SD карту в Android</div> </div> </div> </a> <a href="/windows-10/skachat-besplatnyi-analog-vorda-pohozhie-programmy-vybiraem-alternativu/" class="block-row-most"> <div class="wrapper_list_clause_most clearfix"> <div class="clauses_img_most"><img src="https://i0.wp.com/3.404content.com/1/FB/91/455150953439430039/fullsize.jpg" width="97" height="79" alt="Выбираем альтернативу Microsoft Office Word" title="Выбираем альтернативу Microsoft Office Word" class="block-row-img" loading=lazy></div> <div class="block-text-most"> <div href="/windows-10/skachat-besplatnyi-analog-vorda-pohozhie-programmy-vybiraem-alternativu/" class="black">Выбираем альтернативу Microsoft Office Word</div> </div> </div> </a> <a href="/gadzhety/proshivka-dlya-samsung-gt-i9300-galaxy-s3-samsung-gt-i9300-galaxy-s3-obnovlenie-po-i-root-prava-programma/" class="block-row-most"> <div class="wrapper_list_clause_most clearfix"> <div class="clauses_img_most"><img src="https://i2.wp.com/i.ytimg.com/vi/rhK3KIhz5UQ/hqdefault.jpg" width="97" height="79" alt="Samsung GT-I9300 Galaxy S3 — Обновление ПО и ROOT-права" title="Samsung GT-I9300 Galaxy S3 — Обновление ПО и ROOT-права" class="block-row-img" loading=lazy></div> <div class="block-text-most"> <div href="/gadzhety/proshivka-dlya-samsung-gt-i9300-galaxy-s3-samsung-gt-i9300-galaxy-s3-obnovlenie-po-i-root-prava-programma/" class="black">Samsung GT-I9300 Galaxy S3 — Обновление ПО и ROOT-права</div> </div> </div> </a> <a href="/gadzhety/ustanovka-root-na-android-chto-takoe-rut-prava-na-android-kak-poluchit/" class="block-row-most"> <div class="wrapper_list_clause_most clearfix"> <div class="clauses_img_most"><img src="https://i0.wp.com/poandroidam.ru/wp-content/uploads/2017/06/root-4.jpg" width="97" height="79" alt="Что такое рут права на Андроид" title="Что такое рут права на Андроид" class="block-row-img" loading=lazy></div> <div class="block-text-most"> <div href="/gadzhety/ustanovka-root-na-android-chto-takoe-rut-prava-na-android-kak-poluchit/" class="black">Что такое рут права на Андроид</div> </div> </div> </a> </div> </div> <div align='center'> </div> </div> </div> </div> <div class="clear">&nbsp;</div> <div id="footer"> <div class="wrapper wrapper_footer clearfix"> <div class="clearfix"><div class="block_with_menu"> <h2 class="article_main_page">Последние материалы</h2> <div class="block-row"> <div class="wrapper_list_clause"> <div class="clauses_img"><a href="/programmy/kak-prilozheniya-peremestit-na-kartu-pamyati-android-kak-perenesti/"><img src="https://i1.wp.com/protabletpc.ru/wp-content/uploads/2016/09/fajlovyj-menedzher-na-android.jpg" width="196" height="160" alt="Как перенести приложения с внутренней памяти на SD карту в Android" title="Как перенести приложения с внутренней памяти на SD карту в Android" class="block-row-img" loading=lazy></a></div> <div class="block-text"> <div class="title_clause"><a href="/programmy/kak-prilozheniya-peremestit-na-kartu-pamyati-android-kak-perenesti/" class="black">Как перенести приложения с внутренней памяти на SD карту в Android</a></div> <div class="anons">Система Андроид устроена таким образом, что обычно файлы сохраняются на внутреннем накопителе. Как правило, поэтому удобнее хранить данные на внешнем устройстве.Если фотографии занимают слишком много места на внутреннем накопителе, то вы можете перенести.</div> <div class="add_info"><img src="/assets/icon-eye.png" / loading=lazy> <img style="margin-left:10px" src="/assets/icon-comment.png" / loading=lazy> </div> </div> </div> </div> <div class="block-row"> <div class="wrapper_list_clause"> <div class="clauses_img"><a href="/windows-10/skachat-besplatnyi-analog-vorda-pohozhie-programmy-vybiraem-alternativu/"><img src="https://i0.wp.com/3.404content.com/1/FB/91/455150953439430039/fullsize.jpg" width="196" height="160" alt="Выбираем альтернативу Microsoft Office Word" title="Выбираем альтернативу Microsoft Office Word" class="block-row-img" loading=lazy></a></div> <div class="block-text"> <div class="title_clause"><a href="/windows-10/skachat-besplatnyi-analog-vorda-pohozhie-programmy-vybiraem-alternativu/" class="black">Выбираем альтернативу Microsoft Office Word</a></div> <div class="anons">Сегодня рассмотрим , ведь не так давно вышел новый офисный пакет Office 2013 от компании Microsoft и поступил в свободную продажу. Цена самой простой версии Office 2013 – 140$, а профессиональный вариант обойдется пользователю в 400$. Новый оф.</div> <div class="add_info"><img src="/assets/icon-eye.png" / loading=lazy> <img style="margin-left:10px" src="/assets/icon-comment.png" / loading=lazy> </div> </div> </div> </div> <div class="block-row"> <div class="wrapper_list_clause"> <div class="clauses_img"><a href="/gadzhety/proshivka-dlya-samsung-gt-i9300-galaxy-s3-samsung-gt-i9300-galaxy-s3-obnovlenie-po-i-root-prava-programma/"><img src="https://i2.wp.com/i.ytimg.com/vi/rhK3KIhz5UQ/hqdefault.jpg" width="196" height="160" alt="Samsung GT-I9300 Galaxy S3 — Обновление ПО и ROOT-права" title="Samsung GT-I9300 Galaxy S3 — Обновление ПО и ROOT-права" class="block-row-img" loading=lazy></a></div> <div class="block-text"> <div class="title_clause"><a href="/gadzhety/proshivka-dlya-samsung-gt-i9300-galaxy-s3-samsung-gt-i9300-galaxy-s3-obnovlenie-po-i-root-prava-programma/" class="black">Samsung GT-I9300 Galaxy S3 — Обновление ПО и ROOT-права</a></div> <div class="anons">Как прошить Galaxy S3? Очень часто обладатели корейского смартфона фирмы Samsung стремятся увеличить производительность аппарата и его функциональные возможности за счет перепрошивки. Обновление программного обеспечения помогает улучшить.</div> <div class="add_info"><img src="/assets/icon-eye.png" / loading=lazy> <img style="margin-left:10px" src="/assets/icon-comment.png" / loading=lazy> </div> </div> </div> </div> <div class="block-row"> <div class="wrapper_list_clause"> <div class="clauses_img"><a href="/gadzhety/ustanovka-root-na-android-chto-takoe-rut-prava-na-android-kak-poluchit/"><img src="https://i0.wp.com/poandroidam.ru/wp-content/uploads/2017/06/root-4.jpg" width="196" height="160" alt="Что такое рут права на Андроид" title="Что такое рут права на Андроид" class="block-row-img" loading=lazy></a></div> <div class="block-text"> <div class="title_clause"><a href="/gadzhety/ustanovka-root-na-android-chto-takoe-rut-prava-na-android-kak-poluchit/" class="black">Что такое рут права на Андроид</a></div> <div class="anons">Мобильная платформа Android относится к операционным системам закрытого типа. Это означает, что в обычном режиме у пользователей отсутствует возможность вносить какие-либо изменения в ее корневой каталог. Подобные запреты несколько уменьшают функциональн.</div> <div class="add_info"><img src="/assets/icon-eye.png" / loading=lazy> <img style="margin-left:10px" src="/assets/icon-comment.png" / loading=lazy> </div> </div> </div> </div> </div></div> <div class="copyright"> <h3><span class="my"></span>winseven.ru</h3> <span class="copyright_description">Информационный сайт о Windows</span> <span class="copyright_date">&copy; 2024</span> </div> <div class="text_footer"> <p></p> </div> <div class="btn_footer"> <a href="#" class="question show_feedback">Задать вопрос эксперту</a> <a href="#" class="question_two">Связь с администрацией</a> </div> </div> </div> </div> <div id="slidebox"> <a class="close"></a> <p>Пожалуйста, поделитесь этим материалом в социальных сетях, если он оказался полезен!</p> <div class="ya-share2 socials-share1" data-services="vkontakte,odnoklassniki,facebook,twitter,moimir,viber,whatsapp" data-counter=""></div> </div> <div class="banners"> <div class="ears left"> </div> </div> <!--[if lt IE 9]><script src="//yandex.st/jquery/1.10.2/jquery.min.js"></script><![endif]--> <!--[if gte IE 9]><!--> <script type="text/javascript" src="//yandex.st/jquery/2.0.3/jquery.min.js" charset="UTF-8"><</script><!--<![endif]--> <script type="text/javascript" src="//yandex.st/jquery/form/3.14/jquery.form.min.js" charset="UTF-8"></script> <script type="text/javascript" src="//yandex.st/jquery-ui/1.10.3/jquery-ui.min.js" charset="UTF-8"></script> <script type="text/javascript" src="/assets/timepicker.js" charset="UTF-8"></script> <script type="text/javascript" src="/assets/jquery.scrollTo.min.js" charset="UTF-8"></script> <script type="text/javascript" src="/assets/jquery.maskedinput.js" charset="UTF-8"></script> <script type="text/javascript" src="/assets/jquery.touchSwipe.min.js" charset="UTF-8"></script> <script type="text/javascript" src="/assets/likely.js" charset="UTF-8"></script> <link rel="stylesheet" href="/assets/likely.css"> <script type="text/javascript" src="//yastatic.net/es5-shims/0.0.2/es5-shims.min.js" charset="utf-8"></script> <script type="text/javascript" src="//yastatic.net/share2/share.js" charset="utf-8"></script> <script type="text/javascript" async src="/assets/5134d22b3b75bb0291283e697ac69c6d.js" charset="UTF-8"></script> <script src="/assets/9b99d992f4fbee0f97df77e42e0723ed.js"></script><script type="text/javascript" src="/assets/145d719331bacf5507776f4b26bf0a69.js" charset="UTF-8"></script> <script asyncsrc="/assets/031544f5e4e9a0e2e41d9de5e2b17b75.js" type="text/javascript" charset="UTF-8"></script> <script type="text/javascript" asyncsrc="/assets/9b84f2e0d5fd7b8a684c9fc80ff7aead.js"></script> <script type="text/javascript" asyncsrc="/assets/8531aa363d4a84e9b4bdf90080e0934e.js"></script> <script type="text/javascript" asyncsrc="/assets/main.js" charset="UTF-8"></script> </body> </html>