Станислав Шашалевич
03 февраля 2014
Модуль «Парсер контента» с версии 4.0.0. "научился" парсить каталоги, что значительно расширяет его функциональность. Но и настройка самого парсера в режиме каталога стала на первый взгляд сложнее. Но это лишь на первый взгляд. Данная инструкция разрушит все ваши сложности и возникшие вопросы. И так. Поехали!
Внимание!!! Чтобы работа с парсером была легкой и простой, необходимо знать азы верстки и css, а именно селектора: классы, идентификаторы, атрибуты. Так же будут полезны базовые знания работы с JQuery, например: .image img:eq(0). Без этих базовых знаний нет смысла читать далее! Если вы еще не знаете таких понятий, то с ними можно легко ознакомиться по ссылке:
Парсер в режиме каталога состоит из 13 вкладок при установленном модуле Торговый Каталог, в ином случае - из 11, т.к. вкладка Торговый каталог и Торговые предложения отсутствуют.
Теперь рассмотрим каждую вкладку подробнее.
Основная и вкладка по-умолчанию - Парсер:
Тип парсера – соответственно и есть тип парсера. На данный момент это rss, page, catalog. Нас же интересует catalog.
Внимание! Если не использовать вкладку Торговый каталог, то парсер будет просто работать в расширенном режиме парсинга без создания товаров. Удобно для парсинга сложных новостных страниц или статей.
Режим парсера – режим, в котором работает парсер. Существует два режима работы: debug и work. По умолчанию для отладки используется debug режим. Именно в этом режиме необходимо настраивать парсер. В дебаг режиме парсится три страницы и по три товара с каждой страницы. В рабочий режим work парсер необходимо переводить, если он полностью настроен и отлажен.
Стоит отметить, что, если вы используете модуль «Парсер контента» в триал версии, то парсер работает только в дебаг режиме.
URL раздела каталога – страница, содержащая непосредственно товары.
Дополнительные урлы разделов - вы можете также включить в выгрузку и другие урлы. Для этого просто укажите их с новой строки.
ID инфоблока-каталога – инфоблок, в который будет осуществляться загрузка товаров.
ID раздела – раздел инфоблока, в который будет осуществляться загрузка товаров.
Количество товаров, выгружаемых за один шаг парсера – количество товаров, который парсер обрабатывает за один шаг.
Шаг парсера – понятие, которое имеет место при ручном режиме запуска парсера. В этом случае каждый шаг происходит отключение и новое подключение к каналу выгрузки. Варьируйте это значение в зависимости от возможностей вашего хостинга. Если парсер работает от агента(крон), то шаг парсера игнорируется и выгрузка осуществляется одним запросом.
Активен, Сортировка, Название, Время последнего запуска – интуитивно понятные поля и в комментариях не нуждаются.
Кодировка - кодировка сайт донора. Устаревшее поле. На данный момент кодировка определяется автоматически, но, если возникают какие-то проблемы с кодировкой, то рекомендуется указать в ручную.
Вкладка Постраничная навигация:
Селектор навигации – селектор контейнера навигации.
Селектор пункта навигации – селектор пункта навигации, содержащий ссылки на страницы. Как правило это элемент ссылки a. Указывается относительно предыдущего параметра.
Удалить элементы навигации – список элементов, которые необходимо удалить из навигации. Например, иногда нужно удалить лишние элементы из навигации, такие как След, Предыд, Показать все и подобное. Указывается относительно селектора навигации.
На картинке ниже подробная схема селекторов Пагинации.
Стоить отметить, что если Селектор навигации не указан, то парсинг осуществляется только по одной странице.
Вкладка превью:
Селектор товара на странице каталога – селектор контейнера товара на странице списка товаров.
Селектор ссылки товара – как правило, обычная ссылка a, содержащая атрибут href. Если пусто, то используется a:eq(0), то есть первая ссылка. Указывается относительно предыдущего параметра.
Селектор названия товара – селектор, в котором содержится название товара. Если пустое, то равно предыдущему параметру.
Селектор превью описания – селектор, в котором содержится превью описание товара.
Селектор цены – селектор, в котором содержится цена товара.
Удалять элементы – элементы, которые необходимо удалить из описания. Указываются относительно селектора товара на странице каталога.
Удалять атрибуты элементов – атрибуты элементов, которые необходимо удалить. Пример написания: a[href], a[rel].
Селектор-атрибут превью картинки – указывается селектор и атрибут превью картинки. Пример: img[src], a[href]
Вкладка Детально:
Поля аналогичны полям во вкладке Детально. Поэтому подробно рассматривать не будем.
Вкладка Свойства:
Свойство доп. картинок – если есть доп. картинки, то необходимо указать поля, в которые будет осуществляться выгрузка картинок.
Селектор-атрибут перечисления доп. картинок – указывается селектор и атрибут доп. картинок. Пример .images img[src]. Указывается относительно селектора товара на детальной странице.
Парсинг свойств по селектору из деталки – производится парсинг свойств по конкретному селектору на детальной странице товара. Поле используется, если свойства имеют свои селектора.
Удалять символы – удаляются символы из свойств, описанных выше. Как правило, это двоеточия, запятые, многоточия и подобное.
Парсинг свойств по названию из деталки – требует более детального описания. Парсинг свойств в этом случае осуществляется по селектору списка свойств и по названию свойства из детальной страницы товара.
Селектор перечисления свойств – общий селектор свойств в списке.
Удалять символы – удалять лишние символы, такие как: запятые, двоеточия, многоточия и подобное.
Еще необходимо указать названия свойств. Именно по этому названию и общему селектору будет производиться парсинг свойств.
Парсинг свойств по селектору из превью - поле аналогичное для деталки, но только селектора указываются относительно селектора товара в списке товаров.
Парсинг свойств по названию из превью – поле аналогичное для деталки, но только селектора указываются относительно селектора товара в списке товаров.
Хочу обратить внимание, что на данный момент возможен парсинг свойств только типов: строка, число, список, привязка к элементам, справочник, html, файлы. Множественность не поддерживается.
Также, возможно создать новое свойство прямо из интерфейса парсера. Для этого необходимо в селекте выбрать значение [Создать] и нажать кнопку добавить.
Вкладка Торговый каталог(если установлен модуль Торговый каталог):
Тип цены, Ставка НДС, Включать НДС в цену, Валюта, Единица измерения, коэффициент единицы измерения – эти поля интуитивно понятны и не требует дополнительного разъяснения.
Работа с ценами – предоставляется возможность работы с ценами: конвертация, округление цены, формат цены, изменение цены.
Конвертировать в валюту – в какую валюту необходимо конвертировать цену.
Округление цены - три режима округления цены: округлять с указанной точностью(можно указать точно округления после запятой), округлять до целого в большую сторону, округлять до целого в меньшую сторону.
Формат цены - если цена имеет сложные разделители, например 5.990,00 . В этом случае вы должны указать символы разделителей. В большинстве случаев можно оставить пустым.
Изменить цену – возможные значения: Не изменять, Увеличить, уменьшить.
Условие изменения цены – обозначается условие, при выполнении которого будет изменена цена. Словесный пример: Увеличить цену, если цена выше 600. 600 – цена в исходной валюте.
Тип изменения – возможные варианты: Проценты и Абсолютная величина. То есть изменения цены будет в процентном соотношении или в абсолютной величине.
Величина изменения – величина изменения цены. Указывается в зависимости от предыдущего поля.
Парсинг размеров по селектору – логика аналогична логике парсинга свойств из вкладки Свойства.
Парсинг размеров по названию – логика аналогична парсингу свойств из вкладки Свойства.
Вкладка Торговые предложения(если установлен модуль Торговый каталог):
Выгружать офферы - выбор типа выгружаемых торговых предложений. На данный момент поддерживается два вида: Табличный вид и Офферы с одиночными характеристиками.
Офферы табличного вида
Параметр уникализации – важный параметр, определяющий по каким параметрам будет происходить уникализация офферов.
Особенности:
1. Указанные свойства добавляются в название оффера.
2. Если название оффера отсутствует, то название полностью будет состоять из значений указанных свойств.
3. По данному параметру происходит уникализации офферов.
4. Если ничего не указано, то уникальность будет определяться по названию оффера.
Главный селектор контейнера торговых предложений – селектор контейнера офферов относительно селектора детальной страницы. Например: table.
Селектор блока шапки таблицы – селектор шапки таблицы относительно предыдущего параметра. Это поле требуется, если поиск параметров идет по названию. Например: thead tr
Селектор наименования параметра в шапке таблицы – селектор конкретного наименования параметра относительно предыдущего параметра. Это поле требуется, если поиск параметров идет по названию. Например: th
Селектор отдельного оффера – селектор блок торгового предложения относительно главного селектора офферов. Например: tbody tr
Селектор значения параметра в теле таблицы