How it works

How it works

Дайджест от сервиса NewsHub – это набор статей собранных от многих сайтов-источников (более 1500 сайтов) ранжированный в соответствии с популярностью среди тематических сайтов-источников.

Похожие статьи отмечены тремя звездочками рейтинга похожести. Значение рейтинга в скобках показывает – как много статей очень похожи и не были включены в дайджест.

Значение рейтинга – это число с плавающей точкой. Целая его составляющая – это число похожих статей с уникальным доменным именем сайта-источника где статьи были опубликованы. Дробная часть – это сумма числа похожих статей с неуникальным доменным именем сайта-источника и числом похожих статей у похожих статей (второй уровень или дочерняя похожесть).

Статьи в дайджесте сортированы в соответствии со значением рейтинга похожести и далее по дате публикации или дате обработки.

Дайджесты публикуются с различной периодичностью по расписанию и отражают последовательность публикации статей во времени в соответствии с рейтингом и темой.

Типы дайджестов

Дайджесты со статьями собранными в соответствии с т.н. проектами – являются сущностями сервиса TR(c). Каждый проект настроен чтобы кравлить от одного до нескольких сотен сайтов-источников, для того чтобы собрать статьи в тематические группы в соответствии с основным тематическим смыслом. Тематические смыслы:

  • Mix– смесь мировых новостей, в основном политических и обще-социальных.
  • IT– новости Информационных Технологий.

Публикуемые дайджесты географически оптимизированы для:

  • Japan– источников из Японии.
  • United States– источников из США.
  • Ukraine– источников из Украины.
  • Deutschland– источников из Германии.

Географически оптимизированные списки источников ориентированы в основном на локальный региональный контент страны или географического региона, что проявляется в освещаемых событиях, позиции, ментальности и других характеристиках контекста статей.
Дайджесты публикуются в различной форме:

  • desktop– оптимизированные для просмотра при помощи настольного ПК с размером страницы А4, удобным шрифтом, ориентацией страницы. Также, включает содержание анонсы, и непосредственно статьи.
  • mobile – оптимизированные для просмотра при помощи мобильных устройств с меньшим чем у настольных ПК размером экрана. Они имеют размер страницы А7 и не имеют содержания и анонсов.

Дайджесты издаются в различных форматах:

  • pdf – одиночные или множественные документы которые могут быть загружены с использованием ссылок из почтового или другого оповещающего сообщения. Включают содержание, анонсы и тексты статей.
  • top 3 posts– анонс из трех самых популярных статей присылаемые в сообщении оповещения о выходе нового дайджеста. Анонс может включать заголовок, краткое описание, дату публикации, автора, размер, рейтинг но не включает текст статьи. Если подписка сделана для “pdf” и “top 3 posts” – оповещающее сообщение будет содержать как анонсы, так и ссылки для загрузки дайджестов в формате pdf.

Дайджесты издаются на различных языках:

  • in english– статьи на Английском.
  • in ukraine– статьи на Украинском.
  • in russian– статьи на Русском.
  • in japan– статьи на Японском.
  • in german– статьи на Немецком.

Дайджесты издаются периодически и содержат статьи собранные за определенный период времени. По умолчанию, если не присутствует дополнительный суффикс в названии подписки или файла документа pdf – дайджест включает статьи за последние шесть часов сортированные в соответствии с их рейтингом популярности и датой публикации (если таковая была детектирована или датой получения статьи от сайта-источника). Такие дайджесты содержат статьи уникальные в течении недели:

  • top 100– лучшие сто статей за последние шесть часов сортированные в соответствии с популярностью и датой публикации уникальные в течении недели.
  • full– все статьи за последние десять часов, не уникальные.

Также, подписка может быть осуществлена для дайджестов публикуемых различными инсталляциями сервиса распределенного кравления DC:

  • dc3– Distributed Crawler инсталляция #3, полнофункциональные публикации.
  • TEST dc2– Distributed Crawler инсталляция #2, тестовые публикации с минимальным кол-вом статей, настроенная аналогично dc3, использующие последнюю версию системы.
  • TEST dc5– Distributed Crawler инсталляция #5, тестовые полнофункциональные публикации, настроенная аналогично dc3, но использующие последнюю версию системы.

В настоящее время подписка может быть осуществлена для всех перечисленных тем, стран, языков, форм и инсталляций. Имя подписки включает ключевые слова которые идентифицируют множества статей как уникальные коллекции, формат документов, и другие свойства описанные выше, например:
dc3 United States IT in english pdf – означает подписку получения оповещения о выпуске нового дайджеста для: “desktop”, “desktop top 100”, “desktop full”, “desktop top 100 full”, “mobile”, “mobile top 100”, “mobile top 100 full”, “mobile full” в формате pdf. Также, и то, что подписка может быть осуществлена для “top 3 posts” и “top 3 posts full” для получения анонсов которые будут включены в сообщение оповещения или добавлены в Ваш WP если интерфейс XMLRPC был настроен для профиля пользователя.
Навигация по дайджестам:
Дайджесты поддерживают внутренние перекрестные ссылки в pdf документе. Большинство программ просмотра и чтения pdf позволяют следовать им:

  • Заголовок статьи в анонсе ссылается на полный текст в разделе полных текстов статей.
  • Заголовок статьи в разделе полных текстов статей ссылается на следующую статью.
  • Номер статьи в заголовке статьи в разделе полных текстов статей ссылается на заголовок статьи в анонсах.
  • Автор и доменное имя сайта источника – ссылаются на оригинальную статью на сайт источника.
  • Доменные имена непосредственно после тела статьи, если у нее есть похожие статьи – ссылаются на похожие оригинальные статьи на сайтах-источниках, которые не вошли в дайджест.