Журнал Cети и телекоммуникации N 3(17), 2001
Сетевые интеграторы новостей
Дмитрий Ландэ,
заместитель директора
Информационного центра "ЭЛВИСТИ"
"Червоною гадюкою
Несе Альта вiстi".
Т.Г. Шевченко,
"Тарасiв сон"
Интернет как информационная сеть ставит огромное число проблем перед
пользователем. Так, даже многие эксперты считают Сеть ни чем иным как самой
большой в истории "информационной свалкой". И если бы не было навигаторов в
ресурсах Интернета, Сеть действительно была бы такой. Сегодня, когда общие
ресурсы Интернета превышают 2 млрд. файлов, разобраться с их информационным
наполнением помогают поисковые системы и развитые каталоги. Многие из них
мигрировали в направлении портализации, претендуя на роль "стартовых страниц
Интернета" для своих пользователей. Вместе с тем, большинство из существующих
навигаторов Сети обладает свойством инерционности, т.е. они не в состоянии
отслеживать и регистрировать появляющиеся в Интернете новые ресурсы в режиме
времени, близком к реальному.
Общеизвестно, что периоды индексации традиционных информационно-поисковых
систем порой превышают несколько месяцев. Т.е. значимый по величине и
наполнению, один из самых актуальных пластов информационных ресурсов, -
новостийные сообщения агентств, онлайновых и традиционных СМИ, представленных в
Интернете, - "не поднимается" традиционными поисковыми системами. Эта проблема
хорошо известна, и, как любая важная задача, в конечном итоге для своего
решения породила новый тип навигационных средств в Интернете - сетевые интеграторы
новостей.
От "поисковиков" - к "интеграторам"
Необходимость сетевой интеграции новостей несколько лет назад осознали
известные сетевые поисковые службы - Excite (http://www.excite.com/), Lycos
(http://www.lycos.com/), AltaVista (http://www.altavista.com/). На первых
этапах они заключили соглашения с крупнейшими информационными агентствами,
такими как Reuters, Associated Press, CNN и др. и стали предоставлять
возможности поиска и просмотра новостийных сообщений. Таким образом, у
пользователя впервые появилась возможность бесплатно находить и просматривать
новости реального (а не только "виртуального") мира в Сети. Старейший
навигационный портал Yahoo! также не обошел стороной идею интеграции новостей,
создав службу Daily News (http://dailynews.yahoo.com), объединив информацию
нескольких десятков информационных агентств и обеспечив графическое и
мультимедийное представление отдельных тематических областей.
Практически одновременно с освоением традиционными СМИ виртуального
пространства Интернета и с настоящей экспансией онлайновых изданий, стали
возникать службы, обеспечивающие обобщенное представление информации со
страниц сетевых СМИ на своих сайтах, а также "проталкивание" (push-технология)
информации, якобы интересующей пользователей, в рабочие области их браузеров.
Получила начальное развитие и технология "персональных информационных агентов",
обеспечивающих клиентскую часть появляющихся систем интеграции новостей.
Опять нас обогнали
Одним из первых серьезных интеграторов новостей в Сети стала служба Northern
Light Technology (http://www.nlsearch.com). Этой службой создана и постоянно
пополняется "специальная коллекция", включающая статьи из более 7 тысяч
источников - журналов, газет, агентств, реферативных журналов. Значительная
часть коллекции находится в свободном доступе и снабжена одним из самых сильных
в Интернете поисковым механизмом.
В настоящее время получила развитие еще одна тенденция - началась интеграция
интеграторов новостей. Например, та же Northern Light Technology является
клиентом одной из крупнейших служб сбора новостей - COMTEX
(http://www.comtexnews.net/), основные ресурсы которой платные и недоступны
конечному пользователю Сети (рис. 1). Вместе с тем, десятки новостийных служб,
например OneSource, Screaming Media, Vertical Net, CompuServe и др., являются
клиентами COMTEX, интегрирующей ресурсы около сотни солидных источников, среди
которых крупнейшие мировые информационные агентства: Associated Press,
ИТАР-ТАСС, Синьхуа.
Некоторые из названных выше интеграторов новостей
заслуживают особого внимания благодаря оперативности и качеству услуг. Так,
например, служба OneSource (http://www.onesource.com/), предоставляющая
деловую информацию для профессионалов, являясь одним из крупнейших
интеграторов бизнес-новостей, получает информацию более чем от 20
информационных провайдеров, которые в свою очередь собирают интересующую
OneSource информацию из 2500 источников. В результате клиентами OneSource
являются такие компании, как American Express, BankAmerica, Boeing, ORACLE и
многие другие. Система "Бизнес браузер" компании OneSource по праву считается
одной из лучших в Сети.
Еще один интегратор новостей и клиент службы COMTEX -
компания Screaming Media (http://www.screamingmedia.com/), которая
охватывает свыше 3000 источников информации (рис. 2). Ее клиенты - это свыше
500 корпораций, порталов, простых Web- и WAP-сайтов. В области обработки и
предоставления контента Screaming Media запатентовала два вида услуг -
CONTENT!CONNECT и SYNDICATION!CONNECT. Суть первой технологии заключается в
получении информации от большого числа источников, агрегировании,
нормализации, категоризации и передачи ее на Web-сайты, в корпоративные и
беспроводные сети заказчиков (рис. 3).
Вторая технология заключается в обработке информации
пользователя и автоматическом размещении ее на целевых Web-сайтах. (рис. 4).
Идея интеграции новостей породила несколько технологий,
имеющих общие корни. Типовая схема системы интеграции новостей приведена на
рис. 5.
Сбор информации, как правило, подразумевает получение сообщений от различных
источников в электронном виде или на бумажных носителях, а также
самостоятельное сканирование новостийных Web-сайтов с помощью программ-роботов
(самый распространенный вариант).
Механизм обработки контента выполняет следующие функции:
- преобразование собранной информации к выбранному внутрисистемному
формату;
- систематизацию информации;
- избирательное распределение информационных сообщений по запросам
пользователей;
- загрузку и индексацию оперативных и ретроспективных баз данных.
На последнем этапе осуществляется доставка результатов работы механизма
обработки контента конечному пользователю путем рассылки сообщений по
электронной почте, публикации на определенных страницах Web-сайтов (как
открытых, так и закрытых) и обеспечения доступа к базам данных в среде
локальных корпоративных сетей.
Именно по такой схеме работает ставшая популярной в этом году служба MoreOver
(http://www.moreover.com/), заменив существовавшую до недавнего времени на
информационно-поисковом сервере AltaVista практику обычного легального импорта
новостей от нескольких информационных агентств на технологию, позволившую
формировать крупнейшую ленту новостей от нескольких тысяч источников
(нескольких десятков тысяч сообщений в сутки). Конечно же, при этом AltaVista
обеспечивает полноценные возможности поиска в новостях и архивах, так как
обладает для этого достаточным опытом организации полнотекстового поиска.
Российский новостийный сегмент
В российском сегменте Интернета интеграцией новостей из сетевых СМИ занимаются
несколько компаний. Один из самых известных таких проектов - это сайт
"Заголовки.РУ" (http://www.zagolovki.ru), который представляет собой
своеобразную биржу информации, обеспечивая как импорт данных на свои страницы,
так и экспорт. У пользователя есть возможность настраивать дизайн и наполнение
отображаемой у него в браузере части сайта в соответствии со своими
предпочтениями, просматривать текущую информацию, искать в архиве данных.
Аналогичное назначение имеет сайт "Аккумулятор новостей"
(http://news.battery.ru). Здесь имеется возможность просмотра новостей из
различных источников по таким темам, как
экология, автомобили, наука и техника, события, происшествия, скандалы,
медицина, экономика и финансы, а также осуществлять поиск и получать
анонсы новостей по электронной почте (рис. 6).
Информационное агентство "Интегрум-Техно" (рис. 7), крупнейший в России
интегратор новостей, охватывает свыше тысячи новостийных источников. Основой
технологических решений компании "Интегрум-Техно" (http://www.integrum.ru)
является информационно-поисковая система "Артефакт", язык запросов которой
обеспечивает возможность контекстного поиска и использования тезауруса,
позволяет достаточно точно формулировать поисковые запросы к большому числу
разнородных баз данных. Этой компанией разработана также служба под названием
"Частный информ-агент", которая позволяет осуществлять поиск и доставку
материалов подписчику по заданным им ключевым словам. Служба имеет развитую
систему настроек по контексту и источникам информации. Каждый запрос
обрабатывается системой "Артефакт" от одного до трех раз в сутки. В результате
выбираются предварительно загруженные в базу данных документы, соответствующие
запросу, которые и высылаются пользователю по электронной почте.
И дома не без пророка
В Украине значительные новостийные ресурсы аккумулируются на сайте "Паук
Новостей" (http://topnews.com.ua). Здесь представлены сгруппированные по
категориям новости примерно из сотни сетевых СМИ (рис. 8). На сайте имеется
возможность поиска по заголовкам с использованием логических операторов И, ИЛИ,
а также подписки на рассылку средствами Subscribe.ru.
В Информационном центре "ЭЛВИСТИ" разработана потоковая технология Stream,
предназначенная для интеграции сетевых информационных ресурсов на основе
использования современных средств сбора, обработки, хранения данных и
организации эффективного доступа. Эта технология обеспечивает
автоматизированный сбор информации с Web-сайтов в режиме реального времени, ее
структурирование, группировку по семантическим признакам, а также эффективное
тематическое избирательное распределение информации и предоставление к ней
доступа в режимах просмотра и поиска. В настоящее время технология Stream
получила развитие в рамках проекта интернет-холдинга UAport
(http://uaport.net), в новостийном разделе которого доступна для поиска и
просмотра постоянно пополняющаяся в автоматическом режиме лента новостийной
информации (рис. 9) - свыше 20000 сообщений в сутки из более чем 300
информационных источников (украинских и зарубежных).
Как и в системе компании "Интегрум-Техно", в технологии Stream ядром механизма
обработки контента является информационно-поисковая система - в данном случае
это InfoReS-XL, которая обеспечивает обработку информации в двух основных
режимах:
- в режиме избирательного распространения информации (ИРИ);
- в режиме интерактивного доступа к полнотекстовой базе данных.
Режим ИРИ используется в двух основных процессах - при поиске и доставке по
электронной почте сохраненных запросов пользователей и при классификации
поступающей в систему информации. Режим интерактивного доступа к базе данных
предлагается пользователям Web-сайта UAport (с ограниченной возможностью
визуализации результатов поиска) и в полном объеме пользователям корпоративных
сетей, где установлены системы, построенные на основе технологии Stream.
Контент-мониторинг
Перспективным направлением систем сетевой интеграции новостей сегодня является
контент-мониторинг, который позволяет автоматически формировать обозримые
дайджесты, заменяя ими необозримые объемы электронных СМИ. Базой для
построения технологии контент-мониторинга являются механизмы выделения наиболее
важных термов - слов и словосочетаний, связанных между собой содержательно и
отвечающих тематике, которую задает пользователь. Вес термов определяется на
основе статистических методов анализа текстов с учетом эмпирических критериев,
которые уточняются в процессе работы. Один из практических результатов
контент-мониторинга, наряду с известными социологическими выводами, -
автоматическое формирование дайджестов, в лаконичной форме отражающих
содержание отобранных тематических информационных каналов.
Однако наряду с таким подходом следует учитывать потребности пользователей,
организаций, отдельных аналитиков, которые предпочитают получать и
самостоятельно обрабатывать конкретные документы в полном объеме, при этом
затрачивая минимум усилий и времени. Именно они определяют сегодня экстенсивные
приоритеты развития сетевой интеграции новостей - постоянное увеличение
количества информационных источников и улучшение качества механизмов управления
контентом.
|