Интернет-старатели
Как сориентироваться в информационном потоке, растущем в
виртуальной среде подобно снежному кому? На смену традиционному поиску по
ключевым словам идут новые сетевые службы обработки контента.
Электронные данные, накопленные в виртуальных глубинах
многопользовательскими усилиями, подобны золотоносным приискам. Как часто
извлечение знаний оттуда напоминает кропотливый и не всегда успешный труд,
пусть и не в экстремальных условиях тайги или Крайнего Севера. Зачастую
структуры, тенденции и взаимосвязи понятий не лежат на поверхности, и даже
поиск нужных данных в масштабах одного предприятия порой напоминает труд
старателей-золотодобытчиков. Сегодня, когда объем информационных
веб-ресурсов превышает 2 млрд. страниц и Сеть превратилась во всемирную
медиа-среду, пользователи проводят множество часов, посещая сотни сайтов в
погоне за новыми данными по определенной тематике. Сбор, фильтрация и
хранение информации в Сети связаны с необходимостью, во-первых, определенных
затрат времени, во-вторых, требуют достаточной квалификации персонала и, к
сожалению, не могут учитывать всех особенностей построения структуры
представленных там сведений. Это, в свою очередь, приводит к тому, что
полученные выборки не всегда являются показательными.
Ориентация в новостной информации с помощью традиционных
информационно-поисковых систем весьма затруднительна, так как периоды
индексации у таких систем доходят до полугода. Например, система AltaVista в
2001 году не обновляла ни один из региональных индексов и даже главную базу
данных в течение нескольких месяцев, за исключением тех сайтов, за
индексацию которых было заплачено. Вместе с тем часть базы данных системы
AltaVista еще совсем недавно индексировалась оперативнее, чем даже у Google.
Несмотря на то, что практически на всех известных поисковых порталах
(Yahoo!, AltaVista, Lycos, Excite и т. д.) есть новостные разделы, они
недостаточно оперативны, зависят от выбора источников, у них слабые
поисковые возможности. Нет у них и средств уведомления о появлении новой
информации.
Лидеры зарубежного мониторинга
В настоящее время оптимально решить задачи ориентации в новостном контенте
позволяют информационные сетевые службы нового типа . сетевые интеграторы
новостей, которые чаще всего используют системы мониторинга новостей в
веб-пространстве как базу для своей работы.
Технология мониторинга и последующего объединения новостей подразумевает
"обучение" программ сбора структуре выбранных источников, сканирование
информации, ее нормирование, приведение к внутрисистемному формату (в
последнее время все чаще к XML), классификацию и доставку пользователям
различными каналами (e-mail, WWW, WAP, SMS и др.).
В качестве приложений могут выступать ставшие уже традиционными
полнотекстовые информационно-поисковые системы, а также системы
контент-анализа, автоматического выявления смысла. Вот лишь некоторые из
этих систем мониторинга Интернет-новостей.
В прошлом году поисковый портал AltaVista обогатился новой возможностью
поиска новостных публикаций. Ранее пользователям было очень трудно их
обнаружить из-за того, что поисковая машина находила слишком много ссылок по
теме, не имеющих отношения к новостям. И новая технология поиска была
лицензирована у американской компании Moreover
(сервис доступен
по адресу www.moreover.com/site/products/features/index.html).
Теперь новости стали
помещаться в базу поисковика через 15 минут после их появления в Интернете.
Благодаря этой технологии AltaVista всего за несколько лет удалось получить
таких клиентов, как National Semiconductor, Wells Fargo и Ernst & Young, а
также лицензировать свою методику у партнеров в области построения порталов
Hummingbird, PeopleSoft, Microsoft Sharepoint Server и у поисковых служб
AltaVista и Inktomi. Сначала выполняется оценка информационного содержания
веб-ресурса и построение настроечных профилей, описывающих данный ресурс.
Редакторы в автоматизированном режиме оценивают ресурсы и создают профили,
соответствующие информационным потребностям клиентов. Затем веб-ресурсы
автоматически сканируются в соответствии с настроечными профилями,
происходит преобразование информации в формат XML с добавлением тегов (даты,
времени, имени и типа источника). Ищутся повторы и устраняется дублирование.
В соответствии с заданными правилами выполняется автоматическая
классификация информации и загрузка в базы данных. Служба обработки запросов
учитывает содержательную часть и требования к регламенту доставки, после
чего происходит вывод и доставка информации клиентам на их веб-сайты, в
интранет-сети, на входы различных программных приложений.
Moreover имеет свое патентованное решение - Connected Intelligence (CI) для
интеграции релевантного (соответствующего запросам) полного контента в
корпоративные сети или порталы. Передача осуществляется порциями от 3000
источников в режиме реального времени, классифицируется и разделяется по
темам, обновляется каждые 15 минут. Возможна адресная доставка информации
(CI-Watch) и режим доступа (CI-Database) к компактному обзору непрерывно
индексируемой полнотекстовой базы данных. Эти сведения могут также
интегрироваться клиентом в корпоративную сеть, на портал, сайт или
передаваться программному приложению.
Поисковый портал Northern Light
(www.northernlight.com)
известен ресурсом Special Collection - полнотекстовой базой из нескольких миллионов
документов, собранных более чем из 7000 источников. Сервис Current News
обеспечивает поиск глубиной в две недели в информационных материалах 117
источников из 62 новостных кана-лов и сетевых служб, включая AP Online, UPI
и PR Newswire, а также из большого количества международных источников в
удоб-ных для пользователей форматах. А SinglePoint. . это доступ к
нескольким источникам портала и собственному контенту клиента с помощью
единого поискового интерфейса.
Компания OneSource Information Services (www.onesource.com) известна как
крупнейший интегратор бизнес-информации для профессионалов. Она получает и
затем распространяет сведения из 25 информационных каналов, охватывающих
свыше 2500 источников. Клиенты компании . American Express, BankAmerica,
Boeing, British Telecommunications, Deloitte & Touche, Ernst & Young,
Harvard Business School, Merrill Lynch, Oracle, SAP и др.
Бизнес прежде всего
Все большую известность получает технология компании Autonomy
(www.autonomy.com)
для автоматизированного управления информационными
потоками и мониторинга в Интернете. Удачно используется распознавание
образов, байесовский подход к принятию решений и теория информации.
Обнаруживая повторяющиеся шаблоны, Autonomy коррелирует (соотносит) образы и
определяет их отличие среди большого количества документов, не применяя при
этом никаких специфичных правил (например, указания на то, что пробелы
используются для разделения слов), и вне зависимости от языка. Уникальная
технология при работе с неструктурированной информацией позволяет понять
основную концепцию документа. Она не производит поиск по словам и успешно
работает на 36 языках различной грамматической и синтаксической основы.
Несмотря на цену внедрения в несколько сотен тысяч долларов, среди
пользователей Autonomy - свыше 400 корпоративных клиентов, в том числе и
Barclays Bank, British Telecom, General Motors, Compaq, Reuters, BBC,
British Airways, Ericsson, NASA, Volkswagen, France Telecom, US Army,
Internet.com.
Пожалуй, самый яркий представитель направления B2B (бизнес для бизнеса) в
информационной сфере - компания Comtex
(www.comtex.com), основными клиентами
которой являются такие интеграторы новостей, как Northern Light Technology,
OneSource, Screaming Media, Compuserve, Vertical Net и др. Comtex уже 20 лет
специализируется на электронной обработке и достав- ке всемирных новостей и
других информационных материалов. Она объединяет ресурсы свыше 100 солидных
источников, крупнейших информ- агентств, среди которых ИТАР-ТАСС, Xinhua,
Associated Press. Через Интернет, Wall Street и рынок корпоративных
реселлеров распространяется около 20 тыс. сообщений от 10 тыс. компаний не
одной тысяче клиентов во всем мире, а те в свою очередь доносят ее миллионам
конечных юзеров.
"Пространство новостей" - это широкий спектр информации о финансовых,
вертикальных (отраслевых) рынках, макроэкономике и всемирных новостей.
"Главная страница" (Front Page) обеспечивает показ первых полос основных
газет США, глобальных новостей от ведущих ежедневных изданий. Редакторы
выбирают десять самых главных новостей из 500 источников по категориям:
общество, государство, международные отношения, финансы, бизнес и спорт.
Система обработки контента Comtex Equinox пропускает через себя поток в 20
тыс. статей ежедневно. Каждый материал дополняется метаданными и ключевыми
словами.
Службой Comtex применяется официальный формат доставки (обмена) информацией
NewsML на различные платформы или устройства: WWW, мобильные телефоны,
интерактивное телевидение. Comtex использует две основные технологии .
Virtual Private Network (VPN) и интернетовскую FTP-технологию как более
экономичную для доставки материалов через Сеть. А в первом случае после
соединения серверов Comtex и клиента формируется защищенный виртуальный
туннель для безопасной передачи данных.
Российские аналоги
Крупнейшее в России интегрированное агентство "Интегрум"
(www.integrum.ru)
обеспечивает сбор в единый массив электронных версий коммерческих,
статистических и новостных информационных продуктов. Контент-механизмом
службы является авторская разработка агентства . лингвистическая поисковая
система "Артефакт", основанная на сложных морфологичесих алгоритмах. В 2700
базах данных службы сагрегировано 75 млн. документов, ежесуточно
пополняющихся на 10 тыс. единиц. Сервис "Частный информационный агент"
осуществляет поиск и доставку материалов подписчику по заданным им ключевым
словам. Каждый запрос обрабатывается от одного до трех раз в сутки.
Integrum-Teletype позволяет просматривать новостные ленты 28 российских и
зарубежных информагентств в режиме реального времени, а "Персональная
газета" - вести круглосуточный мониторинг по любой проблематике.
"Яндекс" открыл проект "Яндекс.Новости"
(news.yandex.ru),
к которому уже
присоединились свыше 50 Интернет-изданий. На нем появляются заголовки
материалов со ссылкой на сервер партнера в базе поиска новостей, а те в свою
очередь размещают на своем сервере рекламу "Яндекса". Пользователь может
задать детализированный запрос, выбрав категорию новостей и информационных
источников, временной период или новости, наиболее близкие по смыслу.
Возможна и свободная тематическая рассылка новостей по любому из
предлагаемых системой вариантов.
Система WebScan
(webscan.ru)
проводит мониторинг ряда
общественно-политических и ИТ-порталов, мебельного рынка. Ежесуточно
сканируются и анализируются свыше миллиона документов, в том числе десятки
тысяч новостных сообщений. Входные информационные фильтры устраняют в
отчетах устаревшие сведения и неинформативные данные. Предлагается и
ежемесячный анализ информационной активности вашей компании в Сети: по
количеству упоминаний и эмоциональной направленности, охвату сетевых
ресурсов, аудитории. На основе контекста упоминаний проводится диагностика
имиджа компании и сравнительный анализ с ближайшими конкурентами.
Новостная артель по-украински
"Паук Новостей" (topnews.com.ua)
- специализированный ресурс по сбору лент
новостей в украинской части Сети. Они обновляются динамически в режиме
реального времени. На сайте можно просмотреть информацию по тематикам и
собственным настройкам пользователя на его информационные потребности. При
этом поиску информации не уделено должного внимания, по-видимому, этот режим
считается вспомогательным.
Владелец сайта может наполнить его новостной лентой любого объема с "Паука
новостей", обратившись по указанному адресу. В настоящее время по мере
поступления новостей предоставляются пакеты доставки по e-mail и с
занесением их в локальную базу данных, по протоколу HTTP посредством
межсетевого взаимодействия или путем непосредственного доступа к базе данных
проекта.
Технология мониторинга открытых Интернет-источников крупнейшей украинской
поисковой системы "Мета" (meta-ukraine.com)
позволяет осуществлять поиск на
трех языках, получать информацию с заданного списка веб-серверов, компактно
упаковывать ее для хранения на диске. Пользователь, помимо
санкционированного доступа к серверу для поиска информации в режиме он-лайн,
может задать набор ключевых слов по интересующей его теме, и новые документы
из базы будут автоматически отсылаться ему по e-mail. Как сообщил
председатель правления ЗАО "Мета" Юрий Назаров, создана и корпоративная
поисковая система "Мета". Это набор готовых программных компонентов
(транспортная, индексирующая системы, лингвистические модули, поддержки
форматов документов, сбора статистики и др.), которые в зависимости от
потребностей компании-заказчика объединяются в целостный комплекс. При
проектировании такой поисковой системы речь идет не только о возможности
поиска по ресурсам локальной сети, но и о создании единого
структурированного массива информации фирмы с многоуровневым разграничением
доступа к документам. Система обеспечивает полную конфиденциальность
внутренней информации, формирует резервные копии и уведомляет о появлении
интересующего документа в локальной среде путем e-mail или SMS. Она не
требует больших аппаратных вложений и ежесуточно индексирует свыше миллиона
документов, тратя на обработку запроса не более одной секунды в
многопоточном режиме.
Разработка InfoStream
(uaport.net/service/stream.shtml)
информационного центра ElVisti стала инструментальной базой Интернет-холдинга UAport,
основная концепция которой выражена в девизе "Объединяя лучшее, найти
главное". Ядром системы обработки контента является полнотекстовая
информационно-поисковая система InfoReS-XL, обеспечивающая обработку
информации в трех основных режимах: избирательного распространения,
интерактивного доступа к полнотекстовым базам данных,
контент-мониторинга. Если пользователь хочет получать новостную
информацию по интересующей тематике (она определяется на языке запросов
с помощью ключевых слов, логических операторов, скобок и задания
контекстной близости) по e-mail, SMS или встроить постоянную подборку в
свою веб-страницу, то к его услугам сервис Stream-client. После того как
запрос отработан, форматы представления информации выбраны и вы решили,
что условия сервиса вам подходят, свяжитесь со службой поддержки
абонентов и закажите услугу. Создатели предусмотрели для новичков
тестовый период эксплуатации сервиса. Недавно открыт новый подраздел
"Взаимосвязь тем", в котором ежечасно обновляется таблица, отражающая
связь новостных тем между собой в потоке информации из трех сотен
источников.
WAP-портал холдинга
UAport (wap.uaport.net)
через Stream-шлюз обеспечивает
просмотр на экране мобильного телефона новостей с десятков веб-сайтов. Они
сгруппированы по тематикам, странам, источникам. Это еще один из возможных
вариантов доставки информации.
А решение Stream-corporate служит для интерактивного доступа к базам данных
текущей и ретроспективной информации в рамках корпоративной сети. Для этого
создан информационный кэш ElVisti, который формируется из собранной и
приведенной к единому внутрисистемному формату информации. После установки
системы доступа к этому хранилищу в автоматическом режиме практически не
требуется усилий на ее администрирование, чем достигается существенная . в
десятки раз . экономия Интернет-трафика. Это решение в ряде случаев
становится незаменимым инструментом в работе аналитических служб,
коммерческих структур и подразделений государственных органов.
Какой бы из ныне существующих автоматизированных способов обработки
информационной лавины вы ни избрали, сегодня это верный способ оказаться
впереди конкурентов.
Дмитрий Ландэ,
заместитель директора Информационного центра "ЭЛВИСТИ"