Вiсник державно╖ Служби Укра╖ни, N 2'2002
Мон╕торинг д╕яльност╕ орган╕в виконавчо╖ влади ╕з застосуванням
комп'ютерно╖ системи контент-анал╕зу електронних ЗМ╤
Г. Лел╕ков,
канд. юрид. наук, доцент,
Начальник Головного управл╕ння
державно╖ служби Укра╖ни,
заслужений юрист Укра╖ни,
В. Сороко,
канд. техн. наук, доцент,
начальник науково-анал╕тичного управл╕ння
Головного управл╕ння державно╖ служби Укра╖ни,
О. Григор'╓в,
директор ╤нформац╕йного центру
"Електронн╕ в╕ст╕",
Д. Ланде,
канд. техн. наук,
заступник директора ╤нформац╕йного
центру "Електронн╕ в╕ст╕"
|
Прийняття р╕шень з управл╕ння будь-якою системою, ╕ особливо такою, як система
державно╖ служби кра╖ни, ма╓ спиратися на ╕нформац╕ю, яка да╓ комплексне уявлення
про поточний стан системи ╕ ╖╖ реакц╕ю на зовн╕шн╕ збудники та орган╕зац╕йно-структурн╕
перетворення.
Для анал╕зу ╕ оц╕нки стану складових системи державно╖ служби, перел╕к ╕ зм╕ст яких
наведено в [1], застосовуються дан╕ статистично╖ зв╕тност╕ щодо корпусу державних
службовц╕в (форма N 9-ДС), одномоментн╕ зр╕зи, передбачен╕ певними нормативно-прововими
╕ орган╕зац╕йно-розпорядчими документами щодо кадрового резерву, потреб у п╕дготовц╕
╕ п╕двищенн╕ квал╕ф╕кац╕╖ державних службовц╕в тощо.
Заходами щодо анал╕зу стану роботи з кадровим ресурсом державного управл╕ння ╓:
планов╕ перев╕рки в╕дпов╕дно╖ сфери д╕яльност╕ орган╕в виконавчо╖ влади;
комп'ютерний обл╕к персональних даних про ос╕б, що займають посади I-III категор╕й
державних службовц╕в; опитування консультативно-навчальн╕ сем╕нари ╕з контингентом
слухач╕в ╤нституту п╕двищення квал╕ф╕кац╕╖ кер╕вних кадр╕в Укра╖нсько╖ Академ╕╖
державного управл╕ння при Президентов╕ Укра╖ни.
Значною м╕рою вивчення роботи орган╕в виконавчо╖ влади в сфер╕ державно╖ служби
пов'язане з удосконаленням нормативно-правово╖ бази державно╖ служби, передбаченим
положенням положеннями Стратег╕╖ реформування системи державно╖ служби в Укра╖н╕,
затверджено╖ Указом Президента Укра╖ни в╕д 14 кв╕тня 2000 року N 599.
Ус╕ ц╕ заходи складають основу для орган╕зац╕╖ ╕ забезпечення процесу управл╕ння
державною службою.
Зрозум╕ло, що атрибути проходження державно╖ служби як конкретною особою, так ╕ окремим
апаратом органу виконавчо╖ влади певним чином пов'язан╕ з як╕стю функц╕онування системи
державного управл╕ння, ╖╖ результативн╕стю ╕, зрештою, з ефективн╕стю д╕яльност╕ органу
в ц╕лому.
Розд╕лом "Оптим╕зац╕я управл╕ння державною службою" зазначено╖ вище Стратег╕╖ передбачено,
зокрема, зм╕нити протягом 2000-2004 рок╕в характер д╕яльност╕ кадрових служб орган╕в
виконавчо╖ влади, зосередивши ╖х увагу на анал╕тичн╕й ╕ орган╕зац╕йн╕й робот╕
з кадрового менеджменту, анал╕з╕ ефективност╕ в╕дпов╕дного органу, його структурних
п╕дрозд╕л╕в, профес╕йн╕й д╕яльност╕ кожного державного службовця, прогнозуванн╕ розвитку
персоналу, плануванн╕ кар'╓ри державних службовц╕в, забезпеченн╕ ╖х навчання та
мон╕торингу ефективност╕ роботи.
Таким чином, серед напрям╕в удосконалення кадрово╖ роботи ми бачимо пряме посилання
на необх╕дн╕сть запровадження потужного сучасного ╕нструменту для отримання "зворотного
зв'язку" - мон╕торингу д╕яльност╕ як апарату органу в ц╕лому, так ╕ його окремих прац╕вник╕в.
Необх╕дн╕сть запровадження нових механ╕зм╕в досл╕дження в сфер╕ державно╖ служби
викликала потребу у створенн╕ в╕дпов╕дних механ╕зм╕в: методики ╕ засоб╕в мон╕торингу
д╕яльност╕ орган╕в виконавчо╖ влади. Побудову зазначених механ╕зм╕в було передбачено заходами
щодо реал╕зац╕╖ стратег╕╖ реформування системи державно╖ служби в Укра╖н╕ на 2000-2001
роки, затвердженими Указом Президента Укра╖ни в╕д 26 липня 2000 року N 925.
Досл╕дження ╕ в╕дпов╕дн╕ розробки було виконано в межах програми удосконалення
╓дино╖ державно╖ комп'ютерно╖ системи "Кадри" та розд╕лу "╤нформатизац╕я стратег╕чних
напрям╕в державност╕, безпеки та оборони" Нац╕онально╖ програми ╕нформатизац╕╖.
Розглядаючи можлив╕ напрями досл╕дження у сфер╕ мон╕торингу д╕яльност╕, було запропоновано
виходити з таких масив╕в даних, як╕ або ╕снують, або можуть бути отриман╕ в межах
чинного правового поля та перспективних план╕в його розвитку. З урахуванням встановленого
обмеження розглянуто ╕ реал╕зовано п╕дходи до анал╕зу д╕яльност╕ орган╕в виконавчо╖
влади на основ╕ даних: статистично╖ зв╕тност╕, яка вже впроваджена; функц╕онального
досл╕дження д╕яльност╕ органу з урахуванням досв╕ду роботи, проведено╖ органами державно╖
влади на виконання Указ╕в Президента Укра╖ни в╕д 11 лютого 2000 року N 208 "Про п╕двищення
ефективност╕ системи державно╖ служби" та в╕д 29 травня 2001 року N 345 "Про чергов╕
заходи щодо дальшого зд╕йснення адм╕н╕стративно╖ реформи в Укра╖н╕"; щодо проблемних
питань, як╕ висв╕тлюються в документах, листах, зверненнях, що надходять до Головдержслужби
Укра╖ни; матер╕ал╕в засоб╕в масово╖ ╕нформац╕╖ (ЗМ╤) з питань д╕яльност╕ орган╕в
виконавчо╖ влади.
Цю статтю присвячено розгляду особливостей орган╕зац╕╖ мон╕торингу д╕яльност╕ орган╕в
виконавчо╖ влади, ╕нформац╕ю про як╕ подано в електронних ЗМ╤, а саме в
╤нтернет-простор╕.
╤нтернет сьогодн╕ - це мед╕асередовище, в якому ╕снують електронн╕ клони
звичайних ЗМ╤ (газет, журнал╕в тощо) ╕, що найголовн╕ше, утворено ╕нтернет-ЗМ╤
(е-media), зовн╕шньо оформлен╕ як ╕нформац╕йн╕ стор╕нки - сайти. На деяких
сайтах ╕нформац╕я оновлю╓ться безперервно. У цьому розум╕нн╕ контент-мон╕торинг
(в╕д англ. content - зм╕ст) сайта означа╓ анал╕з цого наповнення.
Сьогодн╕ контент-мон╕торинг ╕нтернет-ЗМ╤ можна виконати т╕льки з урахуванням
певних обмежень, адже к╕льк╕сть новинних пов╕домлень, що публ╕куються в мереж╕
╤нтернет в усьому св╕т╕, перевищу╓ 1 000 000 на добу. Найб╕льш╕ мережн╕
╕нтегратори новин обробляють щодоби десятки тисяч пов╕домлень. Ситуац╕я р╕зкого зб╕льшення
темп╕в виробництва ╕нформац╕╖ обумовила виникнення низки таких проблем, як:
- непропорц╕йний р╕ст ╕нформац╕йного шуму через слабку структурован╕сть
╕нформац╕╖;
- багаторазове дублювання ╕нформац╕╖, тобто публ╕кац╕я одного й того ж
пов╕домлення в р╕зних мед╕йних виданнях;
- поява несанкц╕онованих (паразитних) "додатк╕в", наприклад, реклами.
Анал╕з ╕ узагальнення великих динам╕чних ╕нформац╕йних масив╕в, що
безупинно генеруються у мереж╕, вимага╓ як╕сно нових п╕дход╕в.
Виникла необх╕дн╕сть створення метод╕в мон╕торингу ╕нформац╕йних
ресурс╕в, т╕сно пов'язаних з методолог╕╓ю контент-анал╕зу. Контент-мон╕торинг,
у нашому розум╕нн╕,
це зм╕стовний анал╕з ╕нформац╕йних поток╕в з метою одержання необх╕дних
як╕сних ╕ к╕льк╕сних зр╕з╕в, що, на в╕дм╕ну в╕д контент-анал╕зу, зд╕йсню╓ться
пост╕йно у час╕.
До теоретичних ╕ методолог╕чних передумов систем контент-мон╕торингу можна
в╕днести появу ╕ розвиток: теоретичних основ контент-анал╕зу,
теор╕╖ "розкопок тексту" (Data Mining); метод╕в математично╖ л╕нгв╕стики;
теор╕╖ кластерного анал╕зу.
Розроблена верс╕я системи контент-мон╕торингу вир╕шу╓ задач╕
формування тематичних
╕нформац╕йних канал╕в, дайджест╕в, таблиць вза╓мозв'язк╕в понять (як╕
виявлен╕ у спор╕днених публ╕кац╕ях) ╕ г╕стограм розпод╕лу "вагових"
значень окремих понять.
Розроблено основн╕ компоненти технолог╕╖, що забезпечують:
- автоматичне сканування доступних ╕нформац╕йних ресурс╕в мереж╕ ╤нтернет
╕ корпоративних ╕нтранет-мереж;
- нормал╕зац╕ю ╕нформац╕╖, приведення ╖╖ до ╓диного формату та автоматичну
класиф╕кац╕ю, побудову тематичних ╕нформац╕йних канал╕в;
- автоматичне створення оперативних ╕ ретроспективних баз даних та доступ
до них у д╕алоговому режим╕;
- автоматичну побудову дайджест╕в, що в╕дображують найб╕льш вагом╕ (у
статистичному розум╕нн╕) под╕╖;
- побудову таблиць вза╓мозв'язк╕в ╕ г╕стограм розпод╕лу "вагових" значень
понять, обумовлених складними лог╕чними виразами мови запит╕в.
Ця система контент-мон╕торингу базу╓ться на статистичних методах
контент-анал╕зу, що останн╕м часом одержали розвиток в усьому св╕т╕.
Так, можна в╕дзначити досить ц╕кав╕ рос╕йськ╕ проекти
"Ключ╕ в╕д тексту" М. Г. Крейнеса, "Зброя анал╕тика" компан╕╖ "╤нвента", проект
"ВААЛ" та ╕нш╕.
У розробленому проект╕ системи контент-мон╕торингу, який реал╕зовано
╤нформац╕йним центром "Електронн╕ в╕ст╕", побудова таблиць
вза╓мозв'язк╕в ╕ г╕стограм розпод╕лу "вагових" значень понять базу╓ться
на мовних засобах ╕нформац╕йно-пошуково╖ системи (╤ПС), а також
методах статистики ╕ кластерного анал╕зу. Мова визначення семантично╖
наповненост╕ понять буду╓ться на основ╕ мови запит╕в ╤ПС. Запит для визначення
семантики поняття склада╓ться з двох частин - зм╕стовно╖ частини (наприклад,
ключових сл╕в ╕ словосполучень, що ╕дентиф╕куються як сфера д╕яльност╕ певного
органу влади)
╕ як╕сно╖ ознаки (наприклад, "ставлення", "враження", "кл╕мат", "вплив" тощо).
При цьому характеристика як╕сно╖ ознаки ("вдало", "в╕дм╕нно", "недостатньо" тощо)
контекстуально пов'язу╓ться мовою ╕з певною як╕сною ознакою (вар╕ант прив'язки подано
в таблиц╕).
ТАБЛИЦЯ ПРИВ'ЯЗКИ ОЗНАК Д╤ЯЛЬНОСТ╤ ДО ╥Х ПОЗИТИВНИХ ХАРАКТЕРИСТИК
╤стотним при
визначенн╕ семантики поняття ╓ контекстуальна близьк╕сть у документ╕ зм╕стовно╖
частини ╕ як╕сно╖ ознаки. Як показу╓ практика, це р╕шення в б╕льшост╕ випадк╕в
╓ досить ефективним.
Очевидно, що для визначення семантики понять не п╕дходить по╓днання двох частин
запиту звичайним оператором "╤" (AND), що забезпечу╓ пошук у межах документа.
Необх╕дною умовою релевантност╕ результату ╓ використання вар╕анта оператора
кон'юнкц╕╖, що забезпечу╓ пошук у межах одного абзацу або одного речення.
Для реал╕зац╕╖ цих можливостей документ вх╕дного потоку розбива╓ться на фрагменти
(абзаци або речення), що пот╕м сам╕ розглядаються як окрем╕ документи ╕
класиф╕куються засобами ╤ПС. П╕сля
завершення процесу автоматично╖ класиф╕кац╕╖ з фрагмент╕в знову складаються
документи, яким приписуються згрупован╕ класиф╕кац╕йн╕ ознаки.
Таблиця вза╓мозв'язк╕в понять, яка буду╓ться як статистичний зв╕т, що в╕дбива╓
близьк╕сть (сп╕льну присутн╕сть у публ╕кац╕ях) окремих понять реального
св╕ту, - це симетрична матриця A={aij}, де aij - коеф╕ц╕╓нти вза╓мозв'язку пари
понять i та j. Коеф╕ц╕╓нт aii в╕дпов╕да╓ к╕лькост╕ документ╕в вх╕дного
╕нформац╕йного потоку, що включають поняття (чи терм╕ни словосполучення,
представлен╕ мовою запит╕в, що в╕дпов╕дають поняттю) i, а коеф╕ц╕╓нт aij -
к╕лькост╕ документ╕в у вх╕дному потоц╕, що водночас в╕дпов╕дають поняттям i та
j.
При цьому для перекомпоновки понять з метою виявлення блок╕в - множин
найб╕льш вза╓мозалежних понять - застосову╓ться алгоритм кластерного анал╕зу.
Наприклад, для вид╕лення двох таких блок╕в необх╕дно вид╕лити два
поняття-полюси (наприклад, як╕ в╕дпов╕дають ╕ндексам k ╕ l), найб╕льш т╕сно
пов'язаних з ╕ншими поняттями, але найменш пов'язаних м╕ж собою.
Формально ц╕ умови можна записати у такий спос╕б:
S aik - akk --> max
S ail - all --> max
akl --> min, k =\= l
╤нш╕ поняття (наприклад, поняття ╕) в╕дносяться до блоку k, якщо
aik > ail.
╤накше, поняття ╕ буде в╕днесено до блоку l.
Для в╕дображення таблиц╕ вза╓мозв'язк╕в понять окрем╕ елементи
матриц╕ А подаються р╕зними в╕дт╕нками с╕рого кольору (залежно в╕д
значень коеф╕ц╕╓нт╕в вза╓мозв'язку aij), як це наведено на рис.1.
Рис.1. Д╕аграма вза╓мозв'язку понять (полюс: д╕яльн╕сть)
Оброблено 123 статт╕
На рис.2 подано г╕стограму розпод╕лу понять, отриману на основ╕ анал╕зу
характеристик д╕яльност╕ органу.
Ще одна базова процедура системи контент-мон╕торингу - це автоматичне
формування дайджест╕в. Для дайджесту в╕дбираються документи, у яких найб╕льш
явно в╕дбит╕ тенденц╕╖ усього вх╕дного потоку. Отже, так╕ дайджести повинн╕
найб╕льшою м╕рою в╕дпов╕дати ╕нформац╕йним потребам користувача, за запитом
якого форму╓ться цей вх╕дний ╕нформац╕йний пот╕к.
Для формування дайджест╕в використовуються статистичн╕ алгоритми, заснован╕ на
"ваговому" частотному п╕дход╕.
На першому етап╕ формування дайджесту на п╕дстав╕ сл╕в, що входять у вх╕дний
╕нформац╕йний пот╕к, буду╓ться словник понять. При цьому кожному з╕ сл╕в
припису╓ться деякий ваговий коеф╕ц╕╓нт, що визнача╓ться як результат обл╕ку
дек╕лькох складових: частоти зустр╕ч╕ цього поняття, тематичного словника,
визначеного на основ╕ вх╕дного ╕нформац╕йного потоку, "плюса-словника", що
включа╓ найб╕льш важливу лексику загального призначення.
Для формування дайджест╕в посл╕довно викону╓ться вид╕лення вс╕х сл╕в вх╕дного
потоку документ╕в ╕ побудова з них наскр╕зного словникового масиву;
нормал╕зац╕я сл╕в за допомогою засоб╕в автоматичного
морфолог╕чного анал╕зу; сортування вс╕х сл╕в словникового масиву ╕
припис ╖м ваги - частоти зустр╕ч╕.
Наступним кроком ╓ вилучення з╕ словникового масиву незначних сл╕в.
Для цього використовуються спец╕альн╕ програмн╕ засоби, заснован╕ на
використанн╕ "стоп-словника".
В╕дпов╕дно ╕з запитом в╕дбува╓ться виб╕р тематичного словника ╕ наступне коригування
словникового масиву з урахуванням тематичного словника - тобто коригування
"ваги" окремих сл╕в, що входять у тематичний словник. За таким самим алгоритмом
в╕дбува╓ться коригування словникового масиву з обл╕ком "плюс-словника".
Останн╕й крок формування словника системи поляга╓ у вибор╕ N (у даний
час дор╕вню╓ 100) самих "вагомих" сл╕в з╕ словникового масиву.
Виб╕р документ╕в для побудови дайджесту реал╕зу╓ться з урахуванням
"ваги" кожного документа, що визнача╓ться як нормована за довжиною
документа сума "ваги" окремих сл╕в, що входять у цей документ. Етап вибору
документ╕в для дайджесту склада╓ться з таких крок╕в, як визначення "ваги" кожного
документа, сортування вх╕дного потоку документ╕в за "вагою", визначення
смислових дубл╕в документ╕в за статистичним критер╕╓м, в╕дкидання документ╕в,
непридатних для побудови дайджест╕в (за допомогою таблиць "стоп-адрес" ╕
"неприпустимих тип╕в документ╕в"), а також статистично зм╕стових дубл╕в.
Останн╕й крок етапу вибору документ╕в для формування дайджесту поляга╓ у вибор╕
М (на даний момент дор╕вню╓ 10) самих "вагомих" документ╕в з в╕дсортованого ╕
в╕дф╕льтрованого на попередн╕х кроках масиву.
Статистичний алгоритм визначення документ╕в, як╕ дублюються, ╕з вх╕дного
потоку поляга╓ в обрахуванн╕ ланцюжк╕в ключових сл╕в ╕ частот ╖хньо╖
зустр╕ч╕ для окремих документ╕в та наступному пор╕внянн╕ м╕ж собою цих
ланцюжк╕в сл╕в для вс╕х документ╕в вх╕дного потоку. В ╕снуюч╕й верс╕╖ системи
к╕льк╕сть ключових сл╕в у ланцюжку ╕ коеф╕ц╕╓нт близькост╕ цих
ланцюжк╕в може встановлювати адм╕н╕стратор системи.
Останн╕й етап формування дайджесту поляга╓ у вид╕ленн╕ з М в╕д╕браних
документ╕в найб╕льш значущих пропозиц╕й ╕ побудова з них безпосередньо тексту
дайджесту. Для цього за кожним з М в╕д╕браних документ╕в буду╓ться словник, що
коригу╓ться за "плюс-словником" ╕ тематичним словником, саме так, як ╕ весь
словник системи. Пот╕м в╕дкидаються пропозиц╕╖, що не в╕дпов╕дають емп╕рично
обумовленим семантичним правилам, ╕ зважуються вс╕ пропозиц╕╖, що залишилися.
Кожний з М в╕д╕браних на попередньому етап╕ документ╕в присутн╕й у дайджест╕ не
б╕льш н╕ж К найб╕льш вагомими пропозиц╕ями (при цьому обов'язковим ╓
входження заголовка ╕ першо╖ пропозиц╕╖). П╕сля цього автоматично форму╓ться
г╕пертекстове представлення дайджесту, його зм╕сту ╕ г╕перпосилання на вих╕дн╕
документи у вх╕дному ╕нформац╕йному масив╕.
При цьому важливо те, що сформований дайджест, який можна розглядати як
самост╕йний документ, ма╓ г╕пертекстов╕ посилання на документи-першоджерела в
╤нтернет╕. Для перегляду також доступний весь вх╕дний тематичний ╕нформац╕йний
масив.
Наведена вище процедура забезпечу╓ формування дайджесту, що в╕дбива╓
основн╕ тенденц╕╖, представлен╕ у вх╕дному ╕нформац╕йному потоц╕. Разом з тим
ма╓ сенс формування дайджесту, який в╕дбива╓ поряд з головною
темою дек╕лька ╕нших значущих тенденц╕й, не врахованих у дайджестах першого
типу. Дайджест такого типу також можна побудувати, базуючись на технолог╕чних
р╕шеннях, що застосовуються при першому п╕дход╕, а саме передбачивши в механ╕зм╕
реал╕зац╕╖ наступний алгоритм:
- 1 крок: побудова дайджесту, що в╕дбива╓ основну тенденц╕ю (дайджест
першого типу);
- 2 крок: видалення з вх╕дного ╕нформац╕йного потоку документ╕в, що
в╕дпов╕дають визначеним на попередньому кроц╕ тенденц╕ям;
- 3 крок: побудова дайджесту, що в╕дбива╓ основну тенденц╕ю на баз╕
модиф╕кованого на 2-му кроц╕ ╕нформац╕йного потоку;
- 4 крок: об'╓днання отриманих дайджест╕в в один;
- 5 крок: у раз╕ необх╕дност╕ (виходячи з необх╕дних обсяг╕в) викону╓ться
перех╕д до кроку 2.
У пор╕внянн╕ з традиц╕йними п╕дходами впровадження технолог╕╖
контент-мон╕торингу забезпечу╓ так╕ переваги, як:
одержання оперативних к╕льк╕сних ╕ як╕сних анал╕тичних зр╕з╕в
у м╕ру появи ╕нформац╕╖ в ╤нтернет; включення робочих м╕сць анал╕тик╕в у динам╕чний
╕нформац╕йний прост╕р; сво╓часне надання необх╕дно╖ проф╕льно╖ ╕нформац╕╖;
забезпечення ц╕леспрямовано╖ роботи орган╕в щодо усунення недол╕к╕в;
конф╕денц╕йн╕сть.
Завдяки зазначеним характеристикам ╕нструментальних засоб╕в роботи з
╕нформац╕йними потоками та таких фактор╕в ╖х застосування, як оперативн╕сть,
повнота ╕ релевантн╕сть, а також наявност╕ ╓диного захищеного ╕нтерфейсу,
технолог╕я контент-мон╕торингу може сприяти значному п╕двищенню якост╕
якост╕ ╕нформац╕йно-анал╕тично╖ роботи в ╕нтересах системи державно╖ служби.
1. Дьом╕н О., Лел╕ков Г., Сороко В. Державна кадрова пол╕тика: система
роботи з кадрами державно╖ служби // В╕сник державно╖ служби в Укра╖н╕. - 2001. -
N 2. - С. 65-84.
|