Вісник № 01
Постійне посилання колекціїhttps://repository.kpi.kharkov.ua/handle/KhPI-Press/34932
Переглянути
Документ Метод пошуку та аналізу даних з Інтернет ресурсів для формування актуальних вимог до кандидатів(НТУ "ХПІ", 2018) Чередніченко, Ольга Юріївна; Гринченко, Марина Анатоліївна; Василенко, Артем Вікторович; Матвєєв, Олександр МиколайовичУ статті розглянуті питання екстракції даних з Web-ресурсів на прикладі збору інформації щодо вакансій. Виділено три основні взаємодіючі сторони цього процесу: джерело даних, база даних та експерт. Розглянуто основні проблематичні сторони процесу видобування даних, а саме: наявність декількох джерел даних; представлення даних різними мовами; видобування даних з різних форматів файлів; багаторазові повторювані операції і безперервні оновлення. Проаналізовано та визначено переваги та недоліки таких методів WebMiningяк:аналіз DOM дерева, парсинг рядків, використання регулярних виразів, XML парсинг та візуальний підхід. У статті застосовано метод аналізу DOM дерева з використання XPath. Запропоновано використання методу компараторной ідентифікації для моделювання процесу видобування даних. Представлено приклад застосування наведеного підходу для ідентифікації певної вакансії на сайті пошуку роботи. Розроблено тезаурус вимог роботодавців та налаштовано роботу парсера.