Please use this identifier to cite or link to this item: http://repository.kpi.kharkov.ua/handle/KhPI-Press/35020
Title: Метод пошуку та аналізу даних з Інтернет ресурсів для формування актуальних вимог до кандидатів
Other Titles: The method of data search and analysis from the Internet resources for the formation of actual requirements for candidates
Authors: Чередніченко, Ольга Юріївна
Гринченко, Марина Анатоліївна
Василенко, Артем Вікторович
Матвєєв, Олександр Миколайович
Keywords: видобування даних; парсинг; компараторна ідентифікація; веб-сторінка; parsing; comparative identificatio; expert; vacancy
Issue Date: 2018
Publisher: НТУ "ХПІ"
Citation: Метод пошуку та аналізу даних з Інтернет ресурсів для формування актуальних вимог до кандидатів / О. Ю. Чередніченко [та ін.] // Вісник Національного технічного університету "ХПІ". Серія: Стратегічне управління, управління портфелями, програмами та проектами = Bulletin of the National Technical University "KhPI". Series: Strategic management, portfolio, program and project management : зб. наук. пр. – Харків : НТУ "ХПІ", 2018. – № 1 (1277). – С. 31-38.
Abstract: У статті розглянуті питання екстракції даних з Web-ресурсів на прикладі збору інформації щодо вакансій. Виділено три основні взаємодіючі сторони цього процесу: джерело даних, база даних та експерт. Розглянуто основні проблематичні сторони процесу видобування даних, а саме: наявність декількох джерел даних; представлення даних різними мовами; видобування даних з різних форматів файлів; багаторазові повторювані операції і безперервні оновлення. Проаналізовано та визначено переваги та недоліки таких методів WebMiningяк:аналіз DOM дерева, парсинг рядків, використання регулярних виразів, XML парсинг та візуальний підхід. У статті застосовано метод аналізу DOM дерева з використання XPath. Запропоновано використання методу компараторной ідентифікації для моделювання процесу видобування даних. Представлено приклад застосування наведеного підходу для ідентифікації певної вакансії на сайті пошуку роботи. Розроблено тезаурус вимог роботодавців та налаштовано роботу парсера.
The article deals with the issues of data extraction from Web-resources on the example of gathering information on vacancies. There are three main interacting parts of this process: data source, database, and an expert. The main problematic aspects of the data mining process are the availability of several data sources; data representation in different languages; extraction data from different file formats; multiple updating of repetitive operations and data. The advantages and disadvantages of Web Mining methods were analyzed and defined. They are DOM tree analysis, line parsing, usage of regular expressions, XML parsing and visual approach. Method of DOM tree using XPath was applied in the paper. The method of comparator identification for modeling the data extraction process was proposed. The component, which receives the search topic and the search start page, carries out a thematically directed extraction. The comparator compares the extracted word from the page with the words of the search model. The application of the above-mentioned approach is presented for identifying a vacancy on the job search site. The thesaurus of employers' requirements is developed. Words-indicators of the required vacancies are presented in three languages. The parser work was set up. The parser processes the documents and retrieves the data used to fill a particular data model. The developed module works as follows. It begins to work with obtaining an array of necessary pages from the selected Web site. The next step is the analysis of Web page‘s structure. Then it is necessary to get the content of a specific HTML page, which contains the necessary information for its further retrieval and processing. As a result ―vacancy model‖ is developed. The model should include the following elements: vacancy title; date of adding a job to the site; the city where the applicant needs to work; requirements for the candidate; applicant duties; working conditions. Extraction of requirements, liabilities, and conditions was defined as the most problematic area, whereas the same information can be presented in a different way. In order to unify requirement experts were engaged.
URI: http://repository.kpi.kharkov.ua/handle/KhPI-Press/35020
Appears in Collections:Вісник № 01
Кафедра "Програмна інженерія та інформаційні технології управління ім. проф. Дабагяна А. В." (Автоматизовані системи управління)
Кафедра "Стратегічне управління"

Files in This Item:
File Description SizeFormat 
vestnik_KhPI_2018_1_Cherednichenko_Metod.pdf521,71 kBAdobe PDFThumbnail
View/Open
Show full item record  Google Scholar



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.