Метод пошуку та аналізу даних з Інтернет ресурсів для формування актуальних вимог до кандидатів
Дата
2018
ORCID
DOI
Науковий ступінь
Рівень дисертації
Шифр та назва спеціальності
Рада захисту
Установа захисту
Науковий керівник
Члени комітету
Назва журналу
Номер ISSN
Назва тому
Видавець
НТУ "ХПІ"
Анотація
У статті розглянуті питання екстракції даних з Web-ресурсів на прикладі збору інформації щодо вакансій. Виділено три основні взаємодіючі сторони цього процесу: джерело даних, база даних та експерт. Розглянуто основні проблематичні сторони процесу видобування даних, а саме: наявність декількох джерел даних; представлення даних різними мовами; видобування даних з різних форматів файлів; багаторазові повторювані операції і безперервні оновлення. Проаналізовано та визначено переваги та недоліки таких методів WebMiningяк:аналіз DOM дерева, парсинг рядків, використання регулярних виразів, XML парсинг та візуальний підхід. У статті застосовано метод аналізу DOM дерева з використання XPath. Запропоновано використання методу компараторной ідентифікації для моделювання процесу видобування даних. Представлено приклад застосування наведеного підходу для ідентифікації певної вакансії на сайті пошуку роботи. Розроблено тезаурус вимог роботодавців та налаштовано роботу парсера.
The article deals with the issues of data extraction from Web-resources on the example of gathering information on vacancies. There are three main interacting parts of this process: data source, database, and an expert. The main problematic aspects of the data mining process are the availability of several data sources; data representation in different languages; extraction data from different file formats; multiple updating of repetitive operations and data. The advantages and disadvantages of Web Mining methods were analyzed and defined. They are DOM tree analysis, line parsing, usage of regular expressions, XML parsing and visual approach. Method of DOM tree using XPath was applied in the paper. The method of comparator identification for modeling the data extraction process was proposed. The component, which receives the search topic and the search start page, carries out a thematically directed extraction. The comparator compares the extracted word from the page with the words of the search model. The application of the above-mentioned approach is presented for identifying a vacancy on the job search site. The thesaurus of employers' requirements is developed. Words-indicators of the required vacancies are presented in three languages. The parser work was set up. The parser processes the documents and retrieves the data used to fill a particular data model. The developed module works as follows. It begins to work with obtaining an array of necessary pages from the selected Web site. The next step is the analysis of Web page‘s structure. Then it is necessary to get the content of a specific HTML page, which contains the necessary information for its further retrieval and processing. As a result ―vacancy model‖ is developed. The model should include the following elements: vacancy title; date of adding a job to the site; the city where the applicant needs to work; requirements for the candidate; applicant duties; working conditions. Extraction of requirements, liabilities, and conditions was defined as the most problematic area, whereas the same information can be presented in a different way. In order to unify requirement experts were engaged.
The article deals with the issues of data extraction from Web-resources on the example of gathering information on vacancies. There are three main interacting parts of this process: data source, database, and an expert. The main problematic aspects of the data mining process are the availability of several data sources; data representation in different languages; extraction data from different file formats; multiple updating of repetitive operations and data. The advantages and disadvantages of Web Mining methods were analyzed and defined. They are DOM tree analysis, line parsing, usage of regular expressions, XML parsing and visual approach. Method of DOM tree using XPath was applied in the paper. The method of comparator identification for modeling the data extraction process was proposed. The component, which receives the search topic and the search start page, carries out a thematically directed extraction. The comparator compares the extracted word from the page with the words of the search model. The application of the above-mentioned approach is presented for identifying a vacancy on the job search site. The thesaurus of employers' requirements is developed. Words-indicators of the required vacancies are presented in three languages. The parser work was set up. The parser processes the documents and retrieves the data used to fill a particular data model. The developed module works as follows. It begins to work with obtaining an array of necessary pages from the selected Web site. The next step is the analysis of Web page‘s structure. Then it is necessary to get the content of a specific HTML page, which contains the necessary information for its further retrieval and processing. As a result ―vacancy model‖ is developed. The model should include the following elements: vacancy title; date of adding a job to the site; the city where the applicant needs to work; requirements for the candidate; applicant duties; working conditions. Extraction of requirements, liabilities, and conditions was defined as the most problematic area, whereas the same information can be presented in a different way. In order to unify requirement experts were engaged.
Опис
Ключові слова
видобування даних, парсинг, компараторна ідентифікація, веб-сторінка, parsing, comparative identificatio, expert, vacancy
Бібліографічний опис
Метод пошуку та аналізу даних з Інтернет ресурсів для формування актуальних вимог до кандидатів / О. Ю. Чередніченко [та ін.] // Вісник Національного технічного університету "ХПІ". Серія: Стратегічне управління, управління портфелями, програмами та проектами = Bulletin of the National Technical University "KhPI". Series: Strategic management, portfolio, program and project management : зб. наук. пр. – Харків : НТУ "ХПІ", 2018. – № 1 (1277). – С. 31-38.