Автоматизація створення сховища даних електронних документів з Веб-порталів відкритих даних

dc.description.abstractРозглядається процес створення сховища даних електронних документів національного Веб-порталу відкритих даних України. Для скорочення трудомісткості процесу запропоновано розвиток методу порівняння текстів шляхом визначення інтегральної близькості структурованих текстів та їх елементів у вигляді рядків і стовпців, що дозволяє автоматизувати процес встановлення зв'язку між наборами даних при створенні сховища. Програмне забезпечення методу апробовано на наборах відкритих даних національного Веб-порталу. Результати дослідження можуть бути використані при створенні сховищ даних в системах електронного документообігу.uk
dc.description.abstractThe paper considers the process of creating of electronic documents in data warehouse on the web-portal of open data.The result of this study is the method of text comparison for two structured electronic documents, which presented in tabular form to determine the possibility of their association in the data warehouse. The Scientific novelty of work is improvement of method for comparing the texts with integrated proximity of structured texts and their elements in rows and columns in a table, which allows to automate the process of establishing a semantic link between the data sets to create a data warehouse. The software of proposed method is approved by the example of the DOC-format documents on the web-site of the Main Statistical Office in the Odessa region, which stores the operational statistics of socio-economic development of the region. For the experiments was created a public Web-portal of open data at the Odessa area on the basis of free software DKAN. As a result of automated analysis of documents with data tables were created open data sets. For more than half sets automatically semantic links have been established and carried out the union of these sets into a single data warehouse. It will allow a more qualitative analytical assessment of socio-economic processes using diagrams and cartographic type of visualization. The results of work can be used to create any kind of data warehouse in electronic document management systems.en
