English
!

Доклады

Автоматизация процесса аудита для анализа документов

Мартинович Е.Н., Попов Е.В., Шуткин А.С.

Научно-технологический университет "Сириус"

С целью автоматизации работы аудиторских компаний, минимизации человеческого фактора и уменьшения затрат ресурсов, нами был придуман и реализован алгоритм XML графов для анализа документов. Из анализа литературы мы увидели, что таких работ еще не было представлено – полностью инновационная разработка.

В качестве входных данных мы используем подмножество языка разметки XML, потому что отчетность чаще всего представляется именно в таком виде. Сначала производится анализ XML-файлов и составление списков и словарей содержащихся в них тегов, их значений и иерархии. На основании этого составляется текстовые документ c подробным перечнем связей по каждому отдельному элементу.

Далее строится граф первого вида, изображающий связи файлов через отдельные теги, каждый элемент имеет всплывающую подсказку с информацией о расположении данного элемента в текстовом файле. Вершинами графа считаются элементы разметки файла, а ребрами – связь между ними.

На основании выстроенной иерархии производится подсчет весов тегов и их значений, сил взаимодействия файлов друг с другом, создание таблицы связей файлов по полям и значениям. Создается и нормализуется таблица величины связей между файлами, на основании которой производится понижение размерности с помощью метода главных компонент. Полученная кластеризация диагонализируется и высчитывается удаленность первоначального положения от итогового. Затем файлы распределяются по холсту в соответствии с их изначальным положением на диагонали и углом, пропорциональным вычисленной удаленности. В итоге строится граф второго вида визуализируется в трех вариантах: с низкой, средней и высокой степенями детализации.

В результате применения нашей разработки мы получаем:

• relations.txt – текстовый файл, c подробным перечнем связей по каждому отдельному элементу.

• result.csv – таблица связей объектов графа через поля.

• test.svg – граф первого типа. Показывает взаимосвязи XML файлов через общие теги внутри файла и положения описанных элементов в текстовом документе.

• low.png – граф второго типа с низкой степенью детализации, показывающий взаимосвязи XML-файлов друг с другом.

• middle.png – граф второго типа с средней степенью детализации, показывающий взаимосвязи XML-файлов друг с другом.

• high.png – граф второго типа с высокой степенью детализации, показывающий взаимосвязи XML-файлов друг с другом.

Материалы доклада

© 2004 Дизайн Лицея Информационных технологий №1533