Data Mining на службі у митниці

Розвиток корпоративних баз даних в стислому в часі вигляді повторює загальну історію розвитку ІТ. ...
Порівняння статистичних даних ЄС і РФ
Товар ризику - товар прикриття
підсумки
Oracle Data Mining

Розвиток корпоративних баз даних в стислому в часі вигляді повторює загальну історію розвитку ІТ. Корпорації починають з невеликих розрізнених баз, що працюють під управлінням скромних СУБД, поступово переходячи до централізованих баз на основі повномасштабних СУБД. Однак, накопичивши величезну кількість даних, корпорації усвідомлюють, що саме по собі володіння даними ще не дає їм переваг. У статті викладається досвід використання технологій «пошуку знань» стосовно завдань, що стоять перед Державним митним комітетом РФ.
Для того щоб база даних працювала ефективно, необхідно як мінімум забезпечити експертам оперативний доступ до інформації, який не вимагав би від них навичок програмування і дозволяв представляти дані в звичному для експертів вигляді. За останні п'ять років ми реалізували кілька систем OLAP. На жаль, в рамках технологій OLAP основний тягар аналізу і раніше лягає на плечі людини. Більш того, зустрічаються завдання, в яких або обсяг інформації дуже великий, або рішення залежить від безлічі факторів, що унеможливлює аналіз даних вручну. На сьогоднішній день багато постачальників програмного забезпечення, в тому числі Oracle, випустили ряд продуктів, що реалізують алгоритми Data Mining і дозволяють автоматизувати процес аналізу даних.

Товари ризику

Одна з основних завдань, що стоять перед митними органами, полягає у виявленні навмисного спотворення вантажних митних декларацій. В силу обмежених ресурсів повна перевірка всіх переміщуються через кордон вантажів неможлива. Однак ГТК збирає докладні бази даних за вантажними митними деклараціями. Аналіз цих даних може бути використаний для виявлення тенденцій у зовнішній торгівлі РФ і по групах товарів, найбільш схильних до фальсифікації при проходженні митниці - «товарам ризику». Маючи дані про такі товари, митні пости могли б більш ретельно перевіряти проходження відповідних вантажів і зменшити втрати від фальсифікації митних документів.

Однією з особливостей завдання стало відсутність «тренувального» набору даних - даних, для яких було б апріорі відомо, які з них є спробою фальсифікації вантажної митної декларації, а які представляють собою сумлінно задекларовані товари. Це значно обмежувало коло алгоритмів, які можна було використовувати: наприклад, популярні методи типу класифікатори Байеса, дерева рішень, нейронні мережі і т.п. вимагають попереднього навчання на тренувальному наборі даних. У нашому розпорядженні залишалися лише алгоритми кластеризації і асоціативних правил.

Предметом аналізу є база даних Європейського Союзу з питань зовнішньої торгівлі з Росією і база вантажних митних декларацій (ВМД) Єдиної Автоматизованої Інформаційної Системи ГТК Росії. ВМД може оформлятися одночасно на кілька переміщуються разом товарів. База даних ЄС містить тільки агрегированную до рівня одного місяця і восьми знаків товарну номенклатуру зовнішньоекономічної діяльності. ТНЗЕД - це десятизначний класифікатор товарів, який використовується митними органами. У 2000 році він містив понад 12 тис. Груп товарів, а також інформацію про обсяг та вартість переміщуваних товарів. У російську ж декларацію заноситься детальна інформація про кожного вантаж. У своєму аналізі ми використовували лише частина інформації, що міститься в декларації: напрямок переміщення (імпорт / експорт); обсяг (вага); вартість в дол .; дата оформлення.

Порівняння статистичних даних ЄС і РФ

Маючи два джерела відомостей про зовнішньоекономічну діяльність, можна спробувати зіставити дані, одночасно аналізуючи всю сукупність ТНЗЕД. Якщо порівнювати дані по групах товарів, то різниця значень ще не може привести до яких-небудь висновків, оскільки існують природні причини відхилення в даних ЄС і РФ:

помилки введення;
округлення ваги до цілого значення в тоннах (в базі EC);
округлення вартості до цілого значення в дол. (в базі РФ);
невідповідність дати декларування товару в РФ і країні-контрагента (дані агреговані до місяця, однак дати декларування можуть ставитися до різних місяцях);
різниця курсів валют в момент вивезення і ввезення товару;
відмінності в класифікації ТН ЗЕД і ГС в РФ і EC, в результаті чого деякі товари можуть бути враховані по різних групах УКТЗЕД / ГС в статистиці РФ і EC.

У той же час не можуть бути безпосередньо використані оригінальні змінні: вага нетто і вартість, так як різні групи товарів характеризуються різною ціною і характерними обсягами переміщуваних товарів. Крім того, мета аналізу - невиявлених розбіжностей між даними ЄС і РФ, а визначення величини ризику, пов'язаної з даною групою товарів, т. Е. Величини відносного невідповідності між даними. У зв'язку з цим в якості основних змінних обрані відносні різниці по вартості і вагою нетто, що визначаються як:

У зв'язку з цим в якості основних змінних обрані відносні різниці по вартості і вагою нетто, що визначаються як:

COST_RF, COST_ES - статистична вартість товарів даної групи за статистикою РФ і EC відповідно, NETTO_RF, NETTO_ES - аналогічні показники для ваги нетто. Нормировка на мінімальні значення обгрунтована, оскільки невідомо справжнє значення вартості і ваги, крім того, це наближає розподіл значень змінних до відомого статистичному розподілу (хотілося б мати розподіл, хоча б віддалено нагадує гауссово). Порівняти дані по всіх групах можна, побудувавши гістограму для описаних змінних, що показує, як часто зустрічається те чи інше значення змінної (вісь Х - значення змінної, Y - кількість випадків, коли змінна приймала дане значення). Oracle Darwin має утиліту для побудови одне і двомірних гістограм даних, якої ми і скористалися. На рис. 1 показані нормовані розподілу для відносного відхилення вартості і ваги для експорту та імпорту.

Якби відмінності між даними ЄС і РФ носили «природний» характер, без фальсифікації, то розподілу були б симетричними, а імпорт збігався б з експортом. І дійсно, графік, що характеризує вагу, виглядає досить симетричним, а розподілу для імпорту і експорту практично збігаються. Зовсім інша картина спостерігається у ставленні вартості. Якщо експорт більш-менш симетричний, то в разі імпорту ми маємо набагато більше випадків із заниженою в порівнянні з даними ЄС вартістю товарів, що ввозяться (негативні значення змінної dcost): вага вантажу легко проконтролювати, в той час як виміряти вартість неможливо. Крім того, для більшості товарних груп мито сплачується саме з вартості. Однак при більш детальному аналізі стає зрозумілим, що підозрілі аномалії спостерігаються і в поведінці змінної netto. На рис. 2 показано спільний розподіл відносних відхилень по вартості і ваги.

Оскільки обрані нами змінні не є повністю незалежними (вартість = ціна х вага), то очікуване розподіл має виглядати як нахилений на 45 градусів еліпс. Саме так виглядає розподіл для експорту. У разі ж імпорту знову видно характерні фальсифікації. Зустрічаються групи товарів, для яких при невеликому відхиленні ваги вартість занижена на порядок. І є товарні групи, в яких присутня завищення ваги при відносно правильної вартості імпортованого товару. На перший погляд це здається дивним. Навіщо завищувати вага товару, що ввозиться?

Виявляється, цьому є просте пояснення. Вага вантажу декларується вірно, але фальсифікується найменування товару - в декларації вказується близький за характеристиками товар з меншою ставкою мита. В результаті для певних груп товарів спостерігається істотний приріст імпорту в порівнянні з даними ЄС. Ця схема відходу від митних платежів добре відома митним органам як «товар прикриття».

Навіть використання таких найпростіших способів аналізу даних як гістограма дозволило виділити наявність певних тенденцій і оцінити масштаб спотворення даних. Більш того, вже на цьому етапі можливо сформулювати певні критерії для відбору груп товарів найбільш схильних до фальсифікацій. У той же час розподілу, наведені на рис. 1 і 2, показують, що зроблений нами вибір змінних був не дуже вдалим з точки зору алгоритмів кластеризації - щільність даних досить монотонно падає від центру до країв розподілу. Щоб скористатися алгоритмами кластеризації нам довелося перевизначити змінні, ввівши наступні змінні:

Щоб скористатися алгоритмами кластеризації нам довелося перевизначити змінні, ввівши наступні змінні:

Основна відмінність нових змінних - обмежений діапазон прийнятих значень:

Розподіл, аналогічне наведеному на рис. 2, в нових змінних показано на рис. 3.

В даному випадку в наявності як мінімум три кластери, а застосування алгоритму Darwin Match дозволило легко виділити 4 кластери (рис. 4).

Цікаво, що останній з кластерів (кластер 4) не ідентифікується «оком» як окремий кластер (рис. 3), в той час як йому відповідає найбільш насичена недостовірно оформленими деклараціями область, що добре видно, якщо знайдені кластери уявити в наших первинних координатах ( рис. 5).

Звичайно, в разі двох змінних кластеризація може бути легко виконана візуально по побудованої гістограмі, нам же тут було важливо показати можливість використання алгоритму і вибрати відповідні змінні, які можуть бути використані в більш складному аналізі.

Товар ризику - товар прикриття

Як правило, при «прикритті» одного товару іншим в рамках одного вантажу (і однієї митної декларації) дійсно перевозяться обидва товари, проте частка «дорогого» знижується. Цей факт і може бути використаний для виявлення подібних пар. При відборі потенційних пар «товар ризику» - «товар прикриття» ми використовували такі критерії:

При відборі потенційних пар «товар ризику» - «товар прикриття» ми використовували такі критерії:

Перший критерій основний і означає, що один з товарів найімовірніше супроводжує іншому. Вибір умовних ймовірностей, замість, наприклад, коефіцієнта кореляцій, обумовлюється їх більшу чутливість. Коефіцієнт кореляції близький до одиниці лише в разі, якщо обидва товари весь час ввозяться одночасно. Ми ж накладаємо набагато більш слабке умова: лише один з товарів постійно супроводжує іншому, оскільки один з товарів може ввозитися в великих обсягах без будь-якого супроводу. Використаний критерій відомий в літературі як алгоритм асоційованих правил і, зокрема, реалізований в Oracle Data Mining 9i. На жаль, використані дані знаходилися в базі Oracle Server 8, в зв'язку з чим довелося використовувати власну реалізацію алгоритму.

Втім, висока кореляція одного з товарів з іншим ще не означає, що товар обов'язково прикривається іншим: безліч людей щодня купують одночасно хліб і молоко без жодного злого наміру. І при імпорті товарів існують випадки природної кореляції між товарами. Щоб очистити відібрані пари від таких випадків, ми наклали додаткові умови: прикриття має бути економічно вигідно, а порівняльний аналіз статистичних даних повинен підтверджувати факт прикриття.

Аналіз наданих ГТК даних виявив значну кількість пар, які відповідають обраним критеріям. Безумовно, не всі вони є парами «товар ризику - товар прикриття». Ефективність реалізованого алгоритму може бути підтверджена тільки в ході додаткових перевірок на митних постах. Однак слід зазначити, що число подібних пар істотно менше, ніж загальне число товарних груп, і їх список цілком може бути використаний як рекомендація по більш ретельному огляду певних вантажів.

Як приклад наведемо одну пару товарів: шини для легкових автомобілів та протекторні заготовки для їх відновлення. В таблиці 1 наведені дані по імпорту цих двох груп товарів за 2000 рік, а саме число випадків ввезення кожного з товарів, число випадків спільного ввезення і обчислені за цими даними коефіцієнти кореляції і ймовірності.

Як видно з таблиці 1 , Протягом усього 2000 року ймовірність ввезення шин разом з заготовками дуже висока - в середньому 95% за рік. Випадків ввезення тільки заготовок практично не було. При цьому коефіцієнт кореляції не настільки великий, оскільки досить великий обсяг імпорту шин не супроводжується заготовками. Сам по собі факт кореляції між цими групами товарів досить природний, проте ставка мита у 2000 році на заготовки була в 5 разів нижче, ніж для шин - 5% і 25% відповідно. Більш того, порівняльний аналіз даних РФ і ЄС показав, що імпорт заготовок згідно з російськими даними майже в 200 разів вище, ніж за даними ЄС, а імпорт шин нижче в 3,5 рази, якщо порівнювати обсяги імпорту за вагою. При цьому сумарна вага імпорту за цими двома групами збігається з даними РФ і ЄС з точністю до 20% ( Таблиця 2 ).

Схожа картина спостерігається і в вартісному вираженні. Вартість ввезених в РФ заготовок в 30 разів вище, ніж вивезених з країн ЄС, в той час як шин, якщо судити по декларуванню вартості, ввезено в 2,7 рази менше вивезеного кількості. Т. е., Судячи з наведеними даними, з великою ймовірністю протекторні заготовки 2000 року використовувалися поряд імпортерів як прикриття для ввезених шин. Втрати держави на митах склали приблизно близько 7 млн. Дол.

Відзначимо, що аналіз був проведений на повному обсязі вантажних митних декларацій за 2000 рік, що становить понад 2 млн. Декларацій із загальною кількістю товарів близько 5 млн. Ясно, що аналіз такої кількості даних не може бути виконаний ні вручну, ні за допомогою ряду інших технологій підтримки рішень. І хоча, безумовно, неможливо повністю замінити аналітика автоматизованою системою, застосування методів пошуку знань дозволяє відсіяти величезну кількість даних, які не становлять, інтересу і скоротити обсяг інформації, що аналізується до рівня адекватного людському сприйняттю.

підсумки

Аналіз електронних копій ВМД, в сукупності з аналізом ставок митних зборів і агрегованих даних статистики зовнішньої торгівлі Євросоюзу та Російської Федерації, проведений засобами технології Data Mining дозволив визначити кореляції між товарними групами, зробити обґрунтовані припущення щодо визначення «товарів ризику» і «товарів прикриття», а також дати оцінку можливих втрат митних платежів.

Таким чином, проведене дослідження показало, що технології Data Mining можуть успішно застосовуватися для виявлення прихованих тенденцій у зовнішньоторговельній діяльності. При цьому слід зазначити, що на відміну від інших методів підтримки прийняття рішень технології Data Mining мають набагато більш високим ступенем інтелектуальності і хорошою масштабністю, дозволяючи в значній мірі автоматизувати аналіз даних.

Андрій Майоров ( [email protected] ) - співробітник компанії «РДТЕХ».

Oracle Data Mining

Компанія Oracle випустила два програмні продукти, що реалізують алгоритми пошуку знань: Oracle Data Mining Suite (Darwin) і Oracle 9i Data Mining (server option). Перший доступний вже протягом декількох років і, хоча ступінь його інтегрованості з іншими продуктами Oracle низька, пропонує досить потужний набір алгоритмів (класифікаційні та регресивні дерева, нейронна мережа, кластеризація по найближчих сусідів). До безумовних переваг Darwin треба віднести наявність ряду утиліт для підготовки вхідних даних, що дозволяють об'єднувати набори, рандомизировать і трансформувати дані у відповідності із заданою функцією. Надзвичайно корисною є наявність утиліт попереднього аналізу, в тому числі побудова гістограм. Darwin інтегрований з MS Excel, що розширює його можливості особливо в плані графіки. Наявність графічного призначеного для користувача інтерфейсу робить доступним весь цикл роботи з моделлю для аналітиків, які не мають достатнього досвіду в програмуванні.

Oracle 9i Data Mining - порівняно новий продукт і його перша версія включала лише два алгоритму: найпростіший класифікатор (Naive Bayes) за методом Байеса і пошук асоціативних правил. Обидва алгоритми добре відомі і, незважаючи на свою простоту, в ряді областей застосувань зарекомендували себе як надзвичайно успішні. Відмінною рисою Oracle 9i Data Mining є його інтегрованість з Oracle Server причому не тільки при доступі до даних - алгоритми реалізовані як пакети, що зберігаються в базі. Програмний інтерфейс реалізований на Java, що робить взаємодію з продуктом більш гнучким. Однак, на відміну від Darwin, графічний користувальницький інтерфейс повністю відсутня. В останньому випуску (Oracle Server 9.2) опція Data Mining була збагачена новими алгоритмами. Зокрема, було додано адаптивний Байес класифікатор і O-кластеризація.

Навіщо завищувати вага товару, що ввозиться?

Статьи

Товари ризику

Порівняння статистичних даних ЄС і РФ

Товар ризику - товар прикриття

підсумки

Oracle Data Mining

Новости