Статьи

Архітектура і шаблони великих даних: Частина 5. Застосування шаблону рішення до задачі в сфері високих даних і вибір продуктів для реалізації цього рішення

  1. Серія контенту:
  2. Цей контент є частиною серії: Архітектура та шаблони великих даних
  3. шаблони рішень
  4. Таблиця 1. Складові шаблони, які використовуються у відповідних шаблонах рішень
  5. Існуючий процес виявлення шахрайства
  6. Проблеми існуючого процесу виявлення шахрайства
  7. Шаблон рішення: Початок роботи
  8. Малюнок 1. Шаблон рішення "Початок роботи"
  9. Шаблон рішення: Поглиблене осмислення бізнес-інформації
  10. Малюнок 2. Шаблон рішення "Поглиблене осмислення бізнес-інформації"
  11. Шаблон рішення: Виконання подальших дій
  12. Малюнок 3. Шаблон рішення "Виконання подальших дій"
  13. Продукти харчування й технології, що утворюють каркас рішення для роботи з великими даними
  14. Малюнок 4. Продукти та технології на тлі шарів логічної архітектури
  15. Висновок
  16. Ресурси для скачування

Архітектура і шаблони великих даних

Серія контенту:

Цей контент є частиною # з серії # статей: Архітектура та шаблони великих даних

http://www.ibm.com/developerworks/library/?search_by=Big+data+architecture

Слідкуйте за виходом нових статей цієї серії.

Цей контент є частиною серії: Архітектура та шаблони великих даних

Слідкуйте за виходом нових статей цієї серії.

В четвертої статті цього циклу були описані атомарні і складові шаблони, призначені для подолання найбільш поширених і регулярно повторюються проблем в області великих даних. У цій статті пропонуються три шаблону рішення, які можна використовувати при проектуванні рішення для роботи з великими даними. Кожен з цих шаблонів рішення використовує складовою шаблон, що складається з логічних компонентів (розглядаються в третій статті даного циклу). В кінці статті наведено список продуктів і інструментів, відповідних компонентів кожного з розглянутих шаблонів рішень.

шаблони рішень

У наступних розділах описуються три шаблону рішення, які можна використовувати при проектуванні рішення для роботи з великими даними. Щоб проілюструвати ці шаблони, ми застосуємо їх в конкретному прикладі використання (виявлення шахрайства в сфері медичного страхування), проте ці шаблони можна використовувати і в багатьох інших бізнес-сценаріях. Кожен шаблон рішення використовує відповідний складовою шаблон. У наступній таблиці наведено список шаблонів рішень, що розглядаються в даній статті, а також вказані складові шаблони, на яких засновані ці шаблони рішень.

Таблиця 1. Складові шаблони, які використовуються у відповідних шаблонах рішень

Опис варіанту використання: Шахрайство в сфері медичного страхування

Фінансове шахрайство є серйозним ризиків для всіх сегментів фінансового сектора. У США страхові компанії щорічно втрачають мільярди доларів. В Індії в одному тільки 2011 році загальні втрати склали 300 мільярдів індійських рупій. Крім безпосередніх грошових збитків, бізнес страхових компаній страждає внаслідок незадоволеності клієнтів. Хоча багато регулятивні органи в сфері страхування сформували структури і процеси для протидії шахрайству, ці структури / процеси нерідко лише реагують на шахрайство замість здійснення превентивних заходів з метою його запобігання. Традиційні підходи, такі як поширення чорного списку клієнтів, страхових агентів і співробітників, не усувають проблему шахрайства.

У цій статті пропонується шаблон рішення для роботи з великими даними, що базується на логічній архітектурі, описаної в третій статті цього циклу, і складових шаблонів, розглянутих в четвертої статті .

Шахрайство при страхуванні - це дія (або, навпаки, бездіяльність) з метою отримання нечесної або незаконної вигоди для сторони, що здійснює шахрайство, або для інших пов'язаних з нею сторін. Види шахрайства при страхуванні можна розділити на наступні основні категорії.

  • Шахрайство власника страхового поліса і шахрайство зі страховими вимогами - Шахрайські дії по відношенню до страхової компанії при покупці і застосуванні страхового продукту, включаючи шахрайство на етапі подачі страхового вимоги.
  • Посередницьке шахрайство - Шахрайство, скоєне страховим агентом, корпоративним агентом, посередником або стороннім агентом по відношенню до страхової компанії або до власника поліса.
  • Внутрішнє шахрайство - Шахрайство по відношенню до страхової компанії, що здійснюється її директором, менеджером або будь-яким іншим штатним співробітником.

Існуючий процес виявлення шахрайства

Регулятивні органи в сфері страхування встановили політики протидії шахрайству, що містять чітко визначені процеси для моніторингу шахрайства, які призначені для пошуку потенційних ознак шахрайства (і публікації їх списку) і для координації дій з правоохоронними органами. Страхові компанії мають виділених співробітників для аналізу шахрайських страхових вимог.

Проблеми існуючого процесу виявлення шахрайства

У регулятивних органів у сфері страхування є чітко визначені процеси для виявлення шахрайства та протидії йому. Традиційні рішення використовують моделі на основі таких даних, як ретроспективні відомості про шахрайство, чорні списки клієнтів / страхових агентів і відомості про типові види шахрайства для певного регіону. Доступні для виявлення шахрайства дані обмежені ІТ-системами порушеної страхової компанії і декількома зовнішніми джерелами.

Нинішні процеси виявлення шахрайства є переважно ручними і працюють з обмеженими наборами даних. Страхові компанії далеко не завжди мають у своєму розпорядженні можливостями для дослідження всіх ознак шахрайства. Найчастіше шахрайство виявляється дуже пізно, що ускладнює адекватне реагування страхової компанії на кожен акт шахрайства.

Нинішні методи виявлення шахрайства покладаються на вже відомі відомості про існуючі випадки шахрайства, тому при виникненні кожної нової різновиду шахрайства страховим компаніям доводиться заново відчувати її наслідки. Більшість традиційних методів працює в рамках певного джерела даних і не в змозі охопити все більш різноманітні дані з різних джерел. Рішення для роботи з великими даними може допомогти в подоланні цих проблем і зіграти важливу роль в справі виявлення шахрайства в інтересах страхових компаній.

Шаблон рішення: Початок роботи

Цей шаблон рішення заснований на складеному шаблоні "Зберігання і дослідження". Він орієнтований на отримання і зберігання релевантних даних з різних джерел всередині підприємства або за його межами. Джерела даних, показані на рис. 1, є лише прикладами; фахівці з проблемної області допоможуть визначити належні джерела даних.

Оскільки на цьому етапі необхідно зібрати, зберегти і обробити великий обсяг різноманітних даних з багатьох джерел, ця бізнес-завдання є хорошим кандидатом на застосування рішення для роботи з великими даними.

На наступному малюнку показаний шаблон рішення, зіставлений з логічної архітектурою, яка була описана в.

Малюнок 1. Шаблон рішення "Початок роботи"
Архітектура і шаблони великих даних   Серія контенту:   Цей контент є частиною # з серії # статей: Архітектура та шаблони великих даних   http://www

На рис. 1 показані постачальники даних від таких компонентів.

  • Зовнішні джерела даних
  • Сховище структурованих даних
  • Перетворені структуровані дані
  • дозвіл сутностей
  • Компоненти браузера великих даних

Дані, необхідні для виявлення шахрайства в охороні здоров'я, можуть бути отримані з різних джерел і систем, включаючи банки, медичні установи, соціальні медіа та Інтернет-агентства. Сукупність цих даних містить неструктуровані дані з таких джерел, як блоги, соціальні медіа, інформаційні агентства, звіти різних агентств і контролюючих органів. Інші приклади показані на рис. 1 в шарі джерел даних. Засоби аналізу великих даних дозволяють зіставити і об'єднати інформацію з різних джерел, а потім - за допомогою певних правил - проаналізувати її на предмет можливості шахрайства.

У цьому шаблонах необхідні зовнішні дані надходять від постачальників даних, що доставляють попередньо оброблені неструктуровані дані, перетворені в структурований або в полуструктурированного формат. Після початкової попередньої обробки ці дані зберігаються в сховищах великих даних. Наступний крок полягає у виявленні можливих сутностей і створенні спеціальних звітів на основі цих даних.

Ідентифікація сутностей зводиться до задачі розпізнавання іменованих елементів в даних. Все суті, які потрібні для аналізу, повинні бути ідентифіковані, включаючи слабо пов'язані суті, не мають відносин з іншими сутностями. Ідентифікацією сутностей займаються переважно фахівці з даними і бізнес-аналітики. Дозвіл сутностей може бути простим в разі одиночних сутностей або складним завданням в разі сутностей, заснованих на відносинах між даними і контекстах. В даному шаблоні використовується компонент для ідентифікації сутностей, що мають просту форму.

Структуровані дані можуть бути легко перетворені в формат, найбільш відповідний для аналізу, а потім безпосередньо збережені в сховищах структурованих великих даних.

До цих даних можна застосувати спеціальні запити з метою отримання такої інформації.

  • Повний профіль ризику шахрайства для певного клієнта, регіону, страхового продукту, агента або санкціонує співробітника за встановлений період.
  • Інспектування минулих вимог, пов'язаних з певними агентами, санкціонує співробітниками або клієнтами в масштабі кількох страхових компаній.

Як правило, організація приступає до роботи з великими даними, адаптуючи цей шаблон (як і має на увазі його назва). Організації шляхом дослідження оцінюють потенційний позитивний ефект виходячи з доступних їм даних. Зазвичай на цьому етапі організації не вкладають капітал в вдосконалені аналітичні методи, такі як шинний навчання, виділення ознак і аналіз тексту.

Шаблон рішення: Поглиблене осмислення бізнес-інформації

Цей шаблон є більш просунутим, ніж шаблон "Початок роботи". Він прогнозує шахрайство на трьох етапах обробки страхового вимоги.

  1. Вимога вже розглянуто.
  2. Вимога знаходиться на етапі обробки.
  3. Вимога тільки що надійшло.

У випадках 1 і 2 обробка вимог може виконуватися в пакетному режимі, а процес виявлення шахрайства може ініціюватися в рамках регулярного процесу звітності або відповідно до правил бізнесу. У разі 3 обробка вимог може здійснюватися в близькому до реального масштабі часу. Компонент "Перехоплювач вимог" перехоплює подане страхове вимога, ініціює процес виявлення шахрайства (при наявності ознак можливого шахрайства), а потім повідомляє зацікавлених осіб, зазначених в системі. Чим раніше виявлено шахрайство, тим нижче ступінь ризику і менше розміри збитку.

Малюнок 2. Шаблон рішення "Поглиблене осмислення бізнес-інформації"

На рис. 1 показані наступні істотні компоненти.

  • Сховище неструктурованих даних
  • Сховище структурованих даних
  • Перетворені структуровані дані
  • Попередньо оброблені неструктуровані дані
  • дозвіл сутностей
  • Механізм виявлення шахрайства
  • Бізнес-правила
  • Браузер великих даних
  • Сигнали та сповіщення для користувачів
  • перехоплювач вимог

У цьому шаблоні організація може при бажанні виконати попередню обробку неструктурованих даних перед їх аналізом.

Після отримання даних вони зберігаються "як є" в сховище неструктурованих даних. Потім ці дані піддаються попередній обробці з метою перетворення в формат, який підходить для шару аналізу. У деяких випадках попередня обробка може виявитися складним і трудомістким завданням. Для аналізу текстів можна застосовувати методи на основі машинного навчання, а для обробки зображень вельми корисним може опинитися серед Hadoop Image Processing Framework. Найчастіше застосовуються технології на основі JSON. Піддані попередній обробці дані зберігаються в сховищі структурованих даних (наприклад, HBase).

Базовим компонентом розглянутого шаблону є механізм виявлення шахрайства, який за допомогою засобів вдосконаленого аналізу здійснює прогнозування шахрайства. Чітко визначені і часто оновлювані ознаки шахрайства допомагають виявляти спроби шахрайства. Шаблон дозволяє використовувати перераховані нижче ознаки для виявлення шахрайства та застосовувати відповідні технології для реалізації систем протидії шахрайству. Розглянемо перелік типових ознак шахрайства.

  • Пред'явлення страхових вимог незабаром після початку дії поліса.
  • Серйозні прорахунки страховика при обробці страхового вимоги.
  • Наполегливе прагнення застрахованої особи до швидкого врегулювання ситуації.
  • Готовність застрахованої сторони прийняти невелику компенсацію замість документування шкоди в повному обсязі.
  • Сумніви в достовірності документів.
  • Наявність у застрахованої особи прострочених виплат по кредиту.
  • Відсутність видимих ​​ознак отриманого збитку.
  • Невідповідність вимоги з високим рівнем компенсації жодному з відомих нещасних випадків.
  • Наявність певних взаємозв'язків всередині сукупностей залучених осіб, включаючи власників полісів, медичні установи, агентів, постачальників і партнерів.
  • Наявність зв'язків між ліцензованими і неліцензованому медичними працівниками.

Одних лише традиційних методів недостатньо для прогнозування шахрайства. Необхідно аналізувати соціальні мережі з метою виявлення зв'язків між ліцензованими і неліцензованому медичними працівниками, а також взаємозв'язків між власниками полісів, медичними установами, агентами, постачальниками і партнерами. Підтвердження справжності документів і визначення кредитного рейтингу фізичних осіб - це важкі завдання при використанні традиційних підходів.

У процесі аналізу пошук всіх перерахованих вище ознак може відбутися одночасно в величезному масиві даних. Кожна ознака піддається зважуванню. Загальна вага всіх ознак вказує на ступінь достовірності і серйозності передбачуваного шахрайства.

Після завершення аналізу можуть бути згенеровані попередження і повідомлення для відправки відповідним зацікавленим особам, а також звіти для демонстрації результатів аналізу.

Цей шаблон добре підходить підприємствам, яким потрібно виконувати поглиблений аналіз з залученням великих даних. Він передбачає виконання складної попередньої обробки, що дозволяє зберігати дані у формі, що забезпечує можливість подальшого аналізу із залученням таких просунутих методів, як виділення ознак, дозвіл сутностей, аналіз тексту, шинний навчання і попереджуючий аналіз. Цей шаблон не передбачає виконання будь-яких дій або вироблення рекомендацій за результатами аналізу.

Шаблон рішення: Виконання подальших дій

Як правило, прогнози щодо можливого шахрайства, отримані за допомогою шаблону рішення "Поглиблене осмислення бізнес-інформації", обумовлюють необхідність виконання певних дій, таких як відхилення страхового вимоги або припинення його обробки аж до отримання додаткових роз'яснень і відомостей або передача такого вимоги до суду. В даному шаблоні для кожного результату прогнозування задаються відповідні дії. Ці дії зведені в таблицю під назвою матриця рішень щодо дій.

Малюнок 3. Шаблон рішення "Виконання подальших дій"

На рис. 3 показані наступні примітні компоненти.

  • Сховище неструктурованих даних
  • Сховище структурованих даних
  • Перетворені структуровані дані
  • Попередньо оброблені неструктуровані дані
  • дозвіл сутностей
  • Механізм виявлення шахрайства
  • Бізнес-правила
  • матриця рішень
  • Інструменти для дослідження даних
  • Сигнали та сповіщення для користувачів
  • перехоплювач вимог
  • Зміни та повідомлення для інших систем і компонентів бізнес-процесів

Як правило, можуть бути виконані дії наступних трьох різновидів.

  • Зацікавленім особам відправляються ПОВІДОМЛЕННЯ для Виконання необхідніх Дій - например, корістувачеві повідомляється про доцільність юридичних Дій по відношенню до заявника.
  • Система сообщает користувача, а потім чекає від него ВІДПОВІДІ, дере чем сделать подальші Дії. Система може чекати реакції користувача на повідомлення або зупинити або призупинити транзакцію по обробці страхової вимоги.
  • У сценаріях, що не потребують втручання людини, система може автоматично здійснювати необхідні дії. Наприклад, система може ініціювати зупинку процесу обробки страхового вимоги і проінформувати юридичний підрозділ про заявника, агента і оцінювача.

Цей шаблон добре підходить підприємствам, яким потрібно виконувати розширений аналіз із залученням великих даних. Шаблон використовує вдосконалені можливості для виявлення шахрайства, для повідомлення і попередження відповідних зацікавлених осіб, а також для ініціювання автоматичних процесів щодо виконання необхідних дій на основі результатів обробки.

Продукти харчування й технології, що утворюють каркас рішення для роботи з великими даними

На таку схему показано відповідність між програмними продуктами для роботи з великими даними і різними компонентами логічної архітектури, описаної в третій статті даного циклу. Це не єдині продукти, технології та рішення, які можна використовувати в рішенні для роботи з великими даними; остаточний набір підлягають розгортання інструментів визначається конкретними потребами замовника і особливостями його середовища.

На рис. 4 показані рішення IBM для роботи з великими даними - IBM PureData ™ System for Hadoop і IBM PureData System for Analytics - з охопленням відповідних логічних шарів. Ці рішення мають такі можливості, як вбудовані засоби візуалізації, вбудовані аналітичні акселератори і єдина системна консоль. Застосування таких рішень дає безліч переваг (за додатковою інформацією про рішення IBM PureData System for Hadoop зверніться до розділу ресурси ).

Малюнок 4. Продукти та технології на тлі шарів логічної архітектури

Переваги застосування аналітики великих даних для виявлення шахрайства

Застосування аналітики великих даних для виявлення шахрайства має цілий ряд переваг в порівнянні з традиційними підходами. Це дозволяє страховим компаніям створювати системи, що охоплюють всі релевантні джерела даних. Всеосяжна система допомагає виявляти нетипові випадки шахрайства. Такі методи, як прогнозуюче моделювання, ретельно аналізують випадки шахрайства, відфільтровують очевидні випадки і направляють рідко зустрічаються випадки шахрайства на подальший аналіз.

Крім того, рішення для роботи з великими даними може бути корисно при формуванні глобального підходу до протидії шахрайству в масштабі всього підприємства. Такий підхід покращує виявлення шахрайства за рахунок зв'язування відповідної інформації всередині організації. Шахрайство може відбуватися в декількох вихідних точках: обробка вимог, викуп страховки, сплата страхових внесків, звернення за новим полісом, шахрайство, пов'язане з співробітниками або зі сторонніми особами. Об'єднання даних з різних джерел покращує прогнозування.

Технології аналізу дозволяють організації витягувати важливу інформацію з неструктурованих даних. У сховищах даних зберігається величезна кількість структурованої інформації, однак значна частина важливої ​​інформації про шахрайство укладена в неструктурованих даних, таких як звіти сторонніх організацій, які рідко піддаються аналізу. У більшості страхових компаній дані соціальних медіа не зберігаються або не аналізуються належним чином.

Висновок

На прикладі бізнес-сценаріїв для варіанту використання "Виявлення шахрайства в сфері медичного страхування" в статті описуються шаблони рішень різного рівня складності. Найпростіший шаблон реалізує збереження даних з різних джерел і проведення певного початкового дослідження. Найскладніший шаблон реалізує осмислення даних і виконання дій на основі результатів аналізу.

Кожному бізнес-сценарію відповідають певні атомарні і складові шаблони, які утворюють загальний шаблон рішення. Архітектори і проектувальники можуть застосувати цей шаблон рішення для формування високорівневою структури і функціональних компонентів належного вирішення для роботи з великими даними.

Ресурси для скачування

Схожі тими

  • Оригінал статті: Big data architecture and patterns, Part 5: Apply a solution pattern to your big data problem and choose the products to implement it .
  • Архітектура і шаблони великих даних. Частина 1. Введення в класифікацію і архітектуру великих даних - в цій статті описуються ключові концепції побудови архітектури рішення для роботи з великими даними
  • Архітектура і шаблони великих даних: Частина 2. Як дізнатися, яке рішення для роботи з великими даними підходить вашій організації - в статті розглядаються питання, що дозволяють оцінити життєздатність рішення для роботи з великими даними ..
  • Архітектура і шаблони великих даних: Частина 3. Розуміння архітектурних шарів рішення для роботи з великими даними - в статті описуються компоненти рішення для роботи з великими даними, від джерела даних до інтелектуального бізнес-аналізу.
  • Архітектура і шаблони великих даних. Частина 4. Атомарні і складові шаблони, які використовуються в рішеннях для роботи з великими даними - в статті описуються базові шаблони, які застосовуються в конкретних ситуаціях.
  • Додаткова інформація про рішення IBM PureData System for Hadoop .
  • Using predictive analytics to improve decisionmaking and business outcomes (Застосування попереджувального аналізу для поліпшення прийняття рішень і підвищення результативності бізнесу), частина 1 и частина 2 . Пост в блозі на сайті Big Data Hub.
  • Advanced predictive analytics: Predicting the outcome (Вдосконалений попереджуючий аналіз: прогнозування результатів бізнесу). Пост в блозі на сайті Big Data Hub ..
  • Find out why you need social media analytics .
  • Авторський технічний огляд серії IBM RedbooksБ® під назвою Unlock big value in big data with analytics (Витяг великої користі з великих даних за допомогою аналітики) допоможе вам відкинути рекламну галас і усвідомити дійсну цінність великих даних.
  • відвідайте сайт Big Data & Analytics Hub і скористайтеся посиланнями на найпопулярніші матеріали, наприклад, про те, як постачальники медичних послуг використовують великі дані для соціального бізнесу.
  • прослухайте подкаст по застосуванню платформи IBM для роботи з великими даними при аналізі соціального сприйняття .
  • Розуміння різниці між поглибленим аналізом даних і статистичним моделюванням . Пост в блозі на сайті Big Data Hub.
  • Технічний огляд IBM Architecting a big data platform for analytics (Архітектура платформи для аналізу великих даних).
  • технічний огляд , Присвячений вибору стека технологій для роботи з великими даними в інтересах цифрового маркетингу.
  • документ Insurance fraud monitoring framework requirement (Вимоги до інфраструктури для моніторингу зловживань в секторі страхування), випущений організацією Insurance Regulatory and Development Authority (Регуляторний відомство Індії зі страхування), є обов'язковим для всіх страхових компаній Індії.
  • Ознайомтеся з документом The management of leakages and frauds in general insurance claims (Протидія розкриттю конфіденційної інформації та шахрайства в області загального страхування).
  • Ресурси, які допоможуть вам розпочати роботу з InfoSphere BigInsights - аналітичною платформою, заснованої на програмному забезпеченні з відкритим кодом Hadoop і розширює його можливості такими функціями, як Big SQL, аналіз тексту і BigSheets.
  • завантажте продукт InfoSphere BigInsights Quick Start Edition , Який поставляється у вигляді нативного установчого пакета або VMware-образу.
  • Ресурси, які допоможуть вам розпочати роботу з InfoSphere Streams - високопродуктивної обчислювальної платформою, яка надає призначеним для користувача додатків можливість швидко приймати, аналізувати і зіставляти інформацію по мірі її надходження з тисяч джерел в реальному часі.
  • завантажте продукт InfoSphere Streams , Який поставляється у вигляді нативного установчого пакета або VMware-образу.

Підпішіть мене на ПОВІДОМЛЕННЯ до коментарів

Com/developerworks/library/?

Новости


 PHILIP LAURENCE   Pioneer   Антистресс   Аромалампы   Бизнес   Игры   Косметика   Оружие   Панно   Романтика   Спорт   Фен-Шуй   Фен-Шуй Аромалампы   Часы   ЭКСТРИМ   ЭМОЦИИ   Экскурсии   визитницы   подарки для деловых людей   фотоальбомы  
— сайт сделан на студии « Kontora #2 »
E-mail: [email protected]



  • Карта сайта