Нечеткая логика в экспертных системах. Апостериорная вероятность

Искомое нами преобразование можно описать следующим образом:
, где

P(x|z) - апостериорная вероятность (wiki);
P(z|x) - функция правдоподобия (зависит от данных, т.е. текущего изображения);
P(x) - априорная вероятность (не зависит от данных).
Фактически, проблему поиска лучшего разделения можно сформулировать таким образом:
(это формула и выражает MAP), или, что тоже самое
, где
E(x) - энергия изображения.
Рассмотрим каждую часть отдельно.

Функция правдоподобия
Данная функция при x = 0 или x = 1 показывает, относится ли текущий пиксель z к нужной нам области изображения. На рисунке справа можно это увидеть.
        Для улучшения результата нам необходимо найти максимум:

        В результате должно получиться следующее:
Априорная вероятность
Этот параметр позволяет учитывать и соседние пиксели при сегментации. Соединим текущий пиксель с его соседями по вертикали и горизонтали. Тогда:
, где

- функция разделения;

- «Ising prior» (априорная вероятность Изинга, по подсказке yuriv).
При этом всем

Апостериорная вероятность
При определении данного слагаемого воспользуемся распределением Гиббса (wiki):
, где

Энергия изображения, где первое слагаемое - значение энергии текущего пикселя самого по себе, а второе - суммарное значение с соседом; w - некий вес, значение которого определяется экспериментально;

Функция правдоподобия;

Априорная вероятность.
Фух, осталось совсем чуть-чуть, самое главное.

Минимизация энергии

Как мы установили в самом начале, минимум энергии соответствует MAP. В этом случае:

(искомый минимум энергии)

Результаты

«Что это было и, главное, ЗАЧЕМ?!», спросит читатель. Вот что в итоге может получиться, с указанием разных значений веса w:

Выводы

Особая прелесть данного метода заключается в том, что формулы энергии мы можем задавать любые. Например, можно добиться выделения на изображении исключительно прямых линий, точек пересечения определенного числа прямых/кривых и многое другое. Кстати, любой счастливый обладатель MS Office 2010 может пощупать описанную технологию. Достаточно использовать инструмент Background Removal.
        Спасибо за внимание!
Уголок копирайтера
Все использованные изображения взяты из работ Carsten Rother. Формулы построены при помощи онлайн

Игнорирование априорной вероятности (base rate neglect), или как ее еще называют, ошибка априорной вероятности (base rate fallacy) - это когнитивное искажение (cognitive bias), приводящее к ошибкам в оценке вероятности, в частности, вероятности того, является ли человек носителем того или иного свойства или относится ли он к той или иной категории.

Нужно сказать, что английские слова «base rate» обозначают не априорную вероятность, а распространенность явления, качества (например, заболевания), в генеральной совокупности. Априорная же вероятность обозначается в английском языке термином «prior probability». Но в случае рассматриваемого когнитивного искажения понятия «base rate» и «prior probability» синонимичны.

А теперь давайте сразу перейдем к конкретике, решив следующую задачу.

В племени Мумба-Юмба 1% его членов имеют редкую наследственную болезнь, назовем ее «белемнит».

У Вас есть прибор, который в 80% случаев обнаруживает белемнит у больного, но в 10% случаев обнаруживает белемнит у здорового.

Вы обследовали человека, и прибор показал, что у него белемнит.

Какова вероятность того, что у этого человека на самом деле белемнит.

Если Вы ответили 80%, то это не удивительно: большинство участников экспериментов на игнорирование априорной вероятности отвечают также. Причем такая ситуация наблюдается не только в экспериментах, но и в реальной жизни, в частности, у реальных практикующих врачей.

Но дело в том, что ответ 80% - неверный, он как раз и демонстрирует игнорирование априорной вероятности. Так что давайте разбираться.

Допустим, в племени белемнитов всего 1000 человек. Получается, что больных белемнитом - 10 человек (1% от 1000). Из этих 10 прибор обнаружит белемнит у 8 человек (80% от 10). Но проблема в том, что он обнаружит белемнит и у здоровых людей, т.е. у 10% из 990. Но 10% от 990 - это 99 человек. Получается, что из 107 человек (99+8), которым прибор поставил диагноз «белемнит», эта болезнь реально есть только у 8. Это означает, что вероятность того, что у Вашего подопытного, действительно, белемнит, составляет 8/107*100% = 7,47%. Это намного меньше, чем 80%, правда же?

(Приведенное решение является упрощенным и иллюстративным).

Рассмотрим эту же ситуацию с помощью кругов Эйлера (диаграмм Венна).

На рисунке большая окружность - это все племя Мумба-Юмба, а маленькая окружность - это члены племени, больные белемнитом.

А теперь мы проводим еще одну окружность, показывающую, какой части членов племени прибор поставил диагноз «белемнит».

Давайте рассмотрим детальнее получившиеся области, выделив их разными цветами.

  • зеленая область - это больные, у которых болезнь есть, и она выявлена;
  • фиолетовая область - это больные, у которых болезнь есть, но не выявлена (ложноотрицательный ответ);
  • красная область - это здоровые люди, у которых болезнь выявлена ошибочно (ложноположительный ответ).

Этот пример не просто выдуман, он отражает реальную ситуацию с медицинскими диагнозами. Например, при использовании маммографии врачи игнорируют априорную вероятность рака груди у женщин и ориентируются только на показатели маммографа. На самом деле, таких примеров множество, а игнорирование априорной вероятности присуще врачам не в меньшей степени, чем всем людям.

Необходимо подчеркнуть, что игнорирование априорной вероятности наблюдается не только в ситуациях приборной диагностики. Так, например, на мой взгляд, многие случаи обнаружения человеком у себя редких и экзотических болезней объясняются игнорированием априорной вероятности: человек читает описания симптомов, находит их у себя, но не учитывает, что болезнь слишком редка, чтобы ей заболеть.

Со мной произошел подобный случай, когда я был подростком. Тогда я прочитал какую-то народную медицинскую энциклопедию и по симптомам обнаружил у себя трахому (мне показалось, что мои ресницы растут неровно, выпадают, кроме того на склере одного из глаз у меня было некое новообразование). Лекарством от трахомы, которое описывалось в этой энциклопедии, было промывание глаз лимонным соком. К счастью, я успел покапать в глаза лимонный сок (это, кстати, очень неприятная процедура!) всего несколько раз до того, как на приеме окулиста услышал ключевую вещь: трахома на территории РФ давно побеждена (еще в советское время), т.е. априорная вероятность заболеть трахомой составляет 0%.

(Отдельное спасибо издателям, распространяющим книги о здоровье с глубоко устаревшей информацией…).

Игнорирование априорной вероятности проявляется, конечно, не только в связи с вопросами медицины и здоровья. Так, наши суждения о людях тоже оказываются неверными из-за игнорирования априорной вероятности. Например, для бабушек, сидящих у подъезда, любая накрашенная девушка в короткой юбке относится к категории девушек легкого поведения. Можно предположить, что суждения бабушек неверны, поскольку по-настоящему легким является поведение только подавляющего меньшинства девушек (мы можем обоснованно это предположить, хотя бы исходя из того, что накраситься и надеть короткую юбку гораздо проще, чем на самом деле вести себя легко).

Поэтому прежде чем относить человека к той или иной категории или приписывать ему то или иное качество, нужно выяснить, насколько широко распространена эта категория и насколько часто встречается это качество.

Конечно, часто проблема состоит в том, что мы не обладаем достоверной информацией об априорной вероятности. Но это, как говориться, уже совсем другая история…

И в заключение хочу отметить, что внимательный читатель должен был обнаружить определенную связь между таким когнитивным искажением как игнорирование априорной вероятности и таким искажением как ошибка конъюнкции (cunjunction fallacy). И это не удивительно: оба этих искажения порождаются эвристикой репрезентативности и даже относятся к одной и той же категории когнитивных искажений - к так называемому игнорированию распространенности (extension neglect).

Думай медленно… решай быстро / Даниэль Канеман. - Москва: АСТ, 2014. - 653 с.

I.Условные вероятности. Априорная и апостериорная вероятность. 3

II.Независимые события. 5

III.Проверка статистических гипотез. Статистическая достоверность. 7

IV.Использование критерия «хи-квадрат» 19

1.Определение достоверности отличия набора частот от набора вероятностей. 19

2.Определение достоверности отличия нескольких наборов частот. 26

VСАМОСТОЯТЕЛЬНОЕ ЗАДАНИЕ 33

Занятие №2

  1. Условные вероятности. Априорная и апостериорная вероятность.

Случайная величина задается тремя объектами: множеством элементарных событий, множеством событий и вероятностью событий. Те значения,которые может принимать случайная величина, называютсяэлементарными событиями. Наборы элементарных событий называютсясобытиями . Для числовых и других не очень сложных случайных величин любой конкретно заданный набор элементарных событий есть событие.

Приведем пример: бросание игральной кости.

Всего имеется 6 элементарных событий: «очко», «2 очка», «3 очка»… «6 очков». Событие – любой набор элементарных событий, например «чет» -сумма элементарных событий «2 очка», «4 очка» и «6 очков».

Вероятность любого элементарного события P(A) равна 1/6:

вероятность события – количеству входящих в него элементарных событий, деленному на 6.

Достаточно часто в добавление к известной вероятности события имеется некоторая дополнительная информация, которая меняет эту вероятность. Например, летальность больных. поступивших в больницу с острой кровоточащей язвой желудка, составляет около 10%. Однако, если больному больше 80 лет, эта летальность составляет 30%.

Для описания таких ситуаций были введены так называемые условные вероятности . Они обозначаются, какP(A/B) и читаются «вероятность события А при условии события В». Для вычисления условной вероятности используется формула:

Вернемся к предыдущему примеру:

Пусть среди больных, поступивших в больницу с острой кровоточащей язвой желудка 20% - больные старше 80 лет. Причем, среди всех больных доля умерших больных старше 80 лет – 6%(напомним, что доля всех умерших составляет 10%). В этом случае

При определении условных вероятностей часто пользуются терминами априорной (буквально – до опыта) иапостериорной (буквально – после опыта) вероятности.

Пользуясь условными вероятностями, можно по одним вероятностям вычислить другие, например, менять местами событие и условие.

Рассмотрим эту технику на примере анализа связи риска заболевания ревматизма (ревматической лихорадкой) и одного из антигенов, являющихся для него фактором риска.

Частота заболевания ревматизмом – около 1%. Обозначим наличие ревматизма как R + , тогда какP(R +)=0,01.

Наличие антигена будем обозначать, как А + . Его находят у 95% больных ревматизмом и у 6% лиц, ревматизмом не болеющих. В наших обозначениях это: условные вероятности Р(А + /R +)=0,95 и Р(А + /R -)=0,06.

На основании этих трех вероятностей будем последовательно определять другие вероятности.

Прежде всего, если заболеваемость ревматизмом P(R +)=0,01, то вероятность не заболетьP(R -)=1-P(R +)=0,99.

Из формулы для условной вероятности находим, что

Р(А + иR +)= Р(А + /R +) * Р(R +) = 0,95*0,01 = 0,0095, или 0,95% популяции одновременно и болеют ревматизмом и имеют антиген.

Аналогично

Р(А + иR -)= Р(А + /R -) * Р(R -) = 0,06*0,99 = 0,0594, или 5,94% популяции носят антиген, но ревматизмом не болеют.

Так как все имеющие антиген или болеют ревматизмом или и не болеют (но не одновременно и то и другое), то сумма двух последних вероятностей дает частоту носительства антигена в популяции в целом:

Р(А +)= Р(А + иR +) + Р(А + иR -) = 0,0095 + 0,0594 = 0,0689

Соответственно, доля людей, не имеющих антиген равна

Р(А -)=1- Р(А +) = 0,9311

Так как заболеваемость ревматизмом равна 1%, а доля лиц, имеющих антиген и болеющих ревматизмом, равна 0,95%, то доля лиц, болеющих ревматизмом и не имеющих антигена равна:

Р(А - иR +) = Р(R +) - Р(А + иR +) = 0,01 – 0,0095 = 0,0005

Теперь будем двигаться в обратную сторону, переходя от вероятностей событий и их комбинаций к условным вероятностям. По исходной формуле условной вероятности Р(А + /R +)= Р(R + иA +)/ Р(А +) = 0,0095/0,06890,1379 , или примерно 13,8% лиц, носящих антиген, заболеют ревматизмом. Так как заболеваемость популяции в целом лишь 1%, то факт выявления антигена повышает вероятность заболевания ревматизмом в 14 раз.

Аналогичным образом Р(R + /А -)=Р(R + иA -)/ Р(А -) = 0,0005/0,93110,000054, то есть тот факт, что при проверке антигена не обнаружено, снижает вероятность заболевания ревматизмом в 19 раз.

Оформим эту задачу в электронной таблице Excel:

Наличие ревматизма R+

Наличие антигена у болеющих А+

Наличие антигена у неболеющих А+

Вероятность не заболеть

P(R -)=1- P(R +)

Одновременно и болеют ревматизмом и имеют антиген

Р(А + и R +)= Р(А + /R +) * Р(R +)

Носят антиген, но ревматизмом не болеют

Р(А + и R -)= Р(А + /R -) * Р(R -)

Частота носительства антигена в популяции в целом

Р(А +)= Р(А + и R +) + Р(А + и R -)

Доля людей не имеющих антиген

Р(А -)=1- Р(А +)

Доля людей, болеющих ревматизмом и не имеющих антигена

Р(А - и R +) = Р(R +) - Р(А + и R +)

Лица, носящие антиген, заболеют ревматизмом

Р(А + /R +)= Р(R + и A +)/ Р(А +)

Лица,не носящие антиген, не заболеют ревматизмом

Р(R + /А -)=Р(R + и A -)/ Р(А -)

Можно посмотреть процесс построения таблицы картинки2\p2-1.gif

Рассуждение, опирающееся исключительно на точные факты и точные выводы, исходящие из этих фактов, называются строгими соображениями. В случаях, когда для принятия решений необходимо использовать неопределенные факты, строгие рассуждения становятся непригодными. Поэтому, одной из сильнейших сторон любой экспертной системы считается ее способность формировать рассуждения в условиях неопределенности так же успешно, как это делают эксперты-люди. Такие рассуждения имеют характер нестрогих. Можно смело говорить о присутствии нечеткой логики .

Неопределенность , а в следствии и нечеткая логика может рассматриваться как недостаточность адекватной информации для принятия решения. Неопределенность становится проблемой, поскольку может препятствовать созданию наилучшего решения и даже стать причиной того, что будет найдено некачественное решение. Следует отметить, что качественное решение, найденное в реальном времени, часто считается более приемлемым, чем лучшее решение, для вычисления которого требуется большое количество времени. Например, задержка в предоставлении лечения с целью проведения дополнительных анализов может привести к тому, что пациент умрет не дождавшись помощи.

Причиной неопределенности является наличие в информации различных ошибок. Упрощенная классификация этих ошибок может быть представлена ​​в их разделении на следующие типы:

  • неоднозначность информации, возникновение которой связано с тем, что некоторая информация может интерпретироваться различными способами;
  • неполнота информации, связанной с отсутствием некоторых данных;
  • неадекватность информации, обусловленная применением данных, не соответствуют реальной ситуации (возможными причинами являются субъективные ошибки: ложь, дезинформация, неисправность оборудования);
  • погрешности измерения, которые возникают из-за несоблюдения требований правильности и точности критериев количественного представления данных;
  • случайные ошибки, проявлением которых являются случайные колебания данных относительно среднего их значения (причиной могут быть: ненадежность оборудовании, броуновское движение, тепловые эффекты и т.д.).

На сегодня разработана значительное количество теорий неопределенности, в которых делается попытка устранения некоторых или даже всех ошибок и обеспечения надежного логического вывода в условиях неопределенности. К наиболее употребляемых на практике относятся теории, основанные на классическом определении вероятности и на апостериорной вероятности.

Одним из старейших и важнейших инструментальных средств решения задач искусственного интеллекта является вероятность. Вероятность — это количественный способ учета неопределенности. Классическая вероятность берет начало из теории, которая была впервые предложена Паскалем и Ферма в 1654 году. С тех пор была проведена большая работа в области изучения вероятности и осуществлении многочисленные применения вероятности в науке, технике, бизнесе, экономике и других областях.

Классическая вероятность

Классическую вероятность называют также априорной вероятностью, поскольку ее определение относится к идеальным систем. Термин «априорная» обозначает вероятность, что определяется «к событиям», без учета многих факторов, имеющих место в реальном мире. Понятие априорной вероятности распространяется на события, происходящие в идеальных системах, склонных к износу или влияния других систем. В идеальной системе появление любого из событий происходит одинаково, благодаря чему их анализ становится намного проще.

Фундаментальная формула классической вероятности (Р) определена следующим образом:

В этой формуле W — количество ожидаемых событий, а N общее количество событий с равными вероятностями, которые являются возможными результатами эксперимента или испытания. Например, вероятность выпадения любой грани шестигранной игральной кости равна 1/6, а извлечение любой карты из колоды, содержащей 52 различные карты — 1/52.

Аксиомы теории вероятности

Формальная теория вероятности может быть создана на основе трех аксиом:

Приведенные аксиомы позволили заложить фундамент теории вероятности, однако в них не рассматривается вероятность событий, происходящих в реальных — неидеальных системах. В отличие от априорного подхода, в реальных системах, для определения вероятности некоторого события Р(Е) , применяется способ определения экспериментальной вероятности как лимита распределения частот:

Апостериорная вероятность

В этой формуле f(E) обозначает частоту появления некоторого события между N -го количества наблюдений общих результатов. Вероятность такого типа называется также апостериорной вероятностью , т.е. вероятностью, определяемой «после событий». В основу определения апостериорной вероятности положено измерение частоты, с которой возникает некоторое событие при проведении большого количества испытаний. Например, определение социального типа кредитоспособного клиента банка на основе эмпирического опыта.

События, которые не относятся к взаимоисключающих, могут влиять друг на друга. Такие события относятся к классу сложных. Вероятность сложных событий может быть вычислена путем анализа соответствующих им выборочных пространств. Эти выборочные пространства могут быть представлены с помощью диаграмм Венна, как показано на рис. 1

Рис.1 Выборочное пространство для двух не взаимоисключающих событий

Вероятность наступления события А, которая определяется с учетом того, что произошло событие В, называется условной вероятностью и обозначается Р(А|В) . Условная вероятность определяется следующим образом:

Априорная вероятность

В этой формуле вероятность Р(В) не должна равняться нулю, и представляет собой априорную вероятность, что определяется до того, как станет известна другая дополнительная информация. Априорную вероятность , что применяется в связи с использованием условной вероятности, иногда называют абсолютной вероятностью.

Существует задача, которая является по сути противоположной задачи вычисления условной вероятности. Она заключается в определении обратной вероятности, которая показывает вероятность предыдущей события с учетом тех событий, которые произошли в дальнейшем. На практике с вероятностью такого типа приходится встречаться довольно часто, например, при проведении медицинской диагностики или диагностики оборудования, при которой выявляются определенные симптомы, а задача состоит в том, чтобы найти возможную причину.

Для решения этой задачи применяется теорема Байеса , названная в честь британского математика XVIII века Томаса Байеса. Байесивськая теория, в наши дни, широко используется для анализа деревьев решений в экономике и общественных науках. Метод байесовского поиска решений применяется также в экспертной системе PROSPECTOR при определении перспективных площадок для разведки полезных ископаемых. Система PROSPECTOR приобрела широкую популярность как первая экспертная система, с помощью которой был открыт ценное месторождение молибдена, что стоимость 100 миллионов долларов.

Общая форма теоремы Байеса может быть записана в терминах событий (Е) и гипотез (Н), в следующем виде:

Субъективная вероятность

При определении вероятности события применяется также еще один тип вероятности, который называется субъективной вероятностью. Понятие субъективной вероятности распространяются на события, которые не являются воспроизводимыми, и не имеют исторической основы, с помощью которой можно было бы осуществлять экстраполяцию. Такую ситуацию можно сравнить с бурением нефтяной скважины на новой площадке. Однако оценка субъективной вероятности, сделанная экспертом, лучшая, по сравнению с полным отсутствием оценки.

1)Выборка вероятностей всех симптомов для предполагаемых заболеваний. Если заболеваний три (D1,D2,D3), то должно появиться три группы чисел:

P(S 2 /D 1) P(S 2 /D 2) P(S 2 /D 3)

P(S 7 /D 1) P(S 7 /D 2) P(S 7 /D 3)

P(S 9 /D 1) P(S 9 /D 2) P(S 9 /D 3)

Если симптомов много и много возможных диагнозов, что и бывает на практике, то один этот этап выборки осуществить без привлечения ЭВМ принципиально невозможно, что и сделало данный метод возможным лишь с использованием компьютерных технологий.

2)Вычисление условной вероятности симптомокомплекса P(S сi /D j). Вычисляют по формуле, известной из теории вероятностей. Условная вероятность симптомокомплекса представляет собой произведение вероятностей симптомов данного симптомокомплекса при данном диагнозе. Например, для симптомокомплекса из n симптомов для некоторого диагноза J:

P(S ci /Dj)= P(S 1 /D j)*P(S 2 /D j) * ... * P(S n /D j) (1)

Количество получаемых таки образом условных вероятностей равно количеству рассматриваемых в системе диагнозов (т.е. числу столбцов таблицы).

Определение априорной вероятности заболевания.

Априорной вероятностью некоторого диагноза (Dj) называют эмпирическую частоту наблюдения данного заболевания в некоторых конкретных условиях. Априорная вероятность обозначается P(D j) .Она характеризует распределение болезней в данной группе населения. Такой группой может быть контингент данной больницы, данного района, данного города. Априорной (доопытной) она называется потому, что уже известна до получения симптомокомплекса, т.е. к ней новый больной никакого отношения не имеет. Смысл введения в диагностику величины P(D j) состоит в том, что она непостоянна и зависит от географических, сезонных, эпидемиологических и других факторов, которые должны быть учтены при постановке диагноза. Например, в какой-либо больнице наугад было выбрано 100 человек, 70 из них оказались больны гриппом. Значит, вероятность заболевания гриппом у всех пациентов в данной больнице будет равна 70/100=0,7, когда эпидемия гриппа будет ликвидирована, естественно и P(D j) для гриппа в этой больнице будет другой. Величина априорной вероятности диагноза является одной из величин, которая в процессе работы диагностической системы требует мониторинга и текущей коррекции.

Вычисление нормировочного коэффициента (Psc).

Нормировочный коэффициент представляет собой полную вероятность наличия симптомокомплекса при всех заболеваниях. Эта величина несет математический смысл, представляя собой полную сумму попарных произведений условных вероятностей симптомокомплекса для данного диагноза на априорную вероятность этого диагноза:

Psc = P(S сi /D 1) * p(D 1)+ P(S сi /D 2) * p(D 2)+ …+P(S сi /D n) * p(D n)


Полное количество слагаемых в данной сумме равно числу диагнозов, рассматриваемых в данной системе.

5)Вычисление вероятностей диагнозов при данном симптомокомплексе (P(D j /S ci)).

Данный этап являет предпоследним в схеме функционирования системы и основан на использовании теоремы Байеса (формула вероятности гипотез):

P(D j /S ci)=[ P(S сi /D j) x P(D j)] / [ P(Sc) ]

Количество вероятностей диагнозов равно числу диагнозов системы. Иными словами в результате данного этапа работы система вычисляет вероятность каждого из имеющихся диагнозов.

Постановка диагноза.

Этап является наиболее простым и основан на простом сравнении полученных на этапе (5) величин. Наибольшая величина и указывает на тот диагноз, который наиболее вероятен при данном симптомокомплексе. Теоретически возможны случаи, когда вероятность нескольких диагнозов равна. В этом случае необходимо говорить о том, что диагностическая таблица, использующаяся в системе недостаточно совершенна, чтобы “различить” эти диагнозы.