eric_artem (eric_artem) wrote,
eric_artem
eric_artem

Что такое скоринг, и почему он никогда не будет работать (как мы хотим)

Наверное, я скучный человек. Все рисковики скучные люди. Как и бухгалтера. Встречаются, конечно, отклонения, но на доверительном интервале (интервал, который покрывает неизвестный параметр с заданной надёжностью) в 80% они все такие.

И вот вы уже начали засыпать. Подождите, рано!
Я могу предсказать, собираетесь ли вы совершить преступление, и курс доллара на завтра! Я могу предсказать цены на нефть!

И вот вы снова со мной.
Очень многие играют такими словами, но не об этом сейчас. Мы замахнулись на куда более значимое с моей точки зрения – на оценку человека по определенным параметрам. Точнее – на оценку его кредитоспособности, но что вы подумаете о человеке, про которого скажут – у него низкий кредитный рейтинг?
Звучит почти как потеря доверия.
Считается, что существует корреляция между определенными социальными данными (наличие детей, курение, возраст, наличие высшего образования) и добросовестностью заемщика.
Т.е. дайте мне все исходные, и я смогу предсказать вам, вернет ли деньги конкретный человек. И так это и выглядит со стороны.
На самом деле (и я уже об этом писал в других изданиях) скоринговый балл позволяет предсказать как минимум со следующими допущениями: человек, живущий в той же местности, где проведена выборка (выборка = собраны данные о случаях невозврата и возврата других заемщиков), при получении суммы аналогичной выборке (а если в выборке разброс слишком сильный, принимать ее нельзя) с вероятностью в 85% (обычно так) вернет кредит в срок. Если нет – мы удивимся. Но поскольку В ОСНОВНОМ модель работает, мы и будем по ней оценивать.
Это база. Интереснее следующее (как любил Эйнштейн – без математики, мысленный эксперимент): предположим мы знаем всё о заемщике, даже исходное положение атомов в его теле. Предположим у нас есть другой такой же заемщик, который нам кредит вернул. Можем ли мы со 100% вероятностью сказать, что этот тоже вернет, если мы точно знаем как каждое положение атомов и параметры воздействуют на возвратность (мы закредитовали Содружество Вселенной, у нас есть данные о 10^15 заемщиков?
Совершенно верно!
Что верно? Вероятно можем. Но почему? Мы же все учли?
А вот оно как: существует принцип неопределённости Гейзенбе́рга, который, согласно скучной Википедии звучит так - чем точнее измеряется одна характеристика частицы, тем менее точно можно измерить вторую.
Сейчас объясню.
Чем точнее вы знаете скорость машины, на которой вы едете, тем менее точными становятся ваши координаты.
Ну а в случае с заемщиком, если принять его за точку на плоскости, очень такую жирную – возвратность станет таким расплывчатым пятном ВСЕГДА больше исходного состояния. И этого никак не изменить.
Поэтому идеального скоринга нет и не будет, хотя точность повышается с количеством принятых данных.
Но как-то оценивать надо, и мы принимаем все больше значений, хотя чем разрозненнее значения, тем больше стандартная ошибка. И в итоге больше половины времени занимает обработка данных, очистка, которая, в свою очередь, уменьшает точность прогноза отклоненных событий, и приводит ко всё большему удивлению в случае неудачи.

P.S.

А вообще проверяйте свои догадки Байесом.

Пример с Вики, чтобы было понятнее, о чем я:

Предположим, при рентгеновском обследовании вероятность обнаружить заболевание туберкулезом у больного туберкулезом равна 0,9, вероятность принять здорового человека за больного равна 0,01. Доля больных туберкулезом по отношению ко всему населению равна 0,001. Найти вероятность того, что человек здоров, если он был признан больным при обследовании.
P(«Б» | Б) = 0,9; Р(«Б» | З)= 0,01; Р(Б) = 0,001, значит P (З) = 0,999; Р(З | «Б») — ?
Вычислим сначала полную вероятность признания больным: 0,999 × 0,01 + 0,001 × 0,9 = 1,089 %.
Вероятность «здоров» при диагнозе «болен»: Р(З | «Б») = 0,999 × 0,01 / (0,999 × 0,01 + 0,001 × 0,9)= 91,7 %.
Таким образом, 91,7 % людей, у которых обследование показало результат «болен», на самом деле здоровые люди. Удивительный результат возникает по причине значительной разницы в долях больных туберкулёзом и здоровых. Туберкулез — редкое явление, поэтому и возникает такой парадокс Байеса.
Tags: artem, scoring, артем, байес, квант, квантовая неопределенность, парадоксы, риск менеджмент, риски, скоринг
Subscribe

Recent Posts from This Journal

promo eric_artem апрель 3, 16:11 35
Buy for 10 tokens
Добрый день уважаемые читатели! Подумал и решил сделать такое предложение: если очень хочется написать, и чтобы Вас почитали - я готов принять Ваши статьи и поместить у себя в блоге с указанием авторства. Зачем это Вам? Ну, у меня в неделю не менее 6 000 12…
  • Post a new comment

    Error

    default userpic

    Your IP address will be recorded 

  • 0 comments