Интеллектуальный анализ данных в деятельности кредитных организаций РФ: выявление региональных особенностей с помощью PCA, кластерного анализа и деревьев решений

Курсовая работа

В условиях стремительной цифровизации и растущей сложности финансового сектора, глубокое понимание региональных различий в деятельности кредитных организаций становится не просто желательным, а критически необходимым. Банковский ландшафт России представляет собой мозаику уникальных экономических, социальных и культурных особенностей, которые напрямую влияют на кредитную активность населения и организаций. Традиционные методы анализа, зачастую, оказываются неспособными уловить тонкие, но важные закономерности, скрытые в огромных массивах данных. Именно здесь на авансцену выходит интеллектуальный анализ данных, или Data Mining – мощный арсенал инструментов, способных извлекать из, казалось бы, хаотичной информации ценные знания.

Целью данной работы является проведение комплексного анализа деятельности кредитных организаций Российской Федерации с использованием методов Data Mining, таких как метод главных компонент (PCA), кластерный анализ и деревья решений. Мы стремимся не только выявить региональные особенности и закономерности взаимодействия населения с кредитными институтами, но и продемонстрировать интегрированный, пошаговый подход к применению этих методов. В рамках исследования будет последовательно рассмотрена теоретическая база Data Mining, методология подготовки данных, применение каждого из аналитических инструментов, а также сравнительная интерпретация полученных результатов для формулирования научно обоснованных и практически применимых рекомендаций.

Теоретические и методологические основы интеллектуального анализа данных в банковской сфере

Сущность и задачи Data Mining

Интеллектуальный анализ данных (Data Mining) представляет собой не просто технический процесс обработки информации, а целую философию познания, нацеленную на обнаружение в гигантских массивах данных скрытых, ранее неизвестных, но при этом практически полезных и интерпретируемых закономерностей, связей и шаблонов. Это знание, в свою очередь, становится фундаментом для принятия обоснованных решений в самых различных сферах человеческой деятельности. Data Mining не ограничивается поверхностным извлечением или анализом уже очевидных данных; его истинная цель — генерация нового, ценного знания из уже накопленного информационного объема, что существенно повышает стратегическую ценность любого информационного актива.

5 стр., 2475 слов

Финансово-экономический анализ деятельности ПАО «Росбанк» (2022–2024) ...

... 2022 по 2024 год. Цель работы состоит в проведении всестороннего финансово-экономического анализа деятельности ПАО «Росбанк» за 2022–2024 годы, оценке его соответствия обязательным нормативам ... Федерации (Банке России)». Ключевым элементом регулирования является статус Системно Значимой Кредитной Организации (СЗКО). Банки, отнесенные к СЗКО, обязаны соблюдать повышенные требования к достаточности ...

История этой технологии уходит корнями в середину XX века и развивалась она на пересечении нескольких ключевых дисциплин: статистики, которая предоставила аппарат для количественного анализа; теории информации, позволившей оценить ценность и избыточность данных; машинного обучения, предложившего алгоритмы для автоматического поиска паттернов; и теории баз данных, обеспечившей эффективное хранение и доступ к большим объемам информации. Такой междисциплинарный характер делает Data Mining универсальным инструментом, применимым для решения широкого круга задач.

Основные задачи, решаемые с помощью Data Mining, можно систематизировать следующим образом:

  • Классификация: Цель — отнести объект к одной из заранее определенных категорий на основе его характеристик. Алгоритмы обучаются на данных, где категории уже известны, а затем применяются для новых, неклассифицированных объектов.
  • Кластеризация: Эта задача, в отличие от классификации, не требует предварительной разметки данных. Она направлена на поиск естественных групп (кластеров) внутри набора данных, объединяя объекты с общими свойствами.
  • Ассоциация: Выявление закономерностей между связанными событиями, часто выражаемых в виде «если X, то Y». Например, «если клиент купил продукт A, то с большой вероятностью он купит продукт B».
  • Прогнозирование: Предсказание будущих значений или тенденций на основе анализа прошлых данных. Это может быть прогнозирование спроса, цен или поведенческих паттернов.
  • Анализ последовательностей: Изучение последовательности событий во времени для выявления определенных шаблонов.
  • Анализ отклонений (аномалий): Обнаружение объектов или событий, которые существенно отличаются от большинства и могут указывать на ошибки, мошенничество или необычные явления.

Процесс Data Mining — это не одномоментное действие, а многоэтапный итеративный цикл, который обычно включает следующие ключевые шаги:

  1. Понимание бизнес-целей: Четкое определение задач, которые необходимо решить, и ожидаемых результатов.
  2. Сбор, очистка, трансформация и интеграция данных (подготовка данных): Этот этап часто является самым трудоемким, так как данные могут быть неполными, зашумленными или находиться в разных форматах. Он включает удаление дубликатов, заполнение пропусков, приведение данных к единому виду и создание новых признаков.
  3. Разработка и построение модели: Выбор подходящих алгоритмов Data Mining и их применение к подготовленным данным.
  4. Валидация и оценка эффективности моделей: Проверка адекватности и точности построенных моделей на новых данных, оценка их способности к обобщению.
  5. Анализ результатов и оптимизация: Интерпретация полученных закономерностей, формулирование выводов и, при необходимости, корректировка модели или исходных данных.

Data Mining находит активное применение в самых разнообразных отраслях, от маркетинга и телекоммуникаций до здравоохранения и производства, помогая компаниям оптимизировать процессы, принимать более точные решения и получать конкурентные преимущества.

8 стр., 3697 слов

Оценка платежеспособности физических лиц в Сбербанке России: ...

... методика включает глубокий анализ внутренних данных клиента: Анализ расходов клиента по картам: Сбербанк разработал и запатентовал ( ... правильное понимание этих различий позволяет банку принимать взвешенные решения о выдаче займа. Понятие и сущность платежеспособности физических ... на международном опыте и использовании технологий Big Data и искусственного интеллекта (ИИ). Данная работа имеет ...

Применение Data Mining в банковском секторе

Банковский сектор по праву считается одним из пионеров и наиболее активных пользователей технологий интеллектуального анализа данных. Это обусловлено несколькими факторами: накоплением гигантских объемов клиентской, транзакционной и рыночной информации, ужесточением конкуренции на рынке финансовых услуг, а также постоянно растущими угрозами мошенничества и проблемами с невозвратом кредитов. В такой динамичной среде Data Mining становится не просто полезным инструментом, а жизненно важной частью стратегического развития кредитных организаций.

Одним из наиболее ярких примеров является выявление мошенничества. Традиционные методы борьбы с мошенничеством часто основываются на «красных флажках» — заранее определенных правилах, которые срабатывают уже после того, как мошенническая операция совершена. Data Mining позволяет перейти к проактивному подходу. Специализированные алгоритмы анализируют миллионы транзакций, выявляя аномальные шаблоны поведения, которые могут указывать на попытку мошенничества до того, как оно будет завершено. Это значительно сокращает потери банка и повышает безопасность клиентов, что является прямым следствием более глубокой аналитики.

Помимо борьбы с мошенничеством, банки активно используют Data Mining для решения широкого круга задач, среди которых:

  • Анализ кредитного риска: Это, пожалуй, одна из фундаментальных задач. Методы Data Mining, в частности, машинное обучение и деревья решений, являются неотъемлемой частью кредитного скоринга. Они позволяют оценивать кредитоспособность заемщиков, прогнозировать вероятность дефолта на основе их кредитной истории, демографических данных и поведенческих паттернов. Такой подход дает банкам возможность принимать более обоснованные решения, эффективно управлять рисками и избегать излишних потерь.
  • Привлечение и удержание клиентов: В условиях высокой конкуренции лояльность клиентов становится ключевым фактором успеха. Data Mining помогает банкам сегментировать клиентскую базу, выявлять наиболее ценные группы клиентов и разрабатывать персонализированные предложения. Исследования показывают, что повышение коэффициента удержания постоянных потребителей всего на 5% может привести к росту стоимости покупок, сделанных средним покупателем, на 25–100% в зависимости от отрасли. Банки могут прогнозировать отток клиентов (churn prediction) и предлагать «Next Best Offer» тем, кто находится на грани ухода, тем самым предотвращая потерю прибыли.
  • Прогнозирование изменений клиентуры и спроса: Data Mining позволяет банкам прогнозировать изменения в потребностях клиентов, например, какие банковские продукты будут востребованы в будущем, или как изменится остаток на счетах клиентов.
    12 стр., 5923 слов

    Аудит кредитных организаций и обжалование налоговых решений в ...

    ... законодательством Российской Федерации. Нормативно-правовое регулирование аудиторской деятельности кредитных организаций в РФ Регулирование аудиторской деятельности в России представляет ... мегарегулятор финансового рынка, устанавливает дополнительные, специфические требования к аудиту кредитных организаций. Это касается особенностей ведения бухгалтерского учета, формирования отчетности, ...

    Это помогает формировать ассортимент услуг и планировать ресурсы.

  • Обнаружение совокупностей приобретаемых банковских продуктов: Выявление взаимосвязей между различными продуктами позволяет банку создавать комплексные предложения, стимулируя перекрестные продажи (cross-selling) и дополнительные продажи (up-selling).
  • Управление портфелем ценных бумаг и оценка прибыльности инвестиционных проектов: Data Mining помогает анализировать рыночные тенденции, прогнозировать движение котировок и оценивать риски инвестиционных портфелей, что повышает эффективность инвестиционных решений.
  • Оценка интенсивности конкуренции и профилирование наилучших достижений: Анализ данных позволяет банкам понять положение на рынке, оценить сильные и слабые стороны конкурентов, а также выявить характеристики наиболее успешных регионов, филиалов или клиентских сегментов, чтобы затем распространить эти «правила успеха» на другие подразделения.

Примеры из практики российских банков подтверждают эффективность Data Mining. Так, один из крупных российских банков с базой в сотни тысяч клиентов успешно использовал ML-модели для обнаружения оттекающих клиентов на ранних стадиях, когда на их решение еще можно было повлиять, предложив индивидуальное «Next Best Offer». Деревья решений, в свою очередь, применяются для формирования скриптов общения с клиентами, что позволяет менеджерам предлагать наиболее релевантные продукты и услуги, повышая удовлетворенность клиентов и эффективность продаж. Таким образом, Data Mining становится не просто технологией, а ключевым стратегическим активом для современных кредитных организаций.

Выбор и подготовка данных для регионального анализа деятельности кредитных организаций

Источники данных и ключевые показатели

Для проведения глубокого и всестороннего регионального анализа деятельности кредитных организаций Российской Федерации, критически важным является доступ к достоверным, актуальным и репрезентативным данным. Основными источниками такой информации, несомненно, являются официальные статистические органы и регуляторы. В контексте России это, прежде всего, Центральный банк Российской Федерации (ЦБ РФ) и Федеральная служба государственной статистики (Росстат).

Банк России, являясь главным эмиссионным и денежно-кредитным регулятором страны, не только контролирует деятельность кредитных организаций, но и активно собирает, агрегирует и публикует обширные статистические данные о состоянии банковского сектора как в целом по стране, так и в разрезе отдельных регионов. На его официальном сайте можно найти информацию о:

  • Показателях деятельности кредитных организаций: Это включает данные о количестве действующих банков, их филиалов, объемах операций.
  • Процентных ставках: Детализированная информация по средневзвешенным процентным ставкам по кредитам и депозитам для физических и юридических лиц, что позволяет оценить ценовую политику банков в разных регионах.
  • Структуре кредитов и депозитов по срочности: Понимание того, на какие сроки выдаются кредиты и привлекаются депозиты, дает представление о ликвидности и стратегии управления активами и пассивами.
  • Показателях рынка жилищного (ипотечного) кредитования: Отдельный блок данных, который особенно важен, учитывая его значительное влияние на макроэкономические показатели и благосостояние населения.

Росстат, в свою очередь, предоставляет широкий спектр социально-экономических показателей по регионам, которые могут служить дополнительными факторами для анализа банковской деятельности. Это данные о доходах населения, уровне безработицы, инвестиционной активности, валовом региональном продукте (ВРП) и другие индикаторы, формирующие общий экономический фон региона.

Для целей интеллектуального анализа данных, направленного на выявление региональных различий, нами были выбраны следующие ключевые показатели деятельности кредитных организаций:

  1. Объем привлеченных вкладов (депозитов) физических и юридических лиц: Этот показатель отражает доверие населения и бизнеса к банковской системе региона, а также наличие свободных денежных средств, которые могут быть направлены на инвестиции или кредитование.
  2. Объем выпущенных сберегательных сертификатов, облигаций и векселей: Дополнительные инструменты привлечения средств, характеризующие диверсификацию пассивной базы банков в регионе.
  3. Величина активов кредитных организаций: Общий размер активов является индикатором масштаба деятельности банковского сектора в регионе.
  4. Собственные средства (капитал) кредитных организаций: Показатель финансовой устойчивости и надежности банков, отражающий их способность покрывать возможные убытки.
  5. Объемы кредитов, выданных физическим лицам (потребительские, ипотечные, автокредиты): Индикатор кредитной активности населения, отражающий его платежеспособность и потребительские предпочтения.
  6. Объемы кредитов, выданных юридическим лицам (малому, среднему, крупному бизнесу): Показатель, характеризующий активность кредитования реального сектора экономики региона.
  7. Показатели кредитного риска по операциям с физическими лицами: Включают объемы просроченной задолженности, долю проблемных кредитов, что критически важно для оценки финансового здоровья региона.
  8. Объемы задолженности населения: Общий объем долгов граждан перед банками, который в совокупности с доходами формирует картину финансовой нагрузки.
  9. Средневзвешенные процентные ставки по кредитам и депозитам: Отвечают за стоимость привлечения и размещения денежных средств, влияя на маржу банков и доступность кредитов.

Эти показатели, собранные в региональном разрезе за релевантный период (например, последние 3-5 лет), формируют массив данных для последующего анализа методами Data Mining.

Региональные особенности закредитованности и их учет

Анализ региональных особенностей немыслим без глубокого погружения в тему закредитованности населения, которая является одним из наиболее чувствительных индикаторов финансового благополучия и поведения жителей. Ситуация с закредитованностью в России демонстрирует значительные вариации от региона к региону, что делает ее изучение особенно ценным для выявления уникальных закономерностей.

По данным Банка России, в 2024 году наблюдался рост закредитованности населения в ряде субъектов РФ. В частности, тревожные тенденции были отмечены в Астраханской области, Крыму и Туве. При этом Республика Тува уже третий год подряд лидирует по уровню финансовой нагрузки заемщиков, достигнув в 2024 году впечатляющего показателя в 31,7%. Это означает, что почти треть среднемесячного дохода заемщика уходит на погашение кредитов. Для сравнения, среднее значение закредитованности по всем раскрытым регионам России в 2024 году составило 13,9%.

Помимо Тувы, высокий уровень долговой нагрузки также был зафиксирован в:

  • Калмыкии (22,3%)
  • Карачаево-Черкесии (18,9%)
  • Ленинградской области (18,8%)

С другой стороны, существуют регионы с существенно более низким уровнем закредитованности, что может свидетельствовать о более консервативном подходе к заимствованиям, более высоких доходах, или о меньшей доступности кредитных продуктов. К таким регионам относятся:

  • Кабардино-Балкария
  • Камчатка
  • Сахалин
  • Дагестан
  • Чечня

В этих субъектах РФ уровень закредитованности колеблется в диапазоне от 10 до 10,5%.

Методика расчета закредитованности, используемая Центральным банком Российской Федерации, является ключевым элементом для понимания этих данных. Она определяется как соотношение средней задолженности на одного заемщика в регионе на начало года к среднемесячному доходу в этом субъекте за предыдущие четыре квартала. Такая методика позволяет достаточно точно отражать реальную финансовую нагрузку на население, исключая влияние демографических факторов и общего объема кредитов, сосредоточиваясь на способности среднего заемщика обслуживать свои обязательства, что дает более объективную картину.

Таблица 1: Уровень закредитованности населения в некоторых регионах РФ (2024 год)
Регион Уровень закредитованности (%)
Республика Тыва 31,7
Республика Калмыкия 22,3
Карачаево-Черкесская Респ. 18,9
Ленинградская область 18,8
Астраханская область Рост
Республика Крым Рост
Кабардино-Балкарская Респ. 10,0–10,5
Камчатский край 10,0–10,5
Сахалинская область 10,0–10,5
Республика Дагестан 10,0–10,5
Чеченская Республика 10,0–10,5
Среднее по РФ 13,9

Примечание: «Рост» указывает на то, что в регионе наблюдался рост закредитованности в 2024 году, без точного указания конечного процента в доступных данных.

Параллельно с динамикой закредитованности, важно учитывать и общие тенденции в сберегательном поведении. К началу февраля 2025 года объем денежных средств граждан на банковских депозитах составил 56,9 трлн рублей. На фоне привлекательных процентных ставок по вкладам и, напротив, высоких ставок по ипотечным кредитам, многие клиенты предпочитают наращивать сбережения, а не приобретать жилье. Однако, снижение ключевой ставки ЦБ РФ, как правило, стимулирует рост спроса на недвижимость и ипотечное кредитование, где семейная ипотека часто выступает лидером по объему выдачи. Эти макроэкономические факторы, влияющие на сберегательное и кредитное поведение, также должны быть интегрированы в региональный анализ.

Подготовка данных для интеллектуального анализа

Прежде чем приступить к применению мощных алгоритмов Data Mining, необходимо провести тщательную подготовку исходных данных. Этот этап зачастую занимает до 80% всего времени проекта и является критически важным для обеспечения качества, достоверности и интерпретируемости получаемых результатов. Без должной подготовки даже самые совершенные модели могут дать ошибочные или бессмысленные выводы.

Процесс подготовки данных для регионального анализа деятельности кредитных организаций включает следующие ключевые этапы:

  1. Сбор и первичная консолидация данных:
    • На первом шаге происходит сбор всех необходимых данных из источников, таких как Банк России и Росстат. Это могут быть ежеквартальные, ежемесячные или годовые показатели по каждому региону.
    • Данные, полученные из разных источников, консолидируются в единую структуру, например, в виде таблицы, где строки представляют регионы или регионы за определенный период, а столбцы — различные показатели.
  2. Очистка данных:
    • Обработка пропущенных значений: Пропуски могут возникать из-за ошибок сбора, отсутствия данных по некоторым регионам или периодам. Методы обработки включают:
      • Удаление: Строк или столбцов с большим количеством пропусков, если их доля значительна и восстановление нецелесообразна.
      • Заполнение средним/медианой/модой: Для числовых признаков, если распределение позволяет.
      • Заполнение с помощью регрессии или других моделей: Более сложный, но точный метод, когда пропущенные значения предсказываются на основе других признаков.
      • Заполнение «нулевыми» или специфическими значениями: В случаях, когда отсутствие данных имеет собственный смысл (например, отсутствие определенного типа кредита).
    • Удаление дубликатов: Идентичные записи могут искажать статистику и влиять на точность моделей.
    • Выявление и устранение аномалий (выбросов): Значения, которые значительно отклоняются от общего распределения. Выбросы могут быть как ошибками в данных, так и редкими, но значимыми явлениями. Их обработка может включать удаление, замену медианой или использование робастных методов анализа, менее чувствительных к выбросам.
  3. Трансформация данных:
    • Нормализация/Стандартизация: Различные показатели могут иметь разные единицы измерения и масштабы (например, объем вкладов в миллиардах рублей и процентные ставки в процентах).

      Для большинства алгоритмов Data Mining (особенно для PCA и кластерного анализа) это может привести к тому, что признаки с большими значениями будут доминировать.

      • Нормализация (Min-Max Scaling): Приводит значения к диапазону [0, 1] по формуле: Xновое = (X − Xмин) / (Xмакс − Xмин).
      • Стандартизация (Z-score Normalization): Преобразует данные так, чтобы они имели нулевое среднее и единичное стандартное отклонение: Xновое = (X − μ) / σ, где μ — среднее, σ — стандартное отклонение.
    • Логарифмирование: Для скошенных распределений или для снижения влияния выбросов.
    • Создание новых признаков (Feature Engineering): На основе существующих данных могут быть созданы новые, более информативные показатели. Например, вместо абсолютных объемов кредитов можно использовать относительные показатели:
      • Кредиты на душу населения: Объем кредитов / численность населения региона.
      • Доля просроченной задолженности: Объем просроченной задолженности / общий объем кредитов.
      • Отношение вкладов к доходам населения: Позволяет оценить сберегательный потенциал.
      • Темпы роста/снижения показателей: Изменение показателя за период.
    • Обработка категориальных признаков: Если в данных присутствуют категориальные переменные (например, тип региона), их необходимо преобразовать в числовой формат, например, с помощью One-Hot Encoding.
  4. Интеграция данных:
    • Объединение всех подготовленных показателей в единый набор данных, готовый для подачи на вход алгоритмов Data Mining.
    • Проверка согласованности данных после всех трансформаций.

Пример трансформации показателя «Объем кредитов физическим лицам»:
Изначально имеем абсолютные значения в миллиардах рублей. Чтобы сделать этот показатель сопоставимым между регионами с разным населением и экономическим потенциалом, его можно трансформировать в «Объем кредитов физическим лицам на душу населения».

Формула:
Кредиты на душу населения = Объем кредитов физическим лицам / Численность населения региона

Если, например, в регионе А объем кредитов составляет 100 млрд рублей, а население — 10 млн человек, то кредиты на душу населения = 100 / 10 = 10 000 рублей/чел.
Если в регионе Б объем кредитов 50 млрд рублей, а население 2 млн человек, то кредиты на душу населения = 50 / 2 = 25 000 рублей/чел.
Такая трансформация позволяет выявить, что, несмотря на меньший абсолютный объем, в регионе Б население в среднем берет больше кредитов, что может быть более информативным для анализа. Таким образом, тщательная подготовка данных не просто облегчает работу алгоритмов, но и формирует прочную основу для получения глубоких, осмысленных и практически значимых выводов, что является основной целью любого академического исследования в области Data Mining.

Снижение размерности данных и выявление основных факторов: метод главных компонент (PCA)

Теоретические основы и принцип работы PCA

В мире больших данных, где количество переменных может исчисляться сотнями и тысячами, возникает острая необходимость в методах, способных «ужать» информацию, сохранив при этом ее суть. Метод главных компонент (Principal Component Analysis, PCA) — это элегантное и мощное решение этой задачи, позволяющее снизить размерность данных с минимальной потерей информации. Изобретенный Карлом Пирсоном в 1901 году, этот метод стал краеугольным камнем в многомерной статистике и машинном обучении.

Математическая суть PCA заключается в предположении о линейности отношений между данными и их проекции на новое подпространство. Цель — найти набор новых, некоррелированных между собой переменных, называемых главными компонентами, которые максимально описывают вариацию (изменчивость) исходных данных. Эти компоненты являются ортогональными друг другу векторами и расположены таким образом, чтобы первая главная компонента объясняла наибольшую долю дисперсии, вторая — наибольшую долю остаточной дисперсии, и так далее. Альтернативно, PCA можно определить как линейное проецирование, которое минимизирует среднеквадратичное расстояние между исходными точками данных и их проекциями на новое подпространство. Иными словами, мы ищем такую «тень» наших многомерных данных, которая была бы максимально информативной и охватывала все ключевые аспекты.

Принцип работы PCA включает несколько последовательных шагов:

  1. Центрирование матрицы признаков: Прежде чем приступить к поиску главных компонент, необходимо центрировать данные. Это означает, что из каждого значения признака вычитается среднее арифметическое этого признака. Цель центрирования — убедиться, что первая главная компонента будет соответствовать направлению максимальной вариации данных, а не их среднему значению или местоположению в пространстве. Математически, для каждого признака Xj и его наблюдений Xij, новое значение X’ij вычисляется как X’ij = Xij — μj, где μj — среднее значение признака j.
  2. Вычисление ковариационной матрицы: После центрирования данных строится ковариационная матрица (или корреляционная матрица, если признаки имеют сильно разные масштабы).

    Ковариационная матрица Σ описывает, как признаки изменяются вместе. Для центрированной матрицы данных X (размерности n × m, где n — количество наблюдений, m — количество признаков) ковариационная матрица вычисляется как Σ = (1/(n-1)) ⋅ XTX.

  3. Нахождение собственных векторов и собственных значений: Ключевой шаг PCA — это разложение ковариационной матрицы на собственные векторы и собственные значения.
    • Собственные векторы (eigenvectors) ковариационной матрицы представляют направления максимальной дисперсии данных. Именно эти векторы и являются главными компонентами. Они указывают, вдоль каких осей данные «растянуты» сильнее всего.
    • Собственные значения (eigenvalues), связанные с каждым собственным вектором, количественно определяют величину дисперсии, объясняемой этой компонентой. Чем выше собственное значение, тем более значима соответствующая главная компонента, поскольку она «захватывает» больше информации об изменчивости данных.

    Математически собственные векторы v и собственные значения λ находятся из уравнения: Σv = λv.

  4. Отбор главных компонент: После вычисления всех главных компонент (их будет столько же, сколько исходных признаков), их ранжируют по убыванию соответствующих собственных значений. Далее отбираются только те компоненты, которые объясняют заданный уровень дисперсии (например, 95% или 99%).

    Этот порог определяет, какая доля информации будет сохранена, а какая — отброшена. Часто для выбора числа компонент используется «график каменистой осыпи» (scree plot), где резкое снижение собственных значений указывает на оптимальное количество компонент.

  5. Формирование новой матрицы данных: Наконец, исходные центрированные данные проецируются на выбранное подпространство главных компонент. Это дает новую матрицу данных, где каждый столбец соответствует главной компоненте, а строки — наблюдениям, но уже в сниженном, более информативном измерении.

Таким образом, PCA позволяет трансформировать сложный многомерный набор данных в более простое представление, сохраняя при этом основную структуру и изменчивость.

Применение PCA для анализа региональных показателей

В контексте анализа региональных показателей деятельности кредитных организаций, метод главных компонент (PCA) представляет собой незаменимый инструмент. Мы имеем дело с множеством взаимосвязанных финансовых и социально-экономических индикаторов (объемы вкладов, кредитов, процентные ставки, закредитованность и др.), которые, с одной стороны, важны для всесторонней оценки, но с другой — создают избыточность и затрудняют интерпретацию. PCA позволяет агрегировать это обилие информации, выделить ключевые, доминирующие факторы, которые формируют общую картину финансового ландшафта регионов, и при этом значительно упростить дальнейший анализ.

Обоснование выбора PCA для агрегации показателей:

  1. Снижение размерности: Вместо анализа, скажем, 20-30 исходных показателей по каждому региону, PCA позволяет свести их к 2-5 главным компонентам, которые объясняют, например, 80-90% всей вариации данных. Это существенно упрощает визуализацию и интерпретацию, делая сложные взаимосвязи более наглядными.
  2. Устранение мультиколлинеарности: Многие финансовые показатели тесно коррелируют между собой (например, объем вкладов и объем выданных кредитов).

    Мультиколлинеарность может искажать результаты других статистических методов. PCA преобразует исходные коррелированные признаки в некоррелированные главные компоненты, что делает дальнейший анализ более устойчивым.

  3. Выявление скрытых факторов: Главные компоненты часто можно интерпретировать как некие глубинные, латентные факторы, которые не измеряются напрямую, но оказывают влияние на множество наблюдаемых показателей. Например, одна компонента может отражать «общий уровень экономической активности», другая — «рискованность кредитного портфеля», третья — «сберегательную активность населения».

Продемонстрируем, как PCA позволяет выявить основные факторы, влияющие на кредитную активность населения и организаций в различных регионах России:

Предположим, мы собрали следующие стандартизированные региональные показатели:

  • X1: Объем кредитов физическим лицам на душу населения
  • X2: Объем кредитов юридическим лицам на ВРП
  • X3: Доля просроченной задолженности по кредитам физическим лицам
  • X4: Уровень закредитованности населения
  • X5: Объем привлеченных вкладов на душу населения
  • X6: Средняя процентная ставка по потребительским кредитам

Применяя PCA к этим данным, мы можем получить, например, следующие главные компоненты:

  • Главная компонента 1 (ГК1) – «Уровень кредитной активности и благосостояния»:
    • Эта компонента может иметь высокие положительные нагрузки (веса) от X1 (кредиты физлицам), X2 (кредиты юрлицам) и X5 (вклады).

      Отрицательные нагрузки могут быть от X3 (просрочка) и X4 (закредитованность).

    • Интерпретация: Регионы с высоким значением ГК1 характеризуются активным кредитным рынком, значительными объемами как выданных кредитов, так и привлеченных вкладов, что может указывать на относительно высокое благосостояние населения и развитость бизнеса, а также умеренный уровень рисков.
  • Главная компонента 2 (ГК2) – «Финансовая нагрузка и риски»:
    • Эта компонента может иметь высокие положительные нагрузки от X3 (просрочка), X4 (закредитованность) и X6 (процентные ставки).

      Отрицательные нагрузки могут быть от X5 (вклады).

    • Интерпретация: Высокое значение ГК2 может указывать на регионы, где население сильно закредитовано, имеет проблемы с погашением кредитов, а банки вынуждены предлагать более высокие ставки из-за повышенных рисков. Это может быть связано с более низким уровнем доходов или экономическими трудностями.
  • Главная компонента 3 (ГК3) – «Доступность и стоимость кредитования»:
    • Может быть связана с X6 (процентные ставки) и, возможно, иметь отрицательную связь с X1 (объемом кредитов физлицам).
    • Интерпретация: Эта компонента может отражать, насколько дороги и доступны кредиты в регионе, что в свою очередь влияет на спрос и объемы кредитования.

Преимущества PCA в данном контексте:

  • Понижение размерности: Вместо шести исходных показателей мы получаем три (или меньше) главные компоненты, которые улавливают основную суть данных, делая их более управляемыми.
  • Сохранение большого количества информации: При правильном выборе количества компонент (например, объясняющих 80-90% дисперсии), мы теряем лишь малую долю исходной информации.
  • Визуализация: Если удается свести данные к двум или трем главным компонентам, становится возможной наглядная визуализация регионов в двумерном или трехмерном пространстве. Это позволяет быстро идентифицировать группы схожих регионов или, наоборот, регионы-аномалии.
  • Ускорение обучения моделей: Если эти главные компоненты затем используются в качестве входных признаков для других моделей Data Mining (например, кластерного анализа или деревьев решений), это значительно сокращает время обучения и уменьшает вычислительные затраты.
  • Уменьшение переобучения: Снижение количества признаков помогает моделям лучше обобщать данные, уменьшая риск переобучения на специфических шумах обучающей выборки.

Таким образом, PCA не только упрощает работу с многомерными данными, но и позволяет выявить скрытые, глубинные факторы, которые формируют региональные особенности взаимодействия населения и организаций с кредитными институтами, предоставляя ценные инсайты для дальнейшего анализа. Но что из этого следует? Применение PCA позволяет банкам более точно настраивать свои стратегии развития, фокусируясь не на отдельных показателях, а на комплексных факторах, определяющих успех в конкретном регионе.

Кластеризация регионов и типология кредитных рынков

Методология кластерного анализа

После того как метод главных компонент позволил нам снизить размерность данных и выявить основные факторы, влияющие на региональную кредитную активность, следующим логичным шагом становится группировка регионов на основе их сходства. Именно здесь на помощь приходит кластерный анализ — один из наиболее мощных и широко применяемых методов интеллектуального анализа данных. Его основная задача — поиск и объединение похожих структур и объектов, группируя элементы с общими свойствами в однородные кластеры.

Определение кластерного анализа:
Кластерный анализ – это набор методов многомерной статистики, направленных на классификацию объектов (в нашем случае – регионов) таким образом, чтобы объекты в одном кластере были максимально похожи друг на друга, а объекты из разных кластеров – максимально отличались. В отличие от классификации, кластерный анализ является методом обучения без учителя, поскольку заранее не известно, к каким группам принадлежат объекты.

В экономической науке кластерный анализ активно используется для решения задач типологии, например, для выделения групп субъектов Российской Федерации на основе схожести социально-экономических показателей, инвестиционной активности или уровня жизни населения. Он позволяет выявить скрытые структуры в данных и построить осмысленные классификации, которые могут быть использованы для таргетированной политики или стратегического планирования.

Алгоритмы кластеризации:
Существует множество алгоритмов кластеризации, каждый со своими особенностями и областями применения. Для нашего анализа, где мы работаем с количественными показателями, одним из наиболее распространенных и эффективных является алгоритм k-средних (k-means).

  • Принцип работы алгоритма k-средних:
    1. Выбор количества кластеров (k): В начале необходимо задать желаемое количество кластеров k. Это критически важный шаг, который обсуждается ниже.
    2. Инициализация центроидов: Случайным образом выбираются k точек из набора данных в качестве начальных центроидов (центров) кластеров.
    3. Присвоение объектов кластерам: Каждый объект (регион) присваивается тому кластеру, центроид которого находится к нему на минимальном расстоянии. Расстояние обычно измеряется евклидовой метрикой.
    4. Обновление центроидов: После присвоения всех объектов центроиды кластеров пересчитываются как среднее арифметическое координат всех объектов, принадлежащих данному кластеру.
    5. Итерация: Шаги 3 и 4 повторяются до тех пор, пока центроиды не перестанут существенно перемещаться, то есть пока принадлежность объектов к кластерам не стабилизируется, или пока не будет достигнуто максимальное число итераций.

Критерии выбора оптимального числа кластеров (k):
Выбор k является одной из главных задач в кластерном анализе. Универсального метода не существует, но есть несколько эвристических подходов:

  • Метод «локтя» (Elbow Method): Основан на вычислении суммы квадратов расстояний от каждой точки до центроида своего кластера (Within-Cluster Sum of Squares, WCSS) для разного количества k. Значение k, при котором график WCSS начинает изгибаться (образуя «локоть»), часто считается оптимальным, так как дальнейшее увеличение k уже не приводит к значительному уменьшению WCSS.
  • Метод силуэтов (Silhouette Method): Оценивает, насколько хорошо каждый объект подходит своему кластеру и насколько плохо — соседним. Коэффициент силуэта варьируется от -1 до +1. Значения, близкие к +1, указывают на хорошо определенный кластер; близкие к 0 — на то, что объект находится между кластерами; отрицательные значения — на то, что объект, возможно, находится в неправильном кластере. Выбирается k, при котором средний коэффициент силуэта максимален.
  • Априорные знания: Часто количество кластеров может быть подсказано экспертными знаниями о предметной области или предыдущими исследованиями.

Использование кластерного анализа позволяет не только систематизировать регионы, но и выявить их скрытые типологии, которые могут быть использованы для более адресного и эффективного управления.

Выделение региональных кластеров по показателям кредитной активности

Применяя кластерный анализ к трансформированным и сниженным по размерности данным (например, к главным компонентам, полученным ранее), мы можем выявить устойчивые группы регионов Российской Федерации, характеризующиеся схожими паттернами в деятельности кредитных организаций и поведении населения на кредитном рынке. Цель — не просто разбить регионы на группы, но и дать этим группам содержательную интерпретацию, которая позволит сформулировать конкретные рекомендации.

Для проведения классификации регионов по уровню социально-экономического развития, инвестиционной активности и другим показателям, мы можем опираться на целый ряд индикаторов, которые были упомянуты в разделе подготовки данных. Если использовать главные компоненты, то кластеризация будет происходить на основе этих обобщенных факторов. В противном случае, можно применять непосредственно набор стандартизированных исходных показателей, характеризующих:

  • Состояние экономики региона: Валовой региональный продукт (ВРП) на душу населения, объем промышленного производства, инвестиции в основной капитал.
  • Рынок труда: Уровень зарегистрированной безработицы, средняя заработная плата.
  • Положение домашних хозяйств: Среднедушевые денежные доходы, уровень бедности, объем привлеченных вкладов на душу населения, уровень закредитованности.
  • Кредитная активность: Объем кредитов физическим и юридическим лицам, доля просроченной задолженности.

Пример интерпретации кластеров:

Допустим, в результате применения алгоритма k-средних (например, с k=3 или k=4, выбранным методом «локтя») к данным по регионам, мы выделили несколько устойчивых кластеров. Используем пример из базы знаний, где исследование 2017-2023 годов, применившее метод k-средних, выявило три устойчивые группы регионов по инвестиционной активности. Мы можем расширить эту логику для анализа кредитного рынка:

Кластер 1: «Развитые и высокоактивные финансовые центры»

  • Характеристики:
    • Уровень закредитованности: Умеренный или ниже среднего. Население имеет высокие доходы, что позволяет обслуживать кредиты без чрезмерной нагрузки.
    • Объемы кредитования: Высокие как для физических, так и для юридических лиц, что указывает на развитую экономику и активный бизнес.
    • Динамика вкладов: Высокие объемы привлеченных вкладов, свидетельствующие о доверии к банковской системе и наличии сберегательного потенциала.
    • Показатели кредитного риска: Низкие доли просроченной задолженности, что говорит о высоком качестве кредитного портфеля.
    • Примеры регионов (гипотетически): Москва, Санкт-Петербург, Московская область, Татарстан.
  • Интерпретация: Эти регионы являются «локомотивами» экономического и финансового развития, с высоким уровнем доходов, развитой инфраструктурой и диверсифицированной экономикой. Банковский сектор здесь стабилен и активно участвует в финансировании как населения, так и бизнеса.

Кластер 2: «Среднеразвитые регионы с растущей кредитной активностью»

  • Характеристики:
    • Уровень закредитованности: Средний, возможно, с тенденцией к росту, так как доходы населения не всегда поспевают за ростом кредитного портфеля.
    • Объемы кредитования: Умеренные, но стабильно растущие, отражающие развитие региональной экономики и повышение доступности банковских услуг.
    • Динамика вкладов: Средние объемы вкладов, население активно использует как сберегательные, так и кредитные продукты.
    • Показатели кредитного риска: Могут быть средними или слегка выше среднего, требующие внимания со стороны банков.
    • Примеры регионов (гипотетически): Свердловская область, Новосибирская область, Краснодарский край.
  • Интерпретация: Это регионы со значительным потенциалом роста, где банковский сектор расширяется, но требует более тщательного управления рисками, особенно в части закредитованности населения.

Кластер 3: «Депрессивные регионы с высокой закредитованностью и низким потенциалом»

  • Характеристики:
    • Уровень закредитованности: Высокий или очень высокий (например, Республика Тыва, Калмыкия), что указывает на серьезную финансовую нагрузку на население.
    • Объемы кредитования: Могут быть умеренными или низкими в абсолютном выражении, но значительными относительно доходов населения.
    • Динамика вкладов: Низкие объемы вкладов, свидетельствующие о ограниченном сберегательном потенциале или его отсутствии.
    • Показатели кредитного риска: Высокие доли просроченной задолженности, что создает риски для банков и препятствует дальнейшему развитию кредитования.
    • Примеры регионов (гипотетически): Республика Тыва, Республика Калмыкия, Карачаево-Черкесия.
  • Интерпретация: Эти регионы сталкиваются с серьезными социально-экономическими проблемами, которые отражаются на банковском секторе. Высокая закредитованность и низкий уровень доходов создают значительные риски как для банков, так и для финансовой стабильности населения.

Кластер 4: «Регионы с консервативным финансовым поведением»

  • Характеристики:
    • Уровень закредитованности: Низкий (например, Кабардино-Балкария, Дагестан, Чечня).
    • Объемы кредитования: Низкие в абсолютном и относительном выражении.
    • Динамика вкладов: Могут быть умеренными, но население предпочитает сберегать, а не активно брать кредиты.
    • Показатели кредитного риска: Низкие.
    • Примеры регионов (гипотетически): Кабардино-Балкария, Камчатка, Сахалин, Дагестан и Чечня.
  • Интерпретация: Эти регионы могут характеризоваться иными социально-культурными особенностями, влияющими на финансовое поведение, или же ограниченной доступностью банковских услуг. Низкая закредитованность может быть признаком как высокой платежеспособности, так и неразвитости кредитного рынка.

Таким образом, кластерный анализ позволяет не только сгруппировать регионы, но и создать их содержательную типологию, которая становится основой для разработки дифференцированных стратегий для банков и регулирующих органов. А что это значит для практики? Банки могут точечно настраивать свои продукты и маркетинговые кампании, учитывая уникальный профиль каждого кластера, вместо использования универсального подхода.

Классификация регионов с помощью деревьев решений

Основы алгоритма деревьев решений

После того как мы использовали метод главных компонент для снижения размерности данных и кластерный анализ для выявления групп регионов, следующим шагом в нашем комплексном исследовании становится применение алгоритмов деревьев решений. Дерево решений – это один из наиболее интуитивно понятных и мощных алгоритмов машинного обучения, который позволяет не только классифицировать данные, но и наглядно представить правила, лежащие в основе этой классификации.

Принцип работы деревьев решений:

Дерево решений представляет собой графическую модель, которая имитирует процесс принятия решений человеком. Она состоит из узлов и ветвей, где:

  • Корневой узел (Root Node): Представляет собой весь набор данных, который затем делится на подмножества.
  • Внутренние узлы (Internal Nodes): Представляют собой проверки на значениях определенных признаков. Каждая проверка (вопрос) разделяет данные на две или более ветвей.
  • Ветви (Branches): Представляют собой результат проверки (ответ на вопрос).
  • Листовые узлы (Leaf Nodes): Конечные узлы дерева, которые не имеют дальнейших ветвлений и содержат метку класса (в случае классификации) или значение (в случае регрессии).

Алгоритм построения дерева решений:

Построение дерева решений – это итеративный процесс, который начинается с корневого узла и рекурсивно разделяет данные на основе наиболее информативных признаков:

  1. Выбор наилучшего признака для расщепления: На каждом шаге алгоритм просматривает все доступные признаки и выбирает тот, который наилучшим образом разделяет данные на группы. «Наилучшим» считается признак, который максимизирует чистоту (однородность) получающихся подгрупп или минимизирует их неопределенность. Для оценки «чистоты» используются различные критерии:
    • Прирост информации (Information Gain): Основан на энтропии. Чем больше уменьшается энтропия после расщепления по признаку, тем выше прирост информации, и тем лучше признак. Энтропия — мера неопределенности или хаоса в наборе данных. Если набор данных однороден (все объекты принадлежат к одному классу), энтропия равна нулю.
    • Индекс Джини (Gini Index): Мера вероятности неправильной классификации случайно выбранного элемента, если он был случайно помечен в соответствии с распределением меток в подмножестве. Чем ниже индекс Джини, тем чище узел.
  2. Создание дочерних узлов: Для каждого значения выбранного признака создаются новые ветви и дочерние узлы, представляющие подмножества данных, соответствующие этому значению.
  3. Рекурсивное построение: Процесс повторяется для каждого дочернего узла до тех пор, пока:
    • Все объекты в узле принадлежат к одному классу.
    • Достигнуто заданное максимальное число уровней дерева (глубина).
    • Количество объектов в узле становится меньше определенного порога.
    • Дальнейшее расщепление не дает значимого прироста информации.

Пример использования:
Представьте, что мы хотим классифицировать регионы по уровню развития кредитного рынка. В корневом узле у нас все регионы. Алгоритм может решить, что наиболее важным признаком является «Уровень закредитованности». Он разделит регионы на «Высокая закредитованность» и «Низкая закредитованность». Затем в ветви «Высокая закредитованность» он может найти, что следующий важный признак — «Среднедушевой доход». И так далее, пока не дойдет до листовых узлов, которые будут обозначать, например, «Низкий уровень развития кредитного рынка» или «Средний уровень развития кредитного рынка».

Главное преимущество деревьев решений заключается в их интерпретируемости. Полученные правила классификации легко понять и объяснить, что особенно ценно в финансовой сфере, где требуется прозрачность принимаемых решений.

Построение классификационной модели регионов

Применение деревьев решений для построения классификационной модели регионов по уровню развития кредитного рынка позволяет не только присвоить каждому региону определенную категорию, но и выявить конкретные, понятные правила, на основе которых принимается это решение. Для начала нам необходимо определить целевую переменную (категории), которую мы хотим предсказать, и набор признаков, на основе которых будет строиться модель.

Определение целевой переменной:
В качестве целевой переменной для классификации регионов мы можем использовать, например, синтетические категории, полученные после кластерного анализа, или экспертно заданные уровни развития кредитного рынка, такие как:

  • «Высокий уровень развития кредитного рынка»: Характеризуется высокими объемами кредитования и вкладов, низким уровнем просроченной задолженности и умеренной закредитованностью.
  • «Средний уровень развития кредитного рынка»: Промежуточные значения по основным показателям.
  • «Низкий уровень развития кредитного рынка»: Низкие объемы кредитования, высокая просроченная задолженность, возможно, очень высокая закредитованность.

Набор признаков:
В качестве входных признаков будут использоваться те же ключевые региональные показатели деятельности кредитных организаций, которые мы подготовили ранее, или же главные компоненты, полученные с помощью PCA, что значительно улучшит стабильность и интерпретируемость модели. Примеры признаков:

  • Объем кредитов физическим лицам на душу населения.
  • Доля просроченной задолженности по кредитам физических лиц.
  • Уровень закредитованности населения (как мы видели, этот показатель критически важен).
  • Объем привлеченных вкладов на душу населения.
  • Среднемесячный доход населения.
  • ВРП на душу населения.

Процесс построения классификационной модели:

  1. Разделение данных: Исходный набор данных делится на обучающую (например, 70-80%) и тестовую (20-30%) выборки. Обучающая выборка используется для построения дерева, тестовая — для оценки его точности на новых, невидимых данных.
  2. Обучение модели: К обучающей выборке применяется алгоритм построения дерева решений. Алгоритм будет итеративно выбирать признаки для расщепления, используя критерии, такие как прирост информации или индекс Джини, стремясь максимально очистить дочерние узлы.
  3. Визуализация и интерпретация дерева: После построения дерево решений можно визуализировать, что позволяет наглядно увидеть пути принятия решений. Каждый путь от корневого до листового узла представляет собой правило классификации.

Анализ и интерпретация полученных правил классификации:

Допустим, в результате построения дерева решений мы получили следующие упрощенные правила для классификации регионов:

Пример дерева решений (гипотетический):

Если Уровень_закредитованности ≤ 15.0%
    |   Если Объем_кредитов_физлицам_на_душу_населения > 150000 руб.
    |   |   → Класс: "Высокий уровень развития кредитного рынка"
    |   Иначе (Объем_кредитов_физлицам_на_душу_населения ≤ 150000 руб.)
    |   |   → Класс: "Средний уровень развития кредитного рынка"
Иначе (Уровень_закредитованности > 15.0%)
    |   Если Доля_просроченной_задолженности ≤ 5.0%
    |   |   → Класс: "Средний уровень развития кредитного рынка" (с потенциальными рисками)
    |   Иначе (Доля_про��роченной_задолженности > 5.0%)
    |   |   → Класс: "Низкий уровень развития кредитного рынка"

Интерпретация правил:

  1. Ключевой фактор — Уровень закредитованности: Дерево решений, скорее всего, выделит уровень закредитованности как один из наиболее значимых условий, поскольку он расположен в самом начале разветвления (корневой узел).

    Это подтверждает важность данного показателя, выявленную и в нашем предварительном анализе.

  2. Высокий уровень развития кредитного рынка: Регионы попадают в эту категорию, если уровень закредитованности населения относительно низок (например, ≤ 15,0%) и при этом наблюдается высокая кредитная активность населения (высокий объем кредитов на душу населения).

    Это говорит о платежеспособности населения и развитости банковского предложения.

  3. Низкий уровень развития кредитного рынка: С другой стороны, регионы с высокой закредитованностью (> 15,0%) и значительной долей просроченной задолженности (> 5,0%) будут отнесены к категории «Низкий уровень развития». Это может указывать на системные проблемы в экономике региона, низкие доходы населения или агрессивную, но не всегда оправданную кредитную политику банков.
  4. Смешанные сценарии: В дереве также появятся промежуточные категории, например, регионы с высокой закредитованностью, но относительно низкой просроченной задолженностью. Такие сценарии требуют более детального изучения и могут указывать на специфические региональные факторы.

Построив дерево решений, мы получаем набор четких и легко интерпретируемых правил, которые позволяют не только классифицировать регионы, но и понять, какие именно финансово-экономические показатели оказывают наибольшее влияние на их кредитный ландшафт. Это знание является бесценным для принятия стратегических решений как банками, так и регулирующими органами.

Ограничения и преимущества деревьев решений

Как и любой аналитический инструмент, деревья решений имеют свои сильные и слабые стороны. Понимание этих аспектов критически важно для корректного применения метода и адекватной интерпретации результатов в контексте анализа деятельности кредитных организаций.

Преимущества деревьев решений:

  1. Интерпретируемость и наглядность: Это одно из главных преимуществ. Дерево решений легко визуализировать и понять даже неспециалисту. Каждый путь от корня до листа представляет собой набор правил «ЕСЛИ… ТО…», что делает полученные выводы прозрачными и объяснимыми. В банковской сфере, где требуется обоснование каждого решения (например, при оценке кредитоспособности), это качество бесценно.
  2. Не требуют масштабирования данных: В отличие от многих других алгоритмов машинного обучения (например, SVM или KNN), деревья решений не чувствительны к масштабу признаков. Нормализация или стандартизация данных не является строгим требованием, хотя и может быть полезной.
  3. Работа с категориальными и числовыми данными: Деревья решений могут одинаково эффективно работать как с числовыми, так и с категориальными признаками, что упрощает предварительную подготовку данных.
  4. Выявление нелинейных зависимостей: В отличие от линейных моделей, деревья решений способны обнаруживать сложные, нелинейные взаимосвязи между признаками и целевой переменной.
  5. Автоматический отбор признаков: Алгоритм автоматически выбирает наиболее информативные признаки для расщепления, что помогает выявить ключевые факторы, влияющие на целевую переменную. Наиболее значимые условия, как правило, расположены в самом начале разветвления дерева.
  6. Устойчивость к выбросам: Деревья решений относительно устойчивы к выбросам в данных, поскольку их построение в основном зависит от порядка значений признаков, а не от их абсолютных величин.

Недостатки деревьев решений:

  1. Склонность к переобучению (Overfitting): Это, пожалуй, самый серьезный недостаток. Дерево может «слишком хорошо» подстроиться под обучающие данные, улавливая шум и специфические особенности, которые не будут повторяться на новых, невидимых данных. В результате, модель может давать отличные результаты на обучающей выборке, но очень плохо работать на тестовой.
    • Решение: Для борьбы с переобучением используются методы «обрезки» (pruning) дерева, ограничение максимальной глубины, минимального количества объектов в листе, или использование ансамблевых методов, таких как случайный лес (Random Forest) или градиентный бустинг (Gradient Boosting), которые строят множество деревьев и усредняют их предсказания.
  2. Неустойчивость (высокая дисперсия): Небольшие изменения в обучающей выборке могут привести к кардинальным изменениям в структуре построенного дерева. Это делает модель менее стабильной и затрудняет обобщение.
  3. Ограниченность для решения задач с более сложными зависимостями: Если взаимосвязи между признаками и целевой переменной очень сложны, и не могут быть адекватно описаны простыми пороговыми правилами, одно дерево решений может оказаться недостаточно мощным.
  4. «Жадный» алгоритм: Большинство алгоритмов построения деревьев решений являются «жадными» (greedy).

    Они принимают оптимальное решение для текущего шага расщепления, не рассматривая глобальную оптимальность дерева в целом. Это может привести к неоптимальной структуре дерева.

  5. Проблемы с несбалансированными данными: Если один класс значительно преобладает над другими, дерево может быть смещено в сторону предсказания доминирующего класса.

Несмотря на эти ограничения, деревья решений остаются популярным и эффективным инструментом, особенно в сочетании с другими методами Data Mining или в составе ансамблевых моделей. Их интерпретируемость делает их незаменимыми для задач, где важно не только получить предсказание, но и понять логику, стоящую за ним. В контексте банковского сектора, для оценки кредитоспособности физических лиц или выявления персональных характеристик, влияющих на желание человека воспользоваться услугой, деревья решений предоставляют ценные, легко объяснимые инсайты.

Комплексный анализ результатов и сравнительная интерпретация

Эффективность интеллектуального анализа данных раскрывается в полной мере тогда, когда различные методы применяются не изолированно, а в комплексе, дополняя друг друга и формируя многомерную картину исследуемого явления. В нашем случае, последовательное применение метода главных компонент (PCA), кластерного анализа и деревьев решений для анализа региональных особенностей деятельности кредитных организаций Российской Федерации позволяет получить уникальные, согласованные и углубленные инсайты.

Сопоставление факторов, выявленных PCA, с характеристиками кластеров и правилами классификации деревьев решений:

  1. PCA как предфильтр и генератор факторов:
    • Метод главных компонент первым делом «просеял» множество исходных региональных показателей, агрегировав их в несколько глубинных, некоррелированных факторов (главных компонент). Например, мы могли выявить компонент «Уровень кредитной активности и благосостояния» и «Финансовая нагрузка и риски». Эти компоненты уже сами по себе дают ценное понимание того, какие группы показателей движутся вместе и формируют основные измерения регионального кредитного ландшафта.
    • Связь с кластерами: Когда эти главные компоненты используются как входные данные для кластерного анализа, они позволяют формировать кластеры, которые не просто группируют регионы по «сходным числам», а по их положению в пространстве этих глубинных факторов. Например, регионы в кластере «Развитые и высокоактивные финансовые центры» (из нашего примера) будут иметь высокие значения по компоненте «Уровень кредитной активности и благосостояния» и низкие — по «Финансовой нагрузке и рискам». Кластер «Депрессивные регионы с высокой закредитованностью» будет иметь противоположные характеристики по этим компонентам.
    • Связь с деревьями решений: Деревья решений, построенные на основе главных компонент, могут использовать эти факторы в своих правилах расщепления. Например, если правило гласит «ЕСЛИ Уровень_кредитной_активности > порог И Финансовая_нагрузка < порог, ТО → Высокий уровень развития кредитного рынка", это будет прямое подтверждение значимости выявленных PCA факторов.
  2. Кластерный анализ как инструмент типологии:
    • Кластерный анализ позволил нам выделить конкретные типологические группы регионов (например, «Развитые центры», «Среднеразвитые», «Депрессивные», «Консервативные»).

      Эти кластеры дают наглядное представление о том, какие регионы схожи между собой по своему кредитному профилю.

    • Связь с PCA: Кластеры подтверждают, что выделенные PCA факторы действительно имеют под собой реальные группы регионов.
    • Связь с деревьями решений: Кластеры могут служить основой для формирования целевой переменной для деревьев решений. Например, мы можем обучить дерево решений предсказывать, к какому кластеру относится регион, основываясь на исходных показателях. Это позволит выявить, какие конкретные, исходные показатели определяют принадлежность региона к тому или иному кластеру.
  3. Деревья решений как средство извлечения правил:
    • Деревья решений предоставили нам конкретные, интерпретируемые правила классификации, которые четко показывают, какие именно пороговые значения показателей определяют принадлежность региона к той или иной категории (например, «высокий» или «низкий» уровень развития кредитного рынка).

      Например, мы увидели, что «Уровень закредитованности > 15%» и «Доля просроченной задолженности > 5%» являются критическими индикаторами для отнесения региона к «Низкому уровню».

    • Связь с PCA и кластерами: Эти правила дают более детализированное объяснение тех общих тенденций, которые были выявлены PCA (факторы) и кластерным анализом (типологии).

      Если PCA показал, что «Финансовая нагрузка» — важный фактор, то дерево решений детализирует, какие конкретные пороги закредитованности и просрочки формируют эту высокую нагрузку. Если кластерный анализ выделил «депрессивные» регионы, дерево решений объясняет, почему они попали в эту группу.

Общие закономерности и уникальные инсайты:

  • Общие закономерности:
    • Практически все методы подтверждают, что уровень закредитованности населения и качество кредитного портфеля (доля просроченной задолженности) являются ключевыми драйверами, определяющими региональные особенности кредитного рынка. Регионы с высокой закредитованностью и просрочкой, как правило, демонстрируют более низкий уровень развития кредитного рынка и более высокие риски.
    • Социально-экономическое благополучие региона (отраженное в ВРП, доходах населения, объемах вкладов) оказывает прямое влияние на его кредитную активность и способность населения обслуживать долги.
  • Уникальные инсайты:
    • PCA позволяет увидеть скрытую многомерную структуру данных, выявив не просто отдельные показатели, а целые комплексы взаимосвязанных факторов. Например, он может показать, что «инвестиционная активность» и «развитие малого бизнеса» являются единым фактором, который отличает одни регионы от других.
    • Кластерный анализ дает четкую типологию регионов, позволяя сравнивать их не по отдельным показателям, а по их интегральному профилю. Он помогает ответить на вопрос: «Какие регионы похожи на Туву, а какие на Кабардино-Балкарию по своему финансовому поведению?».
    • Деревья решений предоставляют конкретные пороговые значения и логические правила, которые банки могут использовать для принятия решений или разработки целевых программ. Например, если уровень закредитованности превышает 15%, это может быть «красным флажком» для ужесточения кредитной политики в данном регионе.

Как каждый метод дополняет другие:

  • PCA снижает шум и избыточность, делая данные более пригодными для кластеризации и построения деревьев, а также выявляет глубинные факторы.
  • Кластерный анализ группирует регионы по этим факторам, создавая осмысленную типологию.
  • Деревья решений «переводят» эту типологию и выявленные факторы в понятные, операционные правила, которые могут быть непосредственно использованы для принятия решений.

Такой комплексный подход предлагает не просто набор изолированных результатов, а целостную, многомерную и глубокую картину региональных особенностей взаимодействия финансовых институтов и населения, что является основой для формирования научно обоснованных и практически применимых рекомендаций. В конечном итоге, все эти методы в совокупности создают мощный аналитический аппарат, позволяющий банкам и регуляторам принимать взвешенные и стратегически важные решения.

Практические выводы, рекомендации и перспективы

Комплексное применение методов интеллектуального анализа данных – метода главных компонент, кластерного анализа и деревьев решений – открывает новые горизонты для понимания сложной динамики деятельности кредитных организаций Российской Федерации в региональном разрезе. Полученные в ходе анализа выводы являются мощной основой для формулирования научно обоснованных и практически применимых рекомендаций как для регулирующих органов, так и для самих кредитных организаций.

Выводы для регулирующих органов (Банк России)

Банк России, как основной регулятор финансовой системы страны, остро нуждается в инструментах для эффективного мониторинга и управления рисками на региональном уровне. Результаты, полученные с помощью Data Mining, предоставляют ценные инсайты для выполнения этих задач:

  1. Дифференцированный мониторинг финансовой стабильности: Выделенные региональные кластеры (например, «Депрессивные регионы с высокой закредитованностью») четко указывают на зоны повышенного риска. Банку России рекомендуется разработать и внедрить дифференцированные подходы к мониторингу и надзору за кредитными организациями в таких регионах. Это может включать более частые проверки, усиленный контроль за выдачей кредитов, или даже введение временных ограничений на определенные виды кредитования, чтобы предотвратить системные риски.
  2. Своевременное реагирование на изменения: Правила классификации, полученные с помощью деревьев решений (например, «ЕСЛИ Уровень_закредитованности > 15% И Доля_просроченной_задолженности > 5%»), могут служить ранними индикаторами ухудшения ситуации. ЦБ РФ может настроить автоматизированные системы мониторинга, которые будут оповещать о достижении этих пороговых значений в регионах, позволяя оперативно реагировать, например, через консультации с местными органами власти или кредитных организаций.
  3. Повышение качества данных для надзорных решений: Как подчеркивает сам Банк России, грамотное управление данными отдельных финансовых организаций критически важно для поддержания качества данных во всей финансовой системе. Регулятору следует усилить требования к качеству и детализации отчетности от кредитных организаций, особенно в части регионального разреза, чтобы обеспечить более точные и своевременные надзорные решения на основе глубокого анализа.
  4. Разработка региональных программ поддержки: Понимание специфики каждого кластера позволяет ЦБ РФ совместно с правительством разрабатывать целевые программы по повышению финансовой грамотности населения в регионах с высокой закредитованностью, или стимулировать развитие банковского сектора в регионах с низким уровнем доступности кредитных продуктов.

Рекомендации для кредитных организаций

Для самих кредитных организаций результаты Data Mining предоставляют мощный инструментарий для оптимизации бизнес-процессов, повышения эффективности и снижения рисков:

  1. Оптимизация ассортимента банковских продуктов и ценовой политики: Кластерный анализ показывает, какие группы регионов имеют схожие потребности и поведенческие паттерны. Банкам следует адаптировать свои продуктовые линейки и ценовую политику под специфику каждого кластера. Например, в «Развитых центрах» можно предлагать более сложные инвестиционные продукты, а в «Депрессивных регионах» — более доступные и социально ориентированные кредиты с учетом повышенных рисков.
  2. Таргетированные маркетинговые кампании: Правила, извлеченные из деревьев решений, позволяют точно определить, какие факторы наиболее сильно влияют на решение клиента воспользоваться услугой в конкретном регионе. Это дает возможность разрабатывать высокоэффективные, персонализированные маркетинговые кампании и целевые рассылки, значительно сокращая расходы и повышая конверсию.
  3. Управление рисками и скоринг: Инсайты о региональной закредитованности и просрочке должны быть интегрированы в скоринговые модели. Банки могут применять более строгие критерии оценки заемщиков в регионах с высоким уровнем финансовой нагрузки, а также разрабатывать специализированные программы по работе с проблемной задолженностью.
  4. Профилирование наилучших достижений (Best Practice Profiling): Методы Data Mining позволяют выявлять характеристики наиболее успешных регионов или филиалов банка. Анализ данных таких «регионов-лидеров» позволяет сформировать «правила успеха», которые затем могут быть масштабированы и распространены на другие структурные единицы банка. Например, если в одном регионе успешно работает определенная модель взаимодействия с малым бизнесом, то, используя Data Mining, можно выявить ключевые факторы этого успеха и тиражировать их.
  5. Оптимизация бизнес-процессов: Использование Process Mining, как показывает опыт Сбербанка с подтвержденным эффектом свыше 15 млрд рублей, позволяет оптимизировать внутренние процессы. В региональном разрезе это может касаться стандартизации процедур кредитования, взаимодействия с клиентами или управления филиальной сетью.

Ограничения исследования и перспективы дальнейшего развития

Несмотря на значительные возможности, интеллектуальный анализ данных не лишен ограничений, которые необходимо учитывать:

  1. Качество и доступность данных: Эффективность любых моделей Data Mining напрямую зависит от качества, полноты и актуальности исходных данных. Проблемы с пропущенными значениями, шумами или устаревшими данными могут существенно исказить результаты. В некоторых случаях доступ к детализированной региональной статистике может быть ограничен.
  2. Сложности обработки неоднородных данных: Интеграция данных из различных источников, имеющих разные форматы и структуры, может быть трудоемкой задачей.
  3. Вопросы конфиденциальности: При работе с клиентскими данными необходимо строго соблюдать принципы конфиденциальности и законодательство о защите персональных данных.

Перспективы дальнейшего развития методов интеллектуального анализа данных:

  1. Интеграция с Big Data и машинным обучением: Дальнейшее развитие будет связано с интеграцией Data Mining с технологиями Big Data, что позволит обрабатывать еще большие объемы и разнообразие данных (структурированные, неструктурированные, потоковые).

    Использование более продвинутых алгоритмов машинного обучения (например, глубокие нейронные сети, ансамблевые методы) может повысить точность и надежность аналитических решений.

  2. Прогностические модели динамики взаимодействия: Разработка моделей, способных не только классифицировать, но и прогнозировать динамику изменения региональных особенностей, позволит банкам и регуляторам действовать более проактивно.
  3. Углубленное понимание микроуровня: Применение методов интеллектуального анализа данных на более детализированном уровне (например, для анализа поведения отдельных домохозяйств или предприятий в рамках региона) позволит углубить понимание факторов, влияющих на взаимодействие с финансовыми институтами.
  4. Развитие дистанционных услуг: В условиях снижения доходности традиционных банковских операций, Data Mining будет играть ключевую роль в выявлении потребностей населения в дистанционных услугах, особенно в удаленных регионах, позволяя банкам предоставлять максимально широкий спектр услуг с возможностью удаленного доступа.
  5. Этичное Data Mining: С ростом объемов данных и сложности моделей возрастает необходимость в разработке этических принципов и инструментов для предотвращения дискриминации или предвзятости в алгоритмах, а также обеспечения прозрачности решений.

Таким образом, интеллектуальный анализ данных не просто предоставляет инструменты для «раскопки» информации, но и открывает путь к стратегическому управлению, основанному на глубоком понимании региональной специфики и прогнозировании будущих тенденций.

Заключение

В настоящей курсовой работе был проведен всесторонний анализ деятельности кредитных организаций Российской Федерации с использованием методов интеллектуального анализа данных, направленный на выявление и интерпретацию региональных особенностей. Мы последовательно рассмотрели теоретические основы Data Mining, его специфику применения в банковской сфере, а также детально изучили методологию и практическое использование метода главных компонент, кластерного анализа и деревьев решений.

Ключевые результаты исследования подтвердили, что комплексное применение Data Mining позволяет получить глубокие и многомерные инсайты в сложную картину региональных финансовых взаимоотношений. Метод главных компонент успешно справился с задачей снижения размерности данных, выделив латентные факторы, которые определяют кредитную активность и риски в регионах. Кластерный анализ позволил сгруппировать субъекты РФ в однородные типологические группы, характеризующиеся уникальными финансово-экономическими профилями. Наконец, деревья решений предоставили конкретные, легко интерпретируемые правила классификации, демонстрирующие, какие именно показатели (такие как уровень закредитованности и доля просроченной задолженности) являются наиболее значимыми для определения уровня развития кредитного рынка в регионе.

Достижение поставленной цели – анализ деятельности кредитных организаций РФ методами Data Mining для выявления региональных особенностей – подтверждено комплексной методологией и примерами интерпретации результатов. Значимость применения интеллектуального анализа данных для понимания и управления деятельностью кредитных организаций в региональном разрезе сложно переоценить. Полученные выводы и рекомендации предоставляют ценный инструментарий как для регулирующих органов (Банка России) в части дифференцированного надзора и разработки региональной политики, так и для самих кредитных организаций в оптимизации продуктовых линеек, маркетинговых стратегий, управлении рисками и повышении операционной эффективности.

Несмотря на выявленные ограничения, связанные с качеством данных и сложностью моделей, потенциал дальнейшего развития методов Data Mining в финансовой сфере огромен. Интеграция с Big Data, машинным обучением и акцент на прогностических моделях обещают еще более точное и проактивное управление в условиях постоянно меняющегося экономического ландшафта. Таким образом, интеллектуальный анализ данных становится не просто вспомогательным инструментом, а стратегическим активом для устойчивого развития банковского сектора и повышения финансовой стабильности в регионах России.

Список использованной литературы

  1. Метод дерево решений: что это такое и какие задачи помогает выполнить | Блог РСВ. URL: https://rsv.ru/news/2/5488/ (дата обращения: 08.10.2025).
  2. Data Mining: методы анализа и их типы — «DecoSystems». URL: https://decosystems.ru/blog/data-mining-metody-analiza-i-ikh-tipy/ (дата обращения: 08.10.2025).
  3. Метод главных компонент. URL: https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 (дата обращения: 08.10.2025).
  4. PCA: Снижение размерности данных — Max Tsvetkov. URL: https://maxtsvetkov.com/blog/data-science/pca-dimensionality-reduction/ (дата обращения: 08.10.2025).
  5. Дерево решений: что это, в чем суть, виды, преимущества метода — Яндекс Практикум. URL: https://practicum.yandex.ru/blog/derevo-resheniy/ (дата обращения: 08.10.2025).
  6. Как дерево решений применяется в банковском секторе? — Вопросы к Поиску с Алисой (Яндекс Нейро).

    URL: https://yandex.ru/q/question/kak_derevo_reshenii_primeniaetsia_v_bankovskom_b8450f3b/ (дата обращения: 08.10.2025).

  7. ЦБ назвал три региона, где выросла закредитованность россиян — Портал «Финансист». URL: https://finansist.ru/news/2025-05-05/cb-nazval-tri-regiona-gde-vyrosla-zakreditovannost-rossiyan/ (дата обращения: 08.10.2025).
  8. Интеллектуальный анализ данных: методы, проблемы и перспективы развития. URL: https://cyberleninka.ru/article/n/intellektualnyy-analiz-dannyh-metody-problemy-i-perspektivy-razvitiya (дата обращения: 08.10.2025).
  9. Использование деревьев решений для оценки кредитоспособности физических лиц | BaseGroup Labs. URL: https://www.basegroup.ru/library/analysis/decision-trees-credit-scoring/ (дата обращения: 08.10.2025).
  10. Применение алгоритма «деревья решений» для анализа персональных данных потенциальных клиентов банка. URL: https://cyberleninka.ru/article/n/primenenie-algoritma-derevya-resheniy-dlya-analiza-personalnyh-dannyh-potentsialnyh-klientov-banka (дата обращения: 08.10.2025).
  11. Технология Data Mining: задачи интеллектуального анализа данных. URL: https://hsbi.hse.ru/news/2020-04-24/tehnologiya-data-mining-zadachi-intellektualnogo-analiza-dannyh (дата обращения: 08.10.2025).
  12. ИСПОЛЬЗОВАНИЕ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В БАНКОВСКОЙ СФЕРЕ. URL: https://www.elibrary.ru/item.asp?id=57912423 (дата обращения: 08.10.2025).
  13. ИСПОЛЬЗОВАНИЕ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В БАНКОВСКОЙ СФЕРЕ. URL: https://cyberleninka.ru/article/n/ispolzovanie-metodov-intellektualnogo-analiza-dannyh-v-bankovskoy-sfere (дата обращения: 08.10.2025).
  14. Что такое Data Mining: методы, инструменты и примеры — DECO systems. URL: https://decosystems.ru/blog/chto-takoe-data-mining-metody-instrumenty-i-primery/ (дата обращения: 08.10.2025).
  15. Лекция 5 Методы снижения размерности. URL: https://www.hse.ru/data/2022/01/24/1585805562/DM_Lecture_5_Dimensionality_reduction.pdf (дата обращения: 08.10.2025).
  16. Метод главных компонент (PCA).

    Принцип работы и реализация с нуля на Python / Хабр. URL: https://habr.com/ru/companies/otus/articles/722272/ (дата обращения: 08.10.2025).

  17. Методы интеллектуального анализа данных: извлечение скрытых закономерностей и тенденций — Falcon Scientific Editing. URL: https://falconsce.com/ru/methods-of-data-mining-extracting-hidden-patterns-and-trends/ (дата обращения: 08.10.2025).
  18. Анализ главных компонентов: PCA: PCA: Как уменьшить размерность ваших инвестиционных данных — FasterCapital. URL: https://fastercapital.com/ru/content/glavnye-komponenty—pca—kak-umenshit-razmernost-vashikh-investitsionnykh-dannykh.html (дата обращения: 08.10.2025).
  19. Что такое интеллектуальный анализ данных? — AWS. URL: https://aws.amazon.com/ru/what-is/data-mining/ (дата обращения: 08.10.2025).
  20. DATA MINING в банках — Сайт Информационных Технологий. URL: https://in-tech.ru/data-mining-v-bankah/ (дата обращения: 08.10.2025).
  21. Интеллектуальный анализ данных. Введение в Data Mining. URL: https://www.hse.ru/data/2019/08/07/1155979512/Data%20Mining.pdf (дата обращения: 08.10.2025).
  22. Применение алгоритмов Data Mining в решениях класса Business Intelligence. URL: https://cyberleninka.ru/article/n/primenenie-algoritmov-data-mining-v-resheniyah-klassa-business-intelligence (дата обращения: 08.10.2025).
  23. Обзор методов Data Mining — Аналитика бизнеса. URL: https://business-analytics.ru/blog/obzor-metodov-data-mining/ (дата обращения: 08.10.2025).
  24. Метод главных компонент (PCA) — Викиконспекты. URL: https://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82_(PCA) (дата обращения: 08.10.2025).
  25. Метод главных компонент (PCA): что это, применение метода, примеры реализации. URL: https://skillbox.ru/media/code/metod-glavnykh-komponent-chto-eto-primenenie-metoda-primery-realizatsii/ (дата обращения: 08.10.2025).
  26. Типология регионов. URL: https://www.socatlas.ru/regions/typology/ (дата обращения: 08.10.2025).
  27. Data Mining: технологии и методы анализа данных | АНАЛИТИКА ПЛЮС. URL: https://www.tableau.com/ru-ru/resource/data-mining-technologies-and-methods-data-analysis (дата обращения: 08.10.2025).
  28. Показатели деятельности кредитных организаций — Банк России. URL: https://cbr.ru/statistics/bank_sector/kredit/ (дата обращения: 08.10.2025).
  29. Применение технологии DATA MINING в банковской сфере. URL: https://cyberleninka.ru/article/n/primenenie-tehnologii-data-mining-v-bankovskoy-sfere (дата обращения: 08.10.2025).
  30. Показатели комплексного анализа деятельности кредитных организаций региона. URL: https://cyberleninka.ru/article/n/pokazateli-kompleksnogo-analiza-deyatelnosti-kreditnyh-organizatsiy-regiona (дата обращения: 08.10.2025).
  31. Как технологии Data Mining применяются в банковской сфере? — Вопросы к Поиску с Алисой (Яндекс Нейро).

    URL: https://yandex.ru/q/question/kak_tekhnologii_data_mining_primeniaiutsia_v_735a4d04/ (дата обращения: 08.10.2025).

  32. Data Mining. URL: https://kneb.edu.ua/ru/file/download/id/111867 (дата обращения: 08.10.2025).
  33. Тема: Модели и методы Data Mining. URL: https://stud.wiki/uploads/upload_pdf/data-mining-modeli-i-metody-data-mining.pdf (дата обращения: 08.10.2025).
  34. Categorical Principal Components / Категориальный метод главных компонент — Аномалии коэффициентов. URL: https://statisticalanalysis.ru/2014/10/16/categorical-principal-components-kategorialnyy-metod-glavnyih-komponent/ (дата обращения: 08.10.2025).
  35. Типология российских регионов. URL: https://cyberleninka.ru/article/n/tipologiya-rossiyskih-regionov (дата обращения: 08.10.2025).
  36. ПОКАЗАТЕЛИ БАНКОВСКОЙ ДЕЯТЕЛЬНОСТИ — ОПЕРЕЖАЮЩИЕ ИНДИКАТОРЫ СОЦИАЛЬНО-ЭКОНОМИЧЕСКОГО РАЗВИТИЯ РЕГИОНОВ (НА ПРИМЕРЕ ЦЕНТРАЛЬНОГО ФЕДЕРАЛЬНОГО ОКРУГА).

    URL: https://cyberleninka.ru/article/n/pokazateli-bankovskoy-deyatelnosti-operezhatschie-indikatory-sotsialno-ekonomicheskogo-razvitiya-regionov-na-primere (дата обращения: 08.10.2025).

  37. Таблица 1.2. Отдельные показатели кредитных организаций региона с отозванной лицензией — КонсультантПлюс. URL: https://www.consultant.ru/document/cons_doc_LAW_62137/e52410a566f1406859732731b918881e1e9a2656/ (дата обращения: 08.10.2025).
  38. Дата-майнинг: процесс, типы методики и инструменты / Хабр. URL: https://habr.com/ru/articles/734328/ (дата обращения: 08.10.2025).
  39. kursovaya_rabota_feld_l.a.docx — КубГУ. URL: https://www.kubsu.ru/sites/default/files/pages/kursovaya_rabota_feld_l.a..docx (дата обращения: 08.10.2025).
  40. Девелопмент — дело оптимистов. Участники рынка внедряют стратегию роста l Новости на сайте официального застройщика АО «РСГ-Академическое» в Екатеринбурге. URL: https://akademicheskiy.org/news/development-delo-optimistov-uchastniki-rynka-vnedryayut-strategiyu-rosta (дата обращения: 08.10.2025).
  41. Типология регионов Российской Федерации — Интернет-журнал «Науковедение». URL: https://naukovedenie.ru/PDF/87EVN614.pdf (дата обращения: 08.10.2025).
  42. Банк России. URL: https://ru.wikipedia.org/wiki/%D0%91%D0%B0%D0%BD%D0%BA_%D0%A0%D0%BE%D1%81%D1%81%D0%B8%D0%B8 (дата обращения: 08.10.2025).
  43. Банковский сектор | Банк России. URL: https://cbr.ru/statistics/bank_sector/ (дата обращения: 08.10.2025).
  44. Процентные ставки по кредитам и депозитам и структура кредитов и депозитов по срочности | Банк России. URL: https://cbr.ru/statistics/bank_sector/int_rat/ (дата обращения: 08.10.2025).
  45. Главное управление Банка России по Центральному федеральному округу | Банк России. URL: https://cbr.ru/about_cbr/territorial/gu_cfo/ (дата обращения: 08.10.2025).
  46. Типология субъектов РФ по степени восприимчивости к политике федерального центра. URL: https://cyberleninka.ru/article/n/tipologiya-subektov-rf-po-stepeni-vospriimchivosti-k-politike-federalnogo-tsentra (дата обращения: 08.10.2025).