Быстрый, точный выбор модели и тестирование перестановок для ℓ2-регуляризованной логистической регрессии

Аннотация Регуляризованная логистическая регрессия - это стандартный метод классификации, используемый...
2 метода
2.2 Одновременная логистическая регрессия
2.3 Подключение к связанным методам оптимизации
2.4 Анализ сложности
Алгоритм 1
2.5 Методы продолжения
2.6 Использование матриц данных низкого ранга
Лемма 1
Лемма 2
4 результатов

Аннотация
Регуляризованная логистическая регрессия - это стандартный метод классификации, используемый в статистике и машинном обучении. В отличие от регуляризованных задач наименьших квадратов, таких как регрессия гребня, оценки параметров не могут быть вычислены в замкнутой форме, а вместо этого должны оцениваться с использованием итерационного метода. В этой статье рассматривается вычислительная проблема регуляризованной логистической регрессии, с которой обычно сталкиваются при выборе модели и тестировании статистической значимости классификатора, в которой необходимо решить большое количество связанных задач логистической регрессии. Наш предлагаемый подход решает проблемы одновременно с помощью итеративного метода, который также обеспечивает вычислительную эффективность за счет использования избыточности в связанных задачах. Мы аналитически демонстрируем, что наш метод обеспечивает значительное снижение сложности, что подтверждается нашими результатами на реальных наборах данных.

1. Введение

Регуляризованная логистическая регрессия - это стандартная методика классификации для прогнозирования двоичной метки из набора признаков. Он был успешно использован в широком спектре приложений. Поскольку он способен не только предсказывать класс по данным, но также и вероятности апостериорного класса, он особенно популярен в области медицины и наук о жизни ( Хосмер и Лемешоу 2000 и ссылки в нем).

В то время как оценки параметров в регуляризованной регрессии наименьших квадратов, такой как регрессия гребня, могут быть вычислены в замкнутой форме, логистическая регрессия требует итерационного решателя. Наиболее популярным методом является вариант метода Ньютона, итеративно повторно взвешенный наименьших квадратов (IRLS), который итеративно минимизирует квадратичное приближение к вероятности. Этот подход может быть медленным, потому что он требует вычисления обратной матрицы Гессе. Этот шаг плохо масштабируется с размером проблемы, если у гессиана нет специальной структуры, такой как разреженная или полосатая.

Многие статьи посвящены этой вычислительной проблеме. Например, циклическая координата спуска ( Чжан и Олесь 2001 , Генкин и соавт. 2007 ) избегает инверсии матрицы Гессена путем обновления оценок по одной координате за раз. Техника Комарек и Мур (2003 , 2005 ) также избегает вычисления обратного гессиана путем решения каждого шага Ньютона методом сопряженных градиентов. Связанные методы оптимизации ( Бенинг и Линдсей 1988 , Кришнапурам и соавт. 2005 ) завершить последовательность шагов Ньютона только одной инверсией матрицы Гессе.

Хотя эти подходы были очень успешными в повышении эффективности логистической регрессии, реальные приложения редко состоят из решения только одной проблемы. Вместо этого все приложение машинного обучения включает в себя решение сотен или даже тысяч проблем регрессии в ходе выбора модели и тестирования значимости. Например, стратегии выбора моделей, основанные на перекрестной проверке, оценивают точность прогнозирования путем повторной подготовки классификатора к различным расщеплениям данных. Кроме того, оценка статистической значимости выбранной модели включает выполнение непараметрического теста, который обучает классификатор различным перестановкам данных. Эти соответствия модели вычисляются последовательно в цикле или параллельно, если доступен вычислительный кластер.

Для больших задач перекрестная проверка и тестирование значимости могут быть очень дорогостоящими, даже с эффективными решателями логистической регрессии. В контексте перекрестной проверки это иногда решается путем получения верхних границ ошибки обобщения, которые быстро вычисляются из обучающих данных ( Чжан 2003 , Коули и Тэлбот 2004 ). Эти границы, однако, могут быть свободными и могут сильно переоценить ошибку прогноза. Хорошо известно, что для регуляризованных наименьших квадратов (регрессия гребня) погрешность однозначного расчета можно вычислить точно из одной подгонки модели к обучающим данным ( Рифкин и Липперт 2007 ). Этот частный случай, к сожалению, не распространяется на логистическую регрессию.

С учетом этих соображений в данной статье рассматриваются вычислительные проблемы логистической регрессии с другой точки зрения. Вместо того, чтобы изучать параметры каждого классификатора tabula rasa , мы одновременно решаем множество проблем и используем общую структуру для повышения производительности вычислений. Наш метод прост в реализации и основан на устоявшейся теории стационарных итерационных методов решения линейных систем уравнений. Он может применяться для большого числа приложений, включая перекрестную проверку в K- кратном порядке и проверку значимости классификатора с помощью тестов перестановки.

В разделе 2 мы вводим необходимые предварительные сведения и обрисовываем в общих чертах наш подход, а также анализ сложности, который подчеркивает его достоинства. Затем мы предлагаем сводную информацию о приложениях нашего метода в Разделе 3. Наконец, мы проверяем наш подход к реальным наборам данных в Разделе 4 и заканчиваем возможностями для будущей работы в Разделе 5.

2 метода

2.1 Предварительные сведения

Пусть набор классификационных данных задан как {(x i, y i)} i = 1 N с признаками xi ∈ ℝ D и двоичными метками yi ∈ {0, +1}. Логистическая регрессия пытается найти разделяющую гиперплоскость в пространстве признаков, параметризованную нормальным вектором w = ( w 1,…, wD ) ∈ ℝ D , который разделяет два класса. Вероятность задней метки моделируется как:

Для простоты мы предполагаем, что смещение оценивается путем включения постоянного регрессора в пространство признаков, так что wD является членом смещения. Обозначим через µ ( xT w ) = p ( y = 1 | x, w ). Кроме того, пусть X = [ x 1 , x 2,…, xN ] будет матрицей данных.

Для логистической регрессии отрицательная логарифмическая вероятность:

Во многих случаях оценщик максимального правдоподобия может соответствовать учебным данным. Чтобы уменьшить переоснащение, штрафованные методы правдоподобия, основанные на l 2-регуляризации, стремятся минимизировать версию:

Матрица L может быть любой симметричной положительной полуопределенной (PSD) матрицей, и в этом случае J ( w ) является выпуклой функцией. Например, L может быть графом матрицы Лапласа ( Belkin et al. 2004 ) или единичная матрица.

Методы ньютоновского типа оптимизируют для w путем итеративной минимизации квадратичного приближения к J ( w ). Логарифмическое правдоподобие аппроксимируется локально вокруг текущей оценки w ( t ) квадратичной функцией Методы ньютоновского типа оптимизируют для w путем итеративной минимизации квадратичного приближения к J ( w ) ( w, w ( t )), заданный (игнорируя термины, не зависящие от w ):

где Н и ∇ где Н и ∇ ( w ( t )) - гессенская матрица и градиент ( w ) оценивается при w = w ( t ): ( w ( t )) - гессенская матрица и градиент ( w ) оценивается при w = w ( t ):

Здесь мы перегружаем нотацию µ ( XT w ( t )) для обозначения вектора столбца, чья i-я запись задается как µ (x i T w (t)). Кроме того, гессиан изменяется на каждой итерации на основе диагональной матрицы R , чьи диагональные записи содержат текущие отклонения модели:

Подставляя Подставляя ( w, w ( t )) into () дает нам цель минимизировать на каждой итерации: ( w, w ( t )) into () дает нам цель минимизировать на каждой итерации:

Приравнивая градиент Jq ( w ) к нулю, получим:

Эта процедура повторяется до сходимости.

2.2 Одновременная логистическая регрессия

Уравнение обновления в () сводится к решению линейной системы уравнений. Во многих ситуациях, включая перекрестную проверку и тестирование перестановок, это вычисление выполняется многократно для множества P различных задач. Несмотря на это, часто существует много общих структур в P- проблемах, которые в противном случае игнорируются. Мы предлагаем эффективный метод для вычисления обновления в () одновременно для ряда проблем, связанных с P. В частности, наш подход одновременно решает P линейных систем вида:

где матрица Ap имеет вид:

Rp - диагональная матрица с неотрицательными элементами, как в (). Обратите внимание, что () можно преобразовать в форму () и (), взяв C = 2 λL и m p = R p X T w p (t) + y - μ (X T w p (t)). Здесь мы используем индекс p переменной, чтобы подчеркнуть, что она зависит от задачи p ∈ {1,…, P }. Без нижнего индекса предполагается, что переменная является общей для всех задач P.

Есть много способов эффективного решения связанных систем линейных уравнений, таких как (). Например, учитывая факторизацию Холецкого для A 1, которая позволяет решить линейную систему с помощью обратной подстановки, существуют способы обновления факторизации для других Ap , p > 1 ( Голуб и Ван Лоан 1996 ). Однако эти методы предназначены для ситуаций, в которых матрицы связаны с возмущениями очень низкого ранга, такими как изменения ранга один в форме A p = A 1 + u p u p T для некоторого вектора столбца вверх . Сложность с () состоит в том, что, поскольку подгонка модели в целом различна для P- задач, веса в диагональных элементах Rp не являются общими для всех задач. В результате, изменчивость в Ap для P- задач не может быть смоделирована просто как возмущение низкого ранга.

Вместо этого мы сосредотачиваемся на стационарных итерационных методах решения линейной системы Ax = b из-за их простоты реализации и эффективности при правильном проектировании. Во всем мы предполагаем, что A обратим. В этом случае стационарные методы определяют последовательность итераций вида ( Молодой 1971 ):

где G обычно называется итерационной матрицей.

Две важные проблемы, связанные с этими методами: (а) сходится ли последовательность в (); и (б) согласованность - когда последовательность сходится, сходится ли она к единственному решению A −1 b ? К счастью, на эти вопросы легко ответить, когда матрица итераций G принимает специальный вид. В частности, при аддитивном расщеплении A = M - N последовательность () согласована при условии, что итерации принимают вид:

Кроме того, последовательность будет сходиться от любой инициализации x (0), если спектральный радиус G = M −1 N меньше единицы, ρ ( G ) <1 ( Молодой 1971 ). Скорость сходимости также сильно зависит от спектрального радиуса. В частности, оценка K ̃ количества итераций K, необходимого для уменьшения нормы ошибки на коэффициент factor, определяется выражением ( Хагеман и Янг 1981 ):

Стационарные итерационные методы чаще всего используются для эффективного решения одной линейной системы. В этих случаях M имеет особую структуру, так что Mx = y может быть решено очень эффективно. Например, итерация Якоби принимает M в качестве диагональной части A , в то время как итерация Гаусса-Зейделя принимает M в качестве нижней треугольной части A.

Однако наш подход направлен на эффективное решение многих связанных проблем, а не на одну отдельную проблему. В результате мы готовы потратить некоторое время на решение Mx = y , при условии, что это решение затем может быть применено ко всем решаемым P- задачам. Таким образом, мы производим аддитивное расщепление, в котором M- матрица является общей для P- задач. Учитывая матрицу матрицы M = XRXT + C , для некоторой диагональной матрицы R мы определяем наши разбиения как:

и итерации определяются как:

Поскольку итерации в () основаны на аддитивном расщеплении, мы уверены в согласованности. Однако для сходимости мы должны рассмотреть спектральный радиус Gp = M −1 Np для каждого p = 1,…, P. В связи с этим у нас есть свобода конструировать диагональную матрицу R, чтобы обеспечить сходимость для всех p .

Поскольку M и Np являются симметричными матрицами, мы знаем, что все собственные значения M −1 Np являются действительными. Кроме того, собственные значения M −1 Np равны обобщенным собственным значениям λMx = Npx . Таким образом, ρ ( Gp ) = max x | xT Npx | / | xT Mx | , Далее мы предполагаем, что C положительно определен, а γ min > 0 - его минимальное собственное значение. Кроме того, пусть σ max > 0 будет максимальным единственным значением X. Тогда мы можем ограничить ρ ( Gp ) следующим образом:

Чтобы убедиться, что ρ ( Gp ) < 1, достаточно спроектировать матрицу весовых коэффициентов R так, чтобы для каждого p

для всех единичных векторов w . Это можно удовлетворить, приняв

поэлементный максимум. В этом случае и R, и R - Rp являются PSD для всех p , и () уменьшается до:

что верно, поскольку Rp является PSD-матрицей, а правая часть () строго отрицательна.

2.3 Подключение к связанным методам оптимизации

Методы оптимизации границ - это алгоритмы в стиле EM, которые используют верхнюю границу гессиана ( Бенинг и Линдсей 1988 ), ( Кришнапурам и др., 2005 ). Для логистической регрессии граница возникает из того факта, что диагональные элементы R в () ограничены диапазоном [0, ¼, и поэтому H ∼ = 1 4 X X T верхняя граница гессиана в () в том смысле, что H - H является PSD (обозначается H ̃ ≽ H ). Отсюда берется последовательность квазиньютоновских шагов с заменой H на H ̃.

Таким образом, применение этого метода одновременно к P задачам сводится к решению системы P линейных систем уравнений вида Awp = Xmp , где A = H ̃ + C. Поскольку A постоянен на протяжении итераций, вся последовательность квазиньютоновских шагов может быть предпринята только с помощью одного вычисления инверсии.

Связь с нашим подходом может быть связана с тем фактом, что матрица шаблона, вычисляемая на каждой итерации, также служит верхней границей для гессиана, поскольку принятие R в качестве () гарантирует, что XRXT ≽ XRpXT для каждого p . Таким образом, наш подход можно интерпретировать как инициализацию каждого шага Ньютона из приближенного решения, заданного оптимизацией границ, с последующей последовательностью итераций в (), которая уточняет оценки до истинного решения шага Ньютона.

Стадия уточнения может значительно улучшить свойства сходимости: в то время как наша система реализует истинный шаг Ньютона, который в целом имеет свойства квадратичной сходимости, метод оптимизации с привязкой может гарантировать только линейную сходимость ( Бенинг и Линдсей 1988 ). Более того, в следующем разделе мы покажем, что итерации уточнения могут быть эффективно вычислены.

2.4 Анализ сложности

В этом разделе мы анализируем вычислительную сложность каждого шага Ньютона для предложенного нами подхода и сравниваем его с методом инверсии методом грубой силы, который мы называем прямым методом. Ключевыми переменными в этом анализе являются число функций, D , количество обучающих примеров, N , количество проблем, которые необходимо решить, P , и для нашего подхода, число итераций, необходимых для () сходимости, K.

Прямой подход требует вычисления XRpXT для каждого p = 1,…, P , который равен O ( DN + D 2 N ). Впоследствии, шаг обращения решения Apwp = Xmp равен O ( D 3 + 2 D 2). Это приводит к общей сложности для прямого метода:

Прежде чем детализировать сложность нашего подхода, мы сначала покажем, что обновления в () могут быть вычислены с помощью одного матричного умножения для всех P задач. Пусть матрица D × N Y является решением для MY = X , где M - матрица шаблона, а X - матрица данных. Кроме того, пусть W ( k ) - матрица D × P , p-й столбец которой равен оценочным весам регрессии для задачи p на итерации k , w p (k). Наконец, обозначим R ̂ как матрицу N × P, чей p-й столбец - это диагональные элементы R - Rp , а B - матрицу, чей p-й столбец равен Y mp . Тогда W ( k +1) можно выразить как:

где ∘ обозначает поэлементное произведение Адамара.

Теперь мы готовы вычислить сложность нашего подхода. Решение для Y из MY = X требует O ( D 3 + 2 D 2 N ) операций, а вычисление B - это O ( DNP ). Обновление в () требует O (2 P DN + PN ) и вычисляется K раз. Таким образом, общая сложность предложенного нами подхода определяется следующим образом:

Как видно из (), число итераций K для решателя линейной системы представляет собой баланс между спектральным радиусом матриц итераций M −1 Np и начальной ошибкой. K , однако, не имеет тенденцию расти с D или N. Таким образом, сравнивая () и (), мы видим, что, хотя прямой метод имеет два кубических члена D 2 N и D 3, которые растут с P , наш предложенный подход масштабируется намного лучше с размером задачи, имея только самое большее члены второго порядка, которые расти вместе с P.

Псевдокод для алгоритма приведен в. В следующих двух разделах мы обсудим две модификации, которые еще больше улучшают сложность в (). Первый основан на методах продолжения и имеет эффект уменьшения числа итераций внутреннего цикла K. За этим следует результат в Разделе 2.6, который применим к пространствам пространственных объектов и использует несоответствие между количеством объектов D и рангом матрицы данных. Это приводит к замене D в () на s = rank ( X ).

Алгоритм 1

Одновременные Шаги Ньютона

Учитывая матрицу данных X и матрицу регуляризации C. Учитывая Rp, mp для каждой задачи p = 1,…, P Инициализируйте w p (0) и соберите столбцы в W (0). Смонтируйте диагонали Rp как столбцы в R into Вычислите R как ряд мудрый максимум из R ̂ Вычислить матрицу шаблонов M = XRXT + C Решить MY = X для Y Вычислить B , у которого p-й столбец равен Y mp для k = 1,… сделать Вычислить корректировку обновления: если max j || ( W ( k +1) - W ( k )) T ej || 2 <tol, тогда K = k break end, если end для p-го столбца W ( K ) содержит решение Apwp = Xmp , где Ap = XRpXT + C

2.5 Методы продолжения

Матрица регуляризации C в () обычно включает параметр λ, который компенсирует вероятность совпадения с регуляризацией. Например, штраф за гребень принимает C = 2 λI . Поскольку этот параметр не известен априори, он часто выбирается методом перекрестной проверки, который соответствует модели для диапазона значений λ .

Похожий на ( Фридман и соавт. 2010 ), требующие подгонки для нескольких значений λ, могут быть использованы для нашего преимущества с помощью процедуры горячего старта, в которой результаты от больших значений λ используются для инициализации подгонки для последовательно меньших значений λ . Интуиция заключается в том, что более высокая регуляризация еще больше ограничивает проблему, облегчая ее решение. Решение можно затем использовать для лучшей инициализации более сложных (меньших λ ) задач.

В целом, большие λ- проблемы легче решить, поскольку они требуют меньше шагов Ньютона. В контексте предложенного алгоритма, однако, есть вторичное преимущество в том, что для больших значений λ каждый шаг Ньютона является более эффективным, потому что итеративный решатель () имеет тенденцию требовать меньше итераций, чтобы сходиться. Рассуждение двоякое. Во-первых, спектральный радиус итерационной матрицы уменьшается при большей регуляризации. Чтобы увидеть это, пусть C (1) , C (2),…, C ( M ) обозначают матрицы регуляризации в () для убывающей последовательности параметров регуляризации λ 1 > λ 2>…> λM = 0. Отметим, что, поскольку C ( k ) = λkC , для некоторой базовой матрицы PSD C мы знаем, что собственные значения C ( k ) растут пропорционально с λ . Отсюда легко видеть, что спектральный радиус итерационной матрицы G ( k ) = ( XRXT + C ( k )) - 1 Np имеет тенденцию к уменьшению при увеличении k . Вторая причина заключается в том, что более высокая регуляризация приводит к сокращению оценок, что приводит к уменьшению изменчивости в соответствии с моделью. В результате в элементах Rp- матриц наблюдается меньшая изменчивость, и в этом случае матричная матрица M служит лучшей моделью для гессиана всех P- задач. Эти интуиции подтверждаются в результатах.

Кроме того, из () видно, что число итераций K также зависит от точности нашей инициализации. Таким образом, теплый запуск может значительно улучшить сходимость для меньших значений λ , уменьшив начальную ошибку аппроксимации, даже если спектральный радиус итерационной матрицы больше.

2.6 Использование матриц данных низкого ранга

Дальнейшие вычислительные улучшения могут быть сделаны, если существует большое несоответствие между количеством признаков в наборе данных, D , и рангом матрицы данных, s = ранг ( X ) (например, когда N <D ). Фактически () можно преобразовать из систем уравнений D в системы уравнений s . Для этого нам понадобится факторизация низкого ранга матрицы данных, X = QZ , с Q ∈ ℝ D × s, имеющей ортонормированные столбцы, и Z ∈ ℝ s × N. Результат следует из следующих двух лемм, доказательства которых приведены в дополнительный материал ,

Лемма 1

Решение wp для Apwp = Xmp удовлетворяет wp ∈ range ( C −1 Q ).

Лемма 2

Пусть [Q W] - матрица с ортонормированными столбцами, которая является базой для диапазона ([ Q , C −1 Q ]). Обратите внимание, что W имеет не более s столбцов. Тогда решение wp для Apwp = Xmp можно вычислить, сначала решив линейную систему из s уравнений:

где

Тогда wp можно получить из w ̃ p следующим образом:

Поскольку () принимает ту же форму, что и (), мы можем реализовать предложенный алгоритм для решения (). Это дает значительную вычислительную экономию, когда s <D . В частности, в уравнении сложности нашего подхода в () все вхождения D заменяются на s .

4 результатов

Мы применили наш алгоритм к ряду реальных наборов данных и сравнили его скорость с прямым методом инвертирования матрицы Гессе независимо для каждой задачи p . Чтобы обеспечить достоверное сравнение, допуск сходимости, используемый в нашем алгоритме, был установлен очень консервативно при tol = 1 × 10 - 11. Во всех анализах матрица регуляризации принималась за масштабированную единичную матрицу с последней диагональной записью, установленной на ноль. , Обнуление последней записи предотвращает сжатие смещения. Степень регуляризации определяется параметром λ .

База данных рукописных цифр MNIST ( LeCun et al. 1998 ), является хорошо зарекомендовавшим себя набором данных для машинного обучения. Данные состоят из 6000 изображений уровня серого 28 × 28 для каждой цифры от 0 до 9. Из этой базы данных были получены два набора данных двоичной классификации - отличительная цифра 0 от цифры 1 и более сложный случай различения цифр 4 и 9. Особенности соответствовали интенсивности пикселей, с D = 282 + 1 = 785.

Классификация с опережением была выполнена для наборов данных с субдискретизацией размером от 1 000 до 10 000 с шагом 1 000. Для каждого размера обучающего набора мы сравнивали время вычислений нашего подхода и прямого метода, вычисляя число запусков "оставь один раз", которые можно вычислить прямым методом за то же время, которое требовалось нашему методу для завершения полного набора перекрестной проверки "оставь один раз". Мы называем эту величину эффективным размером задачи нашего метода, а отношение P (размера обучающего набора) к эффективному размеру задачи дает общий коэффициент ускорения. Графики эффективного размера задачи приведены в. Ясно, что ускорение вычислений постоянно составляет около 100 × как для наборов данных MNIST, так и для значений параметра регуляризации λ .

Ясно, что ускорение вычислений постоянно составляет около 100 × как для наборов данных MNIST, так и для значений параметра регуляризации λ

Перекрестная валидация «один-один-один» ( P = размер обучающего набора) с использованием предложенного метода по сравнению с прямым методом IRLS для наборов данных MNIST и различных размеров обучающего набора. Размер эффективной задачи представляет собой количество проблем, которые могут быть решены прямым методом за то же время, что и весь LOO, установленный для предлагаемого метода. Например, перекрестная проверка LOO с помощью нашего предложенного подхода для размера обучающего набора P = 2000 может быть вычислена в то же время, что и приблизительно P = 20 крат, прямым методом, что приводит к ускорению в 100 раз.

Мы также сравнили наш алгоритм с данными MNIST для случая 10-кратной перекрестной проверки, повторенной через 100 случайных разбиений, так что общее число проблем P = 1000. Подобно анализу «оставь один», мы снова строим эффективный размер задачи по сравнению с размером обучающего набора для различных значений параметра регуляризации. В этом случае P постоянно больше размера тренировочного набора, поэтому коэффициент ускорения равен отношению 1000 к эффективному размеру задачи. Участки приведены в. В этом случае ускорение колеблется от 30 × до 100 ×. Фактор, способствующий уменьшению ускорения по сравнению с анализом «оставь один», обусловлен тем, что в модели, подходящей для 10-кратной перекрестной проверки, больше вариабельность, чем перекрестной проверки «один-один-выход».

10-кратная перекрестная проверка с использованием предложенного метода для наборов данных MNIST и различных размеров обучающих наборов. Каждый прогон перекрестной проверки повторяли более 100 случайных разбиений, что приводило к общим проблемам P = 1000. Эффективный размер задачи представляет собой число проблем, которые могут быть решены прямым методом за то же время, что и задачи P для предложенного метода. Здесь отношение 1000 к эффективному размеру задачи дает вычислительное ускорение, которое варьируется от 30 × до 100 ×.

Мы также применили нашу методику к задачам тестирования значимости классификатора на наборах данных электроэнцефалографии (ЭЭГ) и функциональной МРТ (ФМРТ), собранных во время задачи обнаружения слухового чудака ( Goldman et al. 2009 ). Тесты перестановки использовались для оценки производительности странного шара по сравнению со стандартными показателями прогнозирования классификаторов, полученных отдельно от данных ЭЭГ и ФМРТ. Всего было N = 374 примера, при этом пространство признаков ЭЭГ соответствовало измеренным напряжениям от 43 биполярных электродов, усредненных по окну 50 мс ( D = 44), в то время как для классификатора fMRI пространством признаков был BOLD-ответ 300 вокселей в слуховой коре ( D = 301).

отображает эффективный размер задачи в зависимости от количества тестов перестановки P как для классификатора ЭЭГ, так и для классификатора fMRI, а также различных значений регуляризации λ . Для классификатора ЭЭГ улучшение вычислений составляет ~ 10 ×, в то время как для классификатора fMRI улучшение составляет ~ 100 ×. Более существенное улучшение для случая ФМРТ связано с более высоким размером пространства признаков ( D = 301 против D = 44).

Более существенное улучшение для случая ФМРТ связано с более высоким размером пространства признаков ( D = 301 против D = 44)

Тестирование перестановок с использованием предложенного метода сравнивается с методом прямого IRLS для наборов данных ЭЭГ и fMRI и различного числа перестановок P. Эффективный размер задачи представляет собой число перестановок, которые могут быть решены прямым методом в то же время, что и весь набор P перестановок с помощью предложенного нами подхода. Здесь отношение количества перестановок P к эффективному размеру задачи дает ускорение вычислений.

Наконец, мы провели дополнительный анализ набора данных MNIST, чтобы проверить эффективность применения метода продолжения к нашему подходу, как подробно описано в разделе 2.5. Здесь мы сравнили общее время, требуемое для выполнения перекрестной проверки без выходных для значений регуляризации λ ∈ {1 , 10,…, 1 e 10} между инициализацией каждой регуляризации с w = 0 и прогревом, начиная с результатов следующее наибольшее значение регуляризации. Это сравнение было выполнено для различных размеров тренировочных наборов. Метод продолжения обеспечил дополнительное улучшение ~ 1,5 ×, и это было согласовано для размеров тренировочного набора.

Успенский Кафедральный Собор

Иоанно-Предтеченский Монастырь

Троицкий собор

Быстрый, точный выбор модели и тестирование перестановок для ℓ2-регуляризованной логистической регрессии

1. Введение

2 метода

2.1 Предварительные сведения

2.2 Одновременная логистическая регрессия

2.3 Подключение к связанным методам оптимизации

2.4 Анализ сложности

Алгоритм 1

2.5 Методы продолжения

2.6 Использование матриц данных низкого ранга

Лемма 1

Лемма 2

4 результатов

Похожие

Разделы

Анонсы

Новости

Смс-сервис

Форум

Вход на сайт

Фото Дня

Конкурсы

Календарь

Публикации