Метод Ньютона. Проблема области сходимости. Метод парабол. Совмещение методов Ньютона и парабол
Материал из MachineLearning.
Содержание
Постановка задачи одномерной оптимизации
Задача одномерной оптимизации определяется следующим образом:
Тогда решить задачу означает одно из:
Если минимизируемая функция не является выпуклой, то часто ограничиваются поиском локальных минимумов и максимумов: точек таких, что всюду в некоторой их окрестности для минимума и для максимума.
Метод Ньютона
Если – точка, полученная на k-м шаге, то функция аппроксимируется своим уравнением касательной:
Когда начальная точка итераций достаточно близка к искомому минимуму, скорость сходимости метода Ньютона в общем случае квадратическая. Однако, глобальная сходимость метода Ньютона, вообще говоря, не гарантируется.
Хороший способ гарантировать глобальную сходимость этого метода состоит в комбинировании его с другим методом для быстрого получения хорошей аппроксимации искомого оптимума. Тогда несколько итераций метода Ньютона, с этой точкой в качестве исходной, достаточны для получения превосходной точности.
Ограничения
Ниже приведена формулировка основной теоремы, которая позволяет дать чёткие условия применимости. Теорема Канторовича.
Из последнего из утверждений теоремы в частности следует квадратичная сходимость метода:
Тогда ограничения на исходную функцию будут выглядеть так:
В случае решения задачи оптимизации под функцией понимаем ее производную.
Проблема области сходимости
Запишем итерационный процесс:
Известно, что условием сходимости этого процесса будет неравенство
Тогда, следуя обозначениям
При выборе начального приближения из той же окрестности такого, что
Метод парабол
Числовой пример
Сравним работу методов Ньютона и парабол на примере много экстремальной функции при одинаковом начальном приближении:
(номер итерации)
полученное методом Ньютона
полученное методом парабол
0
1.3
1.3
53.89938129
53.89938129
1
2.472235424
2.472080749
67.28692280
67.27673489
2
1.449211232
1.452275085
34.85893188
34.25354559
3
1.626598277
1.624678936
-5.832725638
-5.389540219
4
1.601301575
1.601390533
0.095723918
0.074598093
5
1.60170464
1.601718525
1.59821E-05
-0.003280363
6
1.601704707
1.601718641
4.0945E-13
-0.00330785
Код функций на С++, с помощью которых были произведены все расчеты можно скачать тут.
. это они от радости усложняют, из увлечения умственным раньше они голыми руками работали и без смысла в голове; пусть теперь радуются своему разуму.
Если исходить из того, что необходимым этапом нахождения решения задачи
(обозначение F для f ′ мы будем сохранять на протяжении всего параграфа), то можно попытаться решать уравнение (2) известным методом Ньютона решения нелинейных уравнений
x n +1 = x n [ F ′( x n )] 1 F ( x n ).
(3)
Для задачи (1) этот метод называется методом Ньютона безусловной оптимизации и задается формулой
x n +1 = x n [ f ′′( x n )] 1 f ′( x n ).
(4)
Формула (3) может быть выведена, исходя из следующих соображений. Пусть некоторое приближенное решение уравнения (2). Тогда если заменить функцию F в уравнении (2) ее линейным приближением
F ( x ) ≈ Φ( x ) ≝ F ( x n ) + F ′( x n )( x x n )
и взять в качестве следующего приближения решение уравнения
то мы получим формулу (3).
Применительно к задаче (1) эти соображения выглядят так. Пусть так же, как и в п. 3.2 у нас уже есть некоторое приближенное решение x n задачи (1). Заменим в ней функцию f ее приближением второго порядка:
f ( x ) ≈ φ( x ) ≝ f ( x n ) + ( f ′( x n ), x x n ) +
1 2
( f ′′( x n )( x x n ), x x n )
и в качестве следующего приближения возьмем решение задачи
З а д а ч а 4.1*. Докажите, что если f ′′( x n ) > 0, то решение задачи (6) задается формулой (4).
Геометрическая интерпретация формул (3) и (4) приведена на рис. 10а и 10б.
Пусть f дважды непрерывно дифференцируема, невырожденная стационарная точка. Тогда найдется окрестность точки x* такая, что приближения (4), начатые из произвольной начальной точки сверхлинейно сходятся к x*.
Д о к а з а т е л ь с т в о. Очевидно, и поэтому
lim x → x *
|| F ′( x ) F ′( x *)|| = 0.
(7)
Поскольку F ′( x *) невырожден, в силу (7) при x достаточно близких к x * невырожден и оператор и более того,
lim x → x *
||[ F ′( x )] 1 [ F ′( x *)] 1 || = 0.
Поэтому, в частности, при x достаточно близких к x *
Далее, в силу того, что F дифференцируема, а стационарная точка,
F ( x ) = F ( x *) + F ′( x *)( x x *) + o ( x x *) = F ′( x *)( x x *) + o ( x x *),
x x * [ F ′( x )] 1 F ( x ) = [ F ′( x )] 1 F ′( x )( x x *) [ F ′( x )] 1 F ( x ) =
= [ F ′( x )] 1 [ F ′( x )( x x *) F ( x )] = o ( x x *).
x [ F ′( x )] 1 F ( x ) x * = o ( x x *).
В частности, при x = x n
x n +1 x * = x n [ F ′( x n )] 1 F ( x n ) x * ≝
≝ φ( x n x *) = o ( x n x *).
(9)
Возьмем теперь в качестве например, окрестность В силу (9), очевидно, если то
и, следовательно, x n → x * при n → ∞. Более того, для произвольного найдется такое, что при Но тогда, если то Из последнего утверждения очевидным образом вытекает нужное соотношение
4.3. Обсуждение метода Ньютона.
Таким образом, метод Ньютона, с одной стороны, может сходиться с более высоким чем градиентный метод порядком, а, с другой стороны, для его сходимости требуются достаточно хорошие начальные приближения (по крайней мере так требуется в доказанной теореме). Простой геометрический пример (см. рис. 11) подтверждает эту особенность метода (мы приводим пример для уравнения (2); соответствующий пример для задачи (1) получается «интегрированием» рис. 11).
К этому сводятся основные преимущества (высокий порядок сходимости) и недостатки (локальный характер сходимости и больший объем вычислений) метода Ньютона.
где q = L || f ′( x 0 )||/2λ 2 x * задачи (1) существует и единственно. Воспользуемся аналогом формулы Лейбница для функции
f ′( x n + h ) f ′( x n ) =
Вычитая из обеих частей этого равенства ∫ 0 1 f ′′( x n ) h ds и учитывая, что удовлетворяет условию Липшица, получаем (ср.).
|| f ′( x n + h ) f ′( x n ) f ′′( x n ) h || ≤
0
[ f ′′( x n + sh ) f ′′( x n )] h ds
0
|| f ′′( x n + sh ) f ′′( x n ) h || ds ≤
Положим в полученной оценке
|| f ′( x n + h ) f ′( x n ) + f ′′( x n )[ f ′′( x n )] 1 f ′( x n )|| = || f ′( x n +1 )|| ≤
≤
L 2
||[ f ′′( x n )] 1 f ′( x n )|| 2 ≤
З а д а ч а 4.2*. Докажите, что если обратимый линейный оператор A на R m удовлетворяет оценке то
Поскольку f сильно выпукла, в силу задачи 2.15, f ′′( x n ) ≥ λ и поэтому (см. пред. задачу) Продолжая неравенство (10), получаем
С помощью (11) индукцией по n легко доказывается неравенство
2λ 2 L
(
L 2λ 2
|| f ′( x 0 )||
λ|| x n x *|| 2 ≤ ( f ′( x *), x n x *) ≤ || f ′( x *) x n x *||,
откуда Тогда из (12) следует нужное неравенство.
4.5. Продолжение обсуждения метода Ньютона.
Из доказанной теоремы следует, что чем меньше константа Липшица отображения чем ближе это отображение к константе, и, следовательно, чем ближе функция f к квадратичной, тем быстрее сходится метод Ньютона. В частности, если f квадратична: то метод Ньютона конечен, а именно, сходится за один шаг, причем из любой начальной точки.
З а д а ч а 4.3. Докажите.
З а д а ч а 4.4. Покажите, что для функции метод Ньютона сходится лишь линейно.
Как позволяет думать теорема 4.4, метод Ньютона даже для сильно выпуклых функций в общем случае сходится лишь локально. В следующем пункте мы описываем модификации этого метода, которые могут обладать свойством глобальной сходимости.
x n +1 = x n α n [ f ′′( x n )] 1 f ′( x n ).
Длина шага может выбираться с помощью алгоритма дробления шага (см. п. 3.9), требуя, например, выполнения неравенства
f ( x n +1 ) = f ( x n α n [ f ′′( x n )] 1 f ′( x n )) ≤
≤ f ( x n ) εα n ( f ′( x n ), [ f ′′( x n )] 1 f ′( x n )),
или, как в методе наискорейшего спуска полагая
Можно показать, что методы Рафсона для сильно выпуклых функций глобально квадратично сходятся (по крайней мере для описанных выше алгоритмов выбора шага), причем вдали от точки минимума они сходятся линейно.
4.7. Метод Маркардта.
Этот метод основан на следующей идее. Чтобы избежать расходимости приближений метода Ньютона, вызванных неудачным выбором начального приближения (см. рис. 11), можно попытаться запретить следующей итерации быть слишком далеко от предыдущей. Для этого следующую итерацию ищут из условия
x n +1 = argmin φ( x ) ≝ argmin < f ( x n ) + ( f ′( x n ), x x n ) +
+
1 2
( f ′′( x n )( x x n ), x x n ) +
Θ = φ′( x ) = f ′( x n ) + f ′′( x n )( x x n ) + l n ( x x n ).
x n +1 = argmin φ( x ) = x n [ f ′′( x n ) + l n I ] 1 f ′( x n ).
(13)
где ε 1 ∈ (0, 1) и ε 2 ∈ (0, 1/2) параметры.
4.8. Еще один недостаток метода Ньютона. Модифицированный метод Ньютона.
В некоторых задачах более существенным недостатком метода Ньютона является его большая вычислительная трудность: на каждом шаге требуется вычисление оператора (матрицы) и его (ее) обращение, что при больших размерностях ст ó ит в вычислительном плане очень дорого. Один из способов обхода этих трудностей состоит в «замораживании» оператора использовании на каждом шаге взамен
x n +1 = x n [ f ′′( x 0 )] 1 f ′( x n ).
(14)
Геометрическая интерпретация модифицированного метода Ньютона (14) изображена на рис. 12.
Можно показать, что при естественных ограничениях модифицированный метод Ньютона сходится лишь линейно (это плата за уменьшение объема вычислений). Можно также не замораживать оператор навсегда, а обновлять его через определенное число шагов, скажем k :
x n +1 = x n [ f ′′( x [ n / k ]· k )] 1 f ′( x n );
(15)
за k шагов порядок погрешности уменьшается что соответствует следующей оценке погрешности на каждом шаге:
Другими словами, метод (15) является методом порядка сходимости. Таким образом, метод (15) занимает промежуточное положение между методом Ньютона и модифицированным методом Ньютона (14) как по скорости сходимости, так и по объему вычислений.
Другой способ уменьшения объема работы, связанного с вычислением функции описывается в следующем пункте.
Напомним, что метод секущих решения уравнения (2) заключается в приближенной замене функции F в этом уравнении не касательной а секущей гиперплоскостью. Например, в одномерном прямой (см. рис. 13). Эта замена приводит (в скалярном случае!) к следующему методу решения задачи (1):
x n x n 1 f ′( x n ) f ′( x n 1 )
f ′( x n ),
(в общем положении эта точка единственна).
m ∑ i = 0
α i f ′( x n i ) = 0,
Затем описанные действия повторяются для точек
Отметим, что поскольку на каждом шаге в системе (16) меняется лишь один столбец, то ее решение на каждом шаге можно обновлять с помощью специальной процедуры, не требующей большого объема вычислений.
File based on translation from T E X by T T H, version 3.05. Created 7 Jun 2002, 21: 38.
Вычисления по (4) проводятся до тех пор, пока \( f(x_k) \) не станет близким к нулю. Более точно, до тех пор, пока \( |f_(x_k)| > \varepsilon \), где \( \varepsilon \) — малая величина.
Простейшая реализация метода Ньютона может выглядеть следующим образом:
Чтобы найти корень уравнения \( x^2 = 9 \) необходимо реализовать функции
Данная функция хорошо работает для приведенного примера. Однако, в общем случае могут возникать некоторые ошибки, которые нужно отлавливать. Например: пусть нужно решить уравнение \( \tanh(x) = 0 \), точное решение которого \( x = 0 \). Если \( |x_0| \leq 1.08 \), то метод сходится за шесть итераций.
Теперь зададим \( x_0 \) близким к \( 1.09 \). Возникнет переполнение
Проблема заключается в том, что при таком начальном приближении метод Ньютона расходится.
Еще один недостаток функции naive_Newton заключается в том, что функция f(x) вызывается в два раза больше, чем необходимо.
Метод Ньютона сходится быстро, если начальное приближение близко к решению. Выбор начального приближение влияет не только на скорость сходимости, но и на сходимость вообще. Т.е. при неправильном выборе начального приближения метод Ньютона может расходиться. Неплохой стратегией в случае, когда начальное приближение далеко от точного решения, может быть использование нескольких итераций по методу бисекций, а затем использовать метод Ньютона.
Решение нелинейных систем
Таким образом, \( k \)-я итерация метода Ньютона состоит из двух стадий:
2. Находится значение вектора на следующей итерации \( \pmb^ <(k+1)>= \pmb^ <(k)>+ \pmb <\delta>\).
Когда система нелинейных уравнений возникает при решении задач для нелинейных уравнений в частных производных, матрица Якоби часто бывает разреженной. В этом случае целесообразно использовать специальные методы для разреженных матриц или итерационные методы.
Можно также воспользоваться методами, реализованными для систем линейных уравнений.
Метод Ньютона — это численный метод решения системы нелинейных уравнений вида F(X)=0 с заданной точностью ε.
Содержание
[править] Описание метода
Суть метода Ньютона состоит в расчётах новой точки X по старой точке.
Для решения методом Ньютона системы n нелинейных уравнений с n неизвестными, то есть системы вида:
Затем для k=0 выбираем начальную точку X0 в некоторой окрестности решения X*, причём ΔЯ(X0)≠0, например X0=(1;1;…;1). Далее на (k+1)-шаге вычисляем матрицу Якоби Я(Xk)=F’(Xk), систему функций F(Xk) в точке Xk, и новую точку Xk+1 вычисляем по формуле:
Расстояние между точками определяется по формуле:
Итерации продолжаются до достижения необходимой точности решения ε.
Задачи решения уравнений постоянно возникают на практике, например, в экономике, развивая бизнес, вы хотите узнать, когда прибыль достигнет определенного значения, в медицине при исследовании действия лекарственных препаратов, важно знать, когда концентрация вещества достигнет заданного уровня и т.д.
В задачах оптимизации часто необходимо определять точки, в которых производная функции обращается в 0, что является необходимым условием локального экстремума.
В статистике при построении оценок методом наименьших квадратов или методом максимального правдоподобия также приходится решать нелинейные уравнения и системы уравнений.
Итак, возникает целый класс задач, связанных с нахождением решений нелинейных уравнений, например, уравнения или уравнения и т.д.
В простейшем случае у нас имеется функция , заданная на отрезке ( a, b ) и принимающая определенные значения.
Каждому значению x из этого отрезка мы можем сопоставить число , это и есть функциональная зависимость, ключевое понятие математики.
Нам нужно найти такое значение при котором такие называются корнями функции
Визуально нам нужно определить точку пересечения графика функциис осью абсцисс.
Метод деления пополам
Простейшим методом нахождения корней уравнения является метод деления пополам или дихотомия.
Этот метод является интуитивно ясным и каждый действовал бы при решении задачи подобным образом.
Алгоритм состоит в следующем.
Предположим, мы нашли две точки и , такие что и имеют разные знаки, тогда между этими точками находится хотя бы один корень функции .
Поделим отрезок пополам и введем среднюю точку .
Тогда либо , либо .
Оставим ту половину отрезка, для которой значения на концах имеют разные знаки. Теперь этот отрезок снова делим пополам и оставляем ту его часть, на границах которой функция имеет разные знаки, и так далее, достижения требуемой точности.
Очевидно, постепенно мы сузим область, где находится корень функции, а, следовательно, с определенной степенью точности определим его.
Заметьте, описанный алгоритм применим для любой непрерывной функции.
К достоинствам метода деления пополам следует отнести его высокую надежность и простоту.
Недостатком метода является тот факт, что прежде чем начать его применение, необходимо найти две точки, значения функции в которых имеют разные знаки. Очевидно, что метод неприменим для корней четной кратности и также не может быть обобщен на случай комплексных корней и на системы уравнений.
Порядок сходимости метода линейный, на каждом шаге точность возрастает вдвое, чем больше сделано итераций, тем точнее определен корень.
Метод Ньютона: теоретические основы
Классический метод Ньютона или касательных заключается в том, что если — некоторое приближение к корню уравнения , то следующее приближение определяется как корень касательной к функции , проведенной в точке .
Уравнение касательной к функции в точке имеет вид:
В уравнении касательной положим и .
Тогда алгоритм последовательных вычислений в методе Ньютона состоит в следующем:
Сходимость метода касательных квадратичная, порядок сходимости равен 2.
Таким образом, сходимость метода касательных Ньютона очень быстрая.
Запомните этот замечательный факт!
Без всяких изменений метод обобщается на комплексный случай.
Если кореньявляется корнем второй кратности и выше, то порядок сходимости падает и становится линейным.
Упражнение 1. Найти с помощью метода касательных решение уравнения на отрезке (0, 2).
Упражнение 2. Найти с помощью метода касательных решение уравнения на отрезке (1, 3).
К недостаткам метода Ньютона следует отнести его локальность, поскольку он гарантированно сходится при произвольном стартовом приближении только, если везде выполнено условие , в противной ситуации сходимость есть лишь в некоторой окрестности корня.
Недостатком метода Ньютона является необходимость вычисления производных на каждом шаге.
Визуализация метода Ньютона
Метод Ньютона (метод касательных) применяется в том случае, если уравнение f(x) = 0 имеет корень, и выполняются условия:
1) функция y=f(x) определена и непрерывна при ;
2) f(a)·f(b) 0. Таким образом, выбирается точка с абсциссой x0, в которой касательная к кривой y=f(x) на отрезке [a;b] пересекает ось Ox. За точку x0 сначала удобно выбирать один из концов отрезка.
Рассмотрим метод Ньютона на конкретном примере.
Уравнение касательной в общем виде имеет представление:
В нашем случае: y-y0=2x0·(x-x0). В качестве точки x0 выбираем точку B1(b; f(b)) = (2,2). Проводим касательную к функции y = f(x) в точке B1, и обозначаем точку пересечения касательной и оси Ox точкой x1. Получаем уравнение первой касательной:y-2=2·2(x-2), y=4x-6.
Точка пересечения касательной и оси Ox: x1 =
Рисунок2.Результат первой итерации
Затем находим точку пересечения функции y=f(x) и перпендикуляра, проведенного к оси Ox через точку x1, получаем точку В2 =(1.5; 0.25). Снова проводим касательную к функции y = f(x) в точке В2, и обозначаем точку пересечения касательной и оси Ox точкой x2.
Точка пересечения касательной и оси Ox: x2 =.
Рисунок3.Вторая итерация метода Ньютона
Затем находим точку пересечения функции y=f(x) и перпендикуляра, проведенного к оси Ox через точку x2, получаем точку В3 и так далее.
В3 = ()
Рисунок4.Третий шаг метода касательных
Первое приближение корня определяется по формуле:
= 1.5.
Второе приближение корня определяется по формуле:
=
Третье приближение корня определяется по формуле:
Таким образом,i-ое приближение корня определяется по формуле:
using namespace std;
float f(double x) //возвращает значение функции f(x) = x^2-2
float df(float x) //возвращает значение производной
float d2f(float x) // значение второй производной
int _tmain(int argc, _TCHAR* argv[])
int exit = 0, i=0;//переменные для выхода и цикла
double x0,xn;// вычисляемые приближения для корня
double a, b, eps;// границы отрезка и необходимая точность
cin>>a>>b; // вводим границы отрезка, на котором будем искать корень
cin>>eps; // вводим нужную точность вычислений
if (a > b) // если пользователь перепутал границы отрезка, меняем их местами
if (f(a)*f(b)>0) // если знаки функции на краях отрезка одинаковые, то здесь нет корня
xn = x0-f(x0)/df(x0); // считаем первое приближение
cout eps) // пока не достигнем необходимой точности, будет продолжать вычислять
xn = x0-f(x0)/df(x0); // непосредственно формула Ньютона
> while (exit!=1); // пока пользователь не ввел exit = 1
Посмотрим, как это работает. Нажмем на зеленый треугольник в верхнем левом углу экрана, или же клавишу F5.
Рис. 4. Решение ошибки компиляции проекта
Мы будем искать корни у функции f(x) =x2-2.
Сначала проверим работу приложения на «неправильных» входных данных. На отрезке [3; 5] нет корней, наша программа должна выдать сообщение об ошибке.
У нас появилось окно приложения:
Рис. 5. Ввод входных данных
Введем границы отрезка 3 и 5, и точность 0.05. Программа, как и надо, выдала сообщение об ошибке, что на данном отрезке корней нет.
Рис. 6. Ошибка «На этом отрезке корней нет!»
Выходить мы пока не собираемся, так что на сообщение «Exit?» вводим «0».
Теперь проверим работу приложения на корректных входных данных. Введем отрезок [0; 2] и точность 0.0001.
Рис. 7. Вычисление корня с необходимой точностью
Как мы видим, необходимая точность была достигнута уже на 4-ой итерации.
Чтобы выйти из приложения, введем «Exit?» => 1.
Метод секущих
Чтобы избежать вычисления производной, метод Ньютона можно упростить, заменив производную на приближенное значение, вычисленное по двум предыдущим точкам:
/
Итерационный процесс имеет вид:
где .
Это двухшаговый итерационный процесс, поскольку использует для нахождения последующего приближения два предыдущих.
Порядок сходимости метода секущих ниже, чем у метода касательных и равен в случае однократного корня .
Эта замечательная величина называется золотым сечением:
Убедимся в этом, считая для удобства, что .
Таким образом, с точностью до бесконечно малых более высокого порядка
Отбрасывая остаточный член, получаем рекуррентное соотношение, решение которого естественно искать в виде .
После подстановки имеем: и
Для сходимости необходимо, чтобы было положительным, поэтому .
Поскольку знание производной не требуется, то при том же объёме вычислений в методе секущих (несмотря на меньший порядок сходимости) можно добиться большей точности, чем в методе касательных.
Отметим, что вблизи корня приходится делить на малое число, и это приводит к потере точности (особенно в случае кратных корней), поэтому, выбрав относительно малое , выполняют вычисления до выполнения и продолжают их пока модуль разности соседних приближений убывает.
Как только начнется рост, вычисления прекращают и последнюю итерацию не используют.
Такая процедура определения момента окончания итераций называется приемом Гарвика.
Метод парабол
Рассмотрим трехшаговый метод, в котором приближение определяется по трем предыдущим точкам , и .
Для этого заменим, аналогично методу секущих, функцию интерполяционной параболой проходящей через точки , и .
В форме Ньютона она имеет вид:
Точка определяется как тот из корней этого полинома, который ближе по модулю к точке .
Порядок сходимости метода парабол выше, чем у метода секущих, но ниже, чем у метода Ньютона.
Важным отличием от ранее рассмотренных методов, является то обстоятельство, что даже если вещественна при вещественных и стартовые приближения выбраны вещественными, метод парабол может привести к комплексному корню исходной задачи.
Этот метод очень удобен для поиска корней многочленов высокой степени.
Метод простых итераций
Задачу нахождения решений уравнений можно формулировать как задачу нахождения корней: , или как задачу нахождения неподвижной точки.
Пусть и — сжатие: (в частности, тот факт, что — сжатие, как легко видеть, означает, что).
По теореме Банаха существует и единственна неподвижная точка
Она может быть найдена как предел простой итерационной процедуры
где начальное приближение — произвольная точка промежутка .
Если функция дифференцируема, то удобным критерием сжатия является число . Действительно, по теореме Лагранжа
Таким образом, если производная меньше единицы, то является сжатием.
Рассмотрим уравнение: .
Если в качестве взять функцию , то соответствующая итерационная процедура будет иметь вид: . Как нетрудно убедиться, метод итераций в данном случае расходится при любой начальной точке , не совпадающей с собственно неподвижной точкой .
Однако можно в качестве можно взять, например, функцию . Соответствующая итерационная процедура имеет вид: .
Эти итерации сходятся к неподвижной точке для любого начального приближения :
Действительно, в первом случае , т.е. для выполнения условия необходимо чтобы , но тогда . Таким образом, отображение сжатием не является.
Рассмотрим , неподвижная точка та же самая, ситуация другая. Здесь, хотя формально производная может быть довольно большой (при малых ж), однако уже на следующем шаге она будет меньше 1.
т.е. такой итерационный процесс всегда сходится.
Метод Ньютона представляет собой частный случай метода простых итераций.
Здесь нетрудно убедиться, что при существует окрестность корня, в которой .
то если корень кратности , то в его окрестности и, следовательно,.
Если — простой корень, то сходимость метода касательных квадратичная (то есть порядок сходимости равен 2).
Поскольку , то
Таким образом, сходимость метода Ньютона очень быстрая.
Нахождение всех корней уравнения
Недостатком почти всех итерационных методов нахождения корней является то, что они при однократном применении позволяют найти лишь один корень функции, к тому же, мы не знаем какой именно.
Чтобы найти другие корни, можно было бы брать новые стартовые точки и применять метод вновь, но нет гарантии, что при этом итерации сойдутся к новому корню, а не к уже найденному, если вообще сойдутся.
Для поиска других корней используется метод удаления корней.
Пусть — корень функции , рассмотрим функцию. Точка будет являться корнем функции на единицу меньшей кратности, чем, при этом все остальные корни у функций и совпадают с учетом кратности.
Применяя тот или иной метод нахождения корней к функции , мы найдем новый корень(который может в случае кратных корней и совпадать с ). Далее можно рассмотреть функцию и искать корни у неё.
Повторяя указанную процедуру, можно найти все корни с учетом кратности.
Заметим, что когда мы производим деление на тот или иной корень, то в действительности мы делим лишь на найденное приближение , и, тем самым, несколько сдвигаем корни вспомогательной функции относительно истинных корней функции . Это может привести к значительным погрешностям, если процедура отделения применялась уже достаточное число раз.
Чтобы избежать этого, с помощью вспомогательных функций вычисляются лишь первые итерации, а окончательные проводятся по исходной функции , используя в качестве стартового приближения, последнюю итерацию, полученную по вспомогательной функции.
Мы рассмотрели решение уравнений только в одномерном случае, нахождение решений многомерных уравнений существенно более трудная задача.