Ускоряем вложенные циклы на 30%

Показать описание

/****************** about ******************/

Меня зовут Алексей Голобурдин, я программирую с 2004 года и на этом канале делюсь своим опытом. Я основатель и руководитель компаний:

Рекомендации по теме

Комментарии

В small_outer_loop еще процент попадания в кеш процессора будет выше т.к. при обращении к table[row][column] вероятность попадания в кеш выше если на предыдущей итерации мы обращались к table[row][column-1] чем если мы обращались table[row-1][column]

Для чистоты эксперимента я бы попробовал с одинаковыми значениями ROWS и COLUMNS запустить чтобы еще понять на сколько влияет кеш

losos

на 03:09 то что ты называешь iterations - это скорее количество запусков блоков кода
общее количество итераций операции суммирования все равно остается ROW*COLUMN

то есть переход из блока в блок выполнения отнимает время, занятно

harry-smith

Я программированием не занимаюсь и то понял в чем фишка. А фишка в том, что переменная iteretion расположена и во внешнем и во внутреннем цикле. А правильно было располагать только во внутреннем цикле. А из за того, что эта переменная нарастает в обоих циклах, то да в первом случае до 600, а во втором до 505, вот на это время и тратится, а если эту переменную оставить только во внутреннем цикле то в обоих случаях itatetion=500 будет и время выполнения большого и малого станет, наверно, одно и то же.

First_NameSecond_Name

Привет, интересные мысли, как и сам ролик. По идее разница возникает в количестве инициализации inner loop и чем больше outer loop, тем медленнее код: n + (n*m)*c, где n - outer, m - inner, c - extra time какое-то действие. Ну и по ходу, в кеш будет больше попаданий при row traversal, чем в column traversal, кеш в линию хранится конкретно в C/C++, в других языках возможно другое будет... Ведь какой из факторов наиболее важный: Количество инициализаций и итераций, доступ к памяти, хешируемость?

kaluginpeter

Кстати, tuple(… for … in …) будет работать на ⅓ медленнее, чем tuple([… for … in …]), но во время выполнения работы должно занимать несколько больше памяти (it depends насколько)

普京的手机

Ну это же логично, если первый цикл содержит малый размер а второй больше, то кеш будет быстрей работать, а если сделать наоборот то кеш будет чаще обновляться тем самым появиться такая разница во времени исполнения. Это как для олдов которые с СД диска устанавливали приложения и игры, большой файл быстрей считывался и записывался, нежели чем более мелкие

pavelzagain

Кажется в комментах непонимание того, что автор имел в виду под словом "итерация", что же всё-таки подсчитывает переменная iterations.
Здесь мы подсчитываем сколько раз за эти два вложеных цикла вычислялись loop conditions. Не важно, что там в теле цикла. Эти самые loop conditions не бесплатны. Ну и инкрементт переменной цикла тоже чего-то стоит. IMO

julesbois

В более сложных структурах может появится еще одна ось z - трехмерная матрица. Там уже будет три цикла - по матрицам, по строкам и в конце по колонкам строки матрицы.

olegssh

В университете на архитектуре вс узнал об этом и еще множество других интересностей про кластерные вычисления. Весь курс был построен на подсчете времени вычисления при разных условиях.

normno

Будет чудно, если собеседующий задаст вопрос по nested loops после этого видео, а кандидат ответит потому, что посмотрел это видео.

maksimkuznetsov

Забавно, что эта оптимизация имеет место быть в любом ЯП, никогда об этом прежде не задумывался :)

Рассмотрим простейший код на ассемблере (MASM x86):
mov ecx, 0
outerLoop:
cmp ecx, 100
je done
mov ebx, 0
innerLoop:
cmp ebx, 5
je innerLoopDone
inc ebx
jmp innerLoop
innerLoopDone:
inc ecx
jmp outerLoop
done:

Видим, что ecx == row, ebx == column, и, соответственно, тела внутреннего и внешнего циклов отличаются всего одной коммандой - `mov ebx, 0` - той самой инициализацией внутреннего цикла (обнулением счетчика ebx). Соответственно, единственное отличие между big_outer_loop и small_outer_loop - количество обнулений счётчика, которое и является первоисточником разницы в скорости выполнения :)

Ради интереса воссоздал пример автора на C, с отключенной оптимизацией: скорость выполнения двух циклов отличается на ~15%, и, по сути, заключается в одной лишь дополнительной комманде ассембли... (ну и само собой в кэшировании данных процессором, но это уже другая история)

lemopsone

Если вспомнить что питон позволяет "нормально" итерировать объекты - без индексов, а просто "for item in iterable", и писать функцию в таком стиле - "for row in table: for column in row: overall_time += column", то можно сэкономить еще немного времени (у меня получается что "нормальный" цикл быстрее суммы на 15-20%)

usualneko

В начале видео поставил на паузу.. ответ был правильным, исходил из интуитивной идеи, что прибавление столбцов даёт большее количество новых ячеек, т.е. столбцы более строк влияют на размер таблицы при масштабировании, поэтому проходиться надо по столбцам в начале для уменьшения количества итераций. Такой вот эмпирический правильный вывод.

km-academy_ru

Во многих базах данных есть встроенный оптимизатор запросов, поэтому нет разницы как ты пишешь запрос, джоинишь ли ты а к б или б к а, постгресс сам за тебя уже оптимизирует и проджоинит, так чтоб все было максимально быстро и эффективно.
В этом можно убедиться с помощью explain analyze на запросе и разном порядке джоинов.

perl

Я однажды на такое наткнулся на практике, но не понял почему так произошло. Там производительность увеличивалась с нескольких часов до нескольких минут. Я подумал что это была магия хаскеля и фильтров, но не поверил. С тех пор в жирных вычислениях всегда проверяю вложенность циклов.

newrlan

было интересно, даже не задумывался об этом раньше

abdulgoniyfarhodov

1:10 Ответ на вопрос до просмотра видео - да, есть разница, выгоднее внешний цикл делать с меньшей стороной, так уменьшается количество _инициализаций_ внутреннего цикла.
2:52 Замечание по ходу - было бы правильнее называть не итерациями, а проверкой условия в цикле, поскольку итерации внутреннего проходят во время итерации внешнего, а не где-то рядом дополнительно. В итоге сумма всегда увеличивалась 500 раз, а условия циклов проверялись соответственно 100+5*100=600 и 5+100*5=505 раз. Параллельное представлено как последовательное. И отмечу, что это не 30% разница, то есть не единственный фактор.

Но общая мысль интересная, спасибо.

dolotube

Спасибо большое. Очень понравилась. Глаза открылыись на то, что такое есть. Прям прикольно

a.osethkin

Можно ли внутри функции «пересобрать» структуру, чтобы можно было применить map и ускорит ли это исполнение?

gsm

Интересно что автор увидел лишние итерации, но не понял что именно влияет на производительность и сделал неверные выводы

mobiledeveloper

Ускоряем вложенные циклы на 30%

Ускоряем вложенные циклы на 30%

4 совета как ЛУЧШЕ писать циклы For на Python

Математика это не Ислам

MajorDoMo. Шпаргалка №6. Управление циклами. Ускоренный перезапуск цикла....

Вложенные циклы. Решение задач [C++, 1й курс]

31. Решение задач на вложенные циклы и функции

Лада Приора Посадки Город Владикавказ #bpanmoscow #youtubeshorts #shortsvideo #shortsvideoviral...

ГАЙД БИЛД НА ПАЛАДИНА Throne and Liberty (Часть 1)

+15 км/год | Как снять БЕЗОПАСНО и ПРАВИЛЬНО ограничитель скорости на мопеде Альфа и похожих...

ШАНС ПОВТОРИТЬ 0.000001% 😱🤯 Car Parking Multiplayer #shorts

32. Решение задач на вложенные циклы и функции, логический тип...

Дизассемблируем Python-циклы. Ассимиляция Гиперпространственного Фокала Социалистических Измерений!...

12 способов увеличить мощность двигателя

СЕКРЕТ МИЛЛИАРДЕРА | Как БЫСТРО заработать ДЕНЬГИ? Свой бизнес или работа?...

Ускоряем движение задач в 2,5 раза за 2+1 шага — Александр Сулейманов, Тинькофф...

C++ циклы for, while, do while

Самый быстрый старт с нуля 2023 • Бонусы и лайфхаки для Новичков • Crossout...

5 СПОСОБОВ УЛУЧШИТЬ ВЕЛОСИПЕД БЕСПЛАТНО

Как Увеличить Просмотры в Тик ток? Если сделать так то просмотров в Tik Tok будет Больше!...

КАК СДЕЛАТЬ КРАСИВУЮ ГРАФИКУ НА BLACK RUSSIA БЕЗ ЛАГОВ?! | #blackrussia #блэкраша #блекраша #крмп...

эта хоррор игра вывозит весь роблокс

BMW M5 E60 | V10 Sound #m5e60 #bmwm5 #bmwm5e60

AXLEBOLT, ДОБАВЛЯЕМ? STANDOFF 2 #2

Евгений Сатуров — Gear up, ускоряем Flutter-разработку!