?

Log in

Badula

Previous Entry Share Next Entry
10:28 am: В Рязани ОМОН избил посетителей рок-концерта

А это — паутина которую наплёл Паук Павлик. Не от того что ему больше нечем было себя занять, а от того что в хозяйстве завёлся уничножающий древесину бобр с неукротимой тягой к свободе. К свободе среди прочего и сцать где ни попадя.

С другой стороны, не далее как нынешним утром паука озарило как можно применить _mm_rot_epi32 и _mm_add_epi32 для воплощения ураганной быстроты вычисления месива известного в миру как "алгоритм Salsa20". Это же просто диву можно даться как дальновидны SIMD2 и XOP. Одновременно можно вычислять не один, не два и даже не три, а четыре потока фарша, каждый со своим уникальным засевом.



Comments

[User Picture]
From:fatoff
Date:October 7th, 2013 08:37 pm (UTC)
(Link)
Интересную брюкву на вашем поле высаживают. Вроде того, что вы рисёрч в каком-то роде. Но формально записаны в пролетариат таки сдетовский. А вот AMP вы в поле в рабочий перерыв не едите?
[User Picture]
From:badula
Date:October 7th, 2013 09:40 pm (UTC)
(Link)
пролетариат и есть, но природа задачи и время позволяют провести более тщательную заточку под разные платформы. для разгона я искал простое вращение битов, оно в криптографии на каждом шагу необходимо, вместо простого нашёл по четыре слова за раз… не пропадать же трём ненужным.

процессоры с работающим разворотами ещё найти нужно, впрочем. пришлось писать _mm_or_si128(_mm_slli_epi32(value,shift),_mm_srli_epi32(value,32-shift)) что быстрей чем четыре_lrotl'а и что чудесно понимает GCC.

Edited at 2013-10-08 06:20 am (UTC)
Powered by LiveJournal.com