C++ 提速的新发现

雷达 · 发表于 2022-9-24 22:54:26

C++ 比 Octave 慢好多，怎么破？

自相关两层循环，内层循环涉及浮点数计算，试验了一下把内层循环内部全都 comment out 只留个壳子, 但空的内层循环本身就把速度拉下来了，看来问题并不在浮点计算。

速度优化问题真的很有意思啊。

欢迎大家继续讨论

雷达 · 发表于 2022-9-24 23:54:10

本帖最后由雷达于 2022-9-24 23:57 编辑

数值分析发表于 2022-9-24 23:04
4 X/ |/ x/ ] H: \拉下来？拉多少？
* u" X+ v/ F" H2 T# _ I把代码贴上来看看？

void xcorr(comp* outcomp, comp* A, int lenA, comp* B, int lenB)
{
comp temp, xtimesy;
xtimesy.re = 0;
xtimesy.im = 0;
int j0 = lenB - 1;
int i, j, i1, reali;
if (lenA % 2 == 1)
reali = lenA + 1;
else
reali = lenA;
reali /= 2;

int nconv = reali + lenB;
//#pragma omp parallel for
for (i = reali; i < nconv; i++)
{
temp.re = 0;
temp.im = 0;
i1 = i;
for (j = j0; j >= 0; j--)
{
/* floating date operation */
}
}
}

xcorr函数代码如上，comp是复数struct, 做过长度为11、19两个矢量的测试，和octave结果完全一样

红色部分是内循环，现在其内部操作都comment out 了, j0大概是 6000。
现在call xcorr 100次，耗时78s.

如果把红色部分内循环本身完全comment out， call xcorr 1000次，耗时 <1s.

雷达 · 发表于 2022-9-25 00:17:17

风雨无阻发表于 2022-9-24 23:33* t% b7 m ^6 k% ^, z9 j
Maybe Debug mode?

不应该，看我上面的回复。

我更怀疑是 VS 社区版的问题

雷达 · 发表于 2022-9-25 00:46:56

本帖最后由雷达于 2022-9-25 01:09 编辑

数值分析发表于 2022-9-25 00:201 n, t8 e0 W, Y2 k& p. R
这个不是这么比的吧。。。. ]9 m# o6 o5 [ f, x) X. w4 M

8 h P: r: w' }您这个函数，不带内循环的话，汇编完总共操作也没几个（不到100个）。

有道理。
所以存在内循环速度就上不去，把内循环取消，改成两个向量直接点乘再求和应该就会好得多，记得 numeric 库里有算向量内积的，我回头试试。

我先尝试尽量用标准库，一个小程序，不想搞得太复杂。多谢了

雷达 · 发表于 2022-9-25 04:47:43

本帖最后由雷达于 2022-9-25 04:49 编辑

沉宝发表于 2022-9-25 01:27
2 p; X# v" V+ ]$ M7 s% F你两个试验之间就差了一个空循环， call 1000次按理不会有秒级差异，可能还是编译器优化的问题。举个例子 ...

又写了个小实验，没有调用子函数，双层循环，外层6千次，内循环30万次空转，有或没有空转内循环，时间差一倍，我上面这个差的太多了。

我已经完全懵了。

雷达 · 发表于 2022-9-26 01:30:03

本帖最后由雷达于 2022-9-27 01:17 编辑

数值分析发表于 2022-9-25 14:58% t/ p( I5 H& a! S, G" j
能不能把这个也贴上来，看看和上一个有什么不同？

理了理思路，重新做了一个测试。
做了两个 vector 和两个 float *, 都长 100000
外循环 6000，里面先做随机数生成，模拟真实环境，避免数据的 cache.

内循环试了4种方法，
1. 直接调用 vector inner_product 247s
2. vector 循环点乘累加 237s
3. float * 循环点乘累加 204s
4. 空循环 100000 次 202s

不做内循环 200s

你昨天说的对，内循环本身占比是很小的，大头在其他处理。
另外可以看到， float * 循环点乘累加并不差，比用vector 还更快。

至于我那个原始程序，还有一些疑问，见5楼，其他都不变仅仅是有无空的内循环就有很大不同，这是不对的，也许有一些其他缺陷我没有看到。（也许可以改成 while 试试）

（为什么下面我贴的 b1 加方括号里的 i , 显示出来却是 b1 ？方括号 i 消失了。 LOL . 改成 jj 好了，原来方括号里的 i 是斜体标志 LOL）

      std::vector < float > vec1(N);# ^# d) @+ P& g9 t1 k% [0 ?0 q
      std::vector < float > vec2(N);/ p3 y- C( ^. a0 c  e
      float* b1 = new float[N];
9 c+ n7 C% u" a" e: T* E* {       float* b2 = new float[N];
$ p3 e4 `6 Y4 a: A7 |$ N
4 F9 M  n. u, Y7 m, q) b, ?- g( Q       for (int j = 0; j < 6000; j++)$ Q) C1 Q6 \9 Z
      {" e1 y3 R" x+ a
            std::generate(vec1.begin(), vec1.end(), []() {& I6 t/ |3 A1 j3 d& D8 ?: b
                     return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 23.23));;- X) k" u& t3 y
                     });# N1 o7 @1 F+ O0 T
% t5 p9 L4 C/ E( G. r$ x2 I' l
            std::generate(vec2.begin(), vec2.end(), []() {4 Q9 s9 A2 I# |
                     return static_cast <float> (rand()) / (static_cast <float> (RAND_MAX / 24.31));;
7 ~+ S: {8 @9 T                      });$ ~7 f& Y; I8 E4 x" E
& Y( _3 B" _6 F; J$ |
            for (size_t jj = 0; jj < vec1.size(); jj++)
$ M) t+ h, J' D' G$ a# P' ^& Y             {" d7 m; r3 S0 y% g1 n
                     b1[jj] = vec1[jj];
) a  y: Y5 U7 `0 u             }
# ^' a# b5 H3 J
+ Z' n* K) M5 c; O& k             for (size_t jj = 0; jj < vec2.size(); jj++)1 I# z2 e" v1 i
            {
+ A& e$ ~6 {" r" z                      b2[jj] = vec2[jj];
! X4 b' r) _4 c+ v2 Q5 ~2 J             }' M2 x# W& E+ G$ e6 ~+ f5 [, x

  d9 c) _% Y. A6 A5 C/ J             //Method - 1  N=100000 247s
) C& b2 {: D- u1 n! n/ k             //fresult = inner_product(vec1.begin(), vec1.end(), vec2.begin(), 0);: q+ e* s; M# N  M1 }4 U5 r# i+ g

2 z2 B5 J8 X. z! D2 g             //Method - 2  N=100000  237s1 {$ ^/ [9 {2 r) n4 L
            /*
) A# ^7 r# b  [! L+ |             for (int jj = 0; jj < N ; jj++)
: k% z1 ^: S' U. g' o  [             {
. t6 O8 H% F) B- T! s                      fresult += vec1[jj] * vec2[jj];
/ q; m) V; \. a+ h2 u  i' h             }
" D2 G+ N+ f# W2 C$ h% S; n* x* p             */: @- K$ ]5 g" Y9 N' T2 m

) p$ @4 v2 ?5 o9 {             //Method - 3  N=100000 204s+ H; ?3 b& c. l* G6 L
            /*
$ E& w7 ~) n) J* q             for (int jj = 0; jj < N; jj++)! d/ x* l) n0 N4 |- V! A
            {
2 p- J' c9 D0 M4 q2 ~                      fresult += b1[jj] * b2[jj];
5 i& d6 s4 I- d# K' b             }) z9 H3 R% P" U0 s  k. t' ?4 K
            */& C1 |, d" [7 D9 S; f
) G+ e) C: W8 Z, U7 t
            //Method - 4 202s8 E- Q  F* b" h" S
            /*. h; U5 ?1 z& L% Q
            for (int jj = 0; jj < N; jj++)# J8 M3 M, p- o7 R9 H
            {+ g8 E& a4 Q4 h# x
                     / H) @7 E4 y, n- h" W# e; f, _. R
            }
9 y# ?: G- O6 E1 c             */% M& ]/ i; K- z) e1 T6 h" I
            //comment out all methods, N=100000  202s             ) O0 w4 r1 H" v$ A  V
      }
# m8 K7 {, b; H1 u  c& q, h6 q$ ]0 [( |  V. }
      delete []b1;
: t" Z: O3 B& F8 r, f9 j       delete []b2;

雷达 · 发表于 2022-9-27 01:16:03

机器猫发表于 2022-9-27 00:151 w3 `5 {7 t# f4 h0 g/ O
瞎猜一下啊。把第一个的那个j定义成register变量会不会有不同？ {" D* b4 \7 g- @0 A5 H9 E6 t% h8 a

/ ~; O, _+ [6 T r) L! [/ \你第二个试验里面的j在循环里面又重新定义 ...

内循环里面的 j 实际是 i, 为了规避爱坛显示的冲突帖子里临时改成了j, 现在是 jj 了。好累、LOL

不和它较劲了，瞎耽误工夫，我已经转到 ubuntu, 也准备顺便试试 avx2 向量化。

雷达 · 发表于 2022-9-27 22:41:56

雷声发表于 2022-9-27 20:396 S1 \& [7 v- v' P, J' b8 l
这个时间是从哪里开始算的？
2 U( c( p: d* [我怀疑这个200多秒里面有200秒花在产生随机数上了，真正计算大概只用了2秒， ...

我不管它了，回头 linux 下换g++重新编译，顺便加上你们建议的向量化。

雷达 · 发表于 2022-9-28 00:49:59

opensrc 发表于 2022-9-28 00:29* _0 d& O" s* E0 J9 E! k- F
我有些迷糊，这样的code，难道不就应该时间差很多吗？也做了个简单的实验，你看看我做的有错吗, S6 l, K: P$ s8 C
4 Q2 p6 d( Q) ^ b% A* x
...

你是对的，是我搞错了。确实没有优化的情况下，空循环如果次数够长本来就应该耗时较大。我搞错的原因是在不自觉得与 octave 比较，而实际上 octave 是优化过的，和是不是空循环没关系，这种不同条件的比较是没意义的。

雷声网友说的也对，空循环应该被编译器优化掉，我的编译器设置有问题。

雷达 · 发表于 2022-9-28 00:56:28

本帖最后由雷达于 2022-9-28 01:09 编辑

是我自己的理解有误，没有优化的情况下，空循环如果次数够长本来就应该耗时较大。
有空时我会试试 SIMD和并行，看看能提高多少。
过去7、8 年没有正经用C++ 写过东西，没有 sense 了

。
谢谢大家的讨论，I learded a lot. 红包已发

		自动登录	找回密码
密码			注册

[信息技术] C++ 提速的新发现

评分

浏览过的版块