thanks for the suggestion, but i can't understand which kind of address i should put for the two commands<br>i tried ibping with the server (like suggested) and it works with -G <port> or with lid<br><br>but what should i put as argument of ibv_rc_pingpong and rping?<br>
<br>thanks a lot<br>Vittorio<br><br><div class="gmail_quote">On Sat, Feb 14, 2009 at 8:23 AM, Dotan Barak <span dir="ltr"><<a href="mailto:dotanba@gmail.com">dotanba@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<div><div></div><div class="Wj3C7c">Vittorio wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hello!<br>
This is my first message on the list so i hope that i'm not going to ask silly or already answered question<br>
<br>
i'm a student and i'm porting an electromagnetic field simulator to a parallel and distributed linux cluster for final thesis; i'm using both OpenMP and MPI over Infiniband to achieve speed improvements<br>
<br>
the openmp part is done and now i'm facing problem with setting up MPI over Infinband<br>
i have correctly set up the kernel modules<br>
installed the right drivers for the board (mellanox hca) and userspace programs<br>
installed mpavich2 mpi implementation<br>
<br>
however i fail to run all of this together:<br>
for example ibhost correctly find the two nodes connected<br>
<br>
Ca    : 0x0002c90300018b8e ports 2 " HCA-1"<br>
Ca    : 0x0002c90300018b12 ports 2 "localhost HCA-1"<br>
<br>
but ibping doens't receive responses<br>
<br>
ibwarn: [32052] ibping: Ping..<br>
ibwarn: [32052] mad_rpc_rmpp: _do_madrpc failed; dport (Lid 2)<br>
ibwarn: [32052] main: ibping to Lid 2 failed<br>
<br>
subsequently any other operation with MPI fails<br>
strangely enough however IPoIB works very well and i can ping and connect with no problems<br>
<br>
the two machines are identical and they use a crossover cable (point to point)<br>
lspci identifies the boards as<br>
03:00.0 InfiniBand: Mellanox Technologies MT25418 [ConnectX IB DDR, PCIe 2.0 2.5GT/s] (rev a0)<br>
<br>
what can be the cause of all of this? am i forgetting something?<br>
any help is greatly appreciated<br>
Thank you<br>
Vittorio<br>
</blockquote></div></div>
I suggest that you will execute the ibv_rc_pingpong  and see that the IB connectivity is o.k..<br>
Then try to execute rping to check that the ib_cma is o.k..<br>
<br>
Those will be a good start point to find the problem<br>
(do it for all of the active ports that you have).<br><font color="#888888">
<br>
<br>
Dotan<br>
</font></blockquote></div><br>