Thanks for your reply Dotan!<br>
<br>
The timeout is set to 16. <br><br>
Here is some more info. Please let me know if there is any other info I can provide. <br>
Setup: <br>
- 2 Nodes, each has a dual-port HCA (board_id: MT_0150000001,
InfiniHost III firmware 25218, v. 5.2.0) - this is the latest Mellanox
firmware I believe<br>
- port 1 of each node is connected to one IB switch, and likewise for
port 2 --> thus have 2 separate IB subnets, providing 2 possible
paths between the 2 nodes <br>
- IB switch is InfiniScale MT43132 <font face="Lucida Grande, Trebuchet MS, Verdana, Arial, Helvetica, sans-serif" size="2"><b><span style="font-weight: bold;"></span></b></font><br>
- Using OFED 1.2 driver stack <br>
<br>
Our software creates RCQPs between 2 nodes, with primary and alternate path specified. <br>
Test does the following: Using 10 RCQPs<br>
1. Hardware triggered migration by bringing down the port of the
primary path (haven't ever seen a problem with the hardware triggered
migrations)<br>
2. Restore the port --> reloads alternate path<br>
    - Local QPs send LAP <br>
    - Remote QPs reply with APR <br>
3. Redistributes RCQP's across both ports for load balancing using
software triggered migrations for the RCQPs selected for migration.<br>
a. Local QPs: use ib_modify_qp to trigger migration --> get IB_EVENT_PATH_MIG on local QPs<br>
b. Remote QPs: IB_EVENT_PATH_MIG <br>
c. Local QPs: after software-triggered migration completes, reloads alternate path by sending LAP <br>
d. Remote QPs: reply with APR <br>
<br>
Keep doing this in a loop. The issue is that in 3b, not all the remote
QP's reporte an IB_EVENT for the path migration triggered in 3a. I
noticed that when this happens it's usually in the first and/or second
cycle (subsequent cycles don't manifest this issue), and it occurs on
the last RCQP's that were migrated in 3a. <br>
<br>
BTW: Do you know if there there is a way I can determine/dump which events are in the Event Queue?<br>
<br>
Thanks again!<br>
Lan<br>
<br><div><span class="gmail_quote">On 10/15/07, <b class="gmail_sendername">Dotan Barak</b> <<a href="mailto:dotanb@dev.mellanox.co.il">dotanb@dev.mellanox.co.il</a>> wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Hi.<br><br>lbt wrote:<br>> Hi,<br>><br>> I'm trying out APM with OFED 1.2 , using Mellanox dual-port HCA<br>> (ib_mthca driver).  When I have several RCQP's that I am trying to<br>> migrate (software triggered migration using ib_modify_qp), I've
<br>> noticed that sometimes 1 or 2 of the remote QP's never generate an<br>> IB_EVENT_PATH_MIG or even an IB_EVENT_PATH_MIG_ERR ... it seems that<br>> it just gets lost. I looked through some of the ib_mthca patches in
<br>> <a href="http://git.kernel.org/?p=linux/kernel/git/roland/infiniband.git">git.kernel.org/?p=linux/kernel/git/roland/infiniband.git</a><br>> <<a href="http://git.kernel.org/?p=linux/kernel/git/roland/infiniband.git">
http://git.kernel.org/?p=linux/kernel/git/roland/infiniband.git</a>>, and<br>> incorporated the mmiowb patch for ib_mthca commands<br>> (<a href="http://git.kernel.org/?p=linux/kernel/git/roland/infiniband.git;a=commit;h=76d7cc0345a037e8eea426f8abc710abd22946dd">
http://git.kernel.org/?p=linux/kernel/git/roland/infiniband.git;a=commit;h=76d7cc0345a037e8eea426f8abc710abd22946dd</a><br>> <<a href="http://git.kernel.org/?p=linux/kernel/git/roland/infiniband.git;a=commit;h=76d7cc0345a037e8eea426f8abc710abd22946dd">
http://git.kernel.org/?p=linux/kernel/git/roland/infiniband.git;a=commit;h=76d7cc0345a037e8eea426f8abc710abd22946dd</a>>).<br>> But still seeing same issue. I have a test case that repeates<br>> software-triggered migrations + rearming in a loop, and this problem
<br>> usually occurs in the first few cycles, but is not too frequent. If<br>> anyone has any ideas on what might be wrong, or tips on  where I can<br>> look/do to debug this, that would be very much appreciated!
<br>><br>> For example, this is the console output I will see (printed out by our<br>> rcqp event handler):<br>> On the local end - initiates software triggered migration, using<br>> ib_modify_qp:<br>> Event IB_EVENT_PATH_MIG occurred on QP#1043
<br>> Event IB_EVENT_PATH_MIG occurred on QP#1040<br>> Event IB_EVENT_PATH_MIG occurred on QP#1033<br>><br>> On the remote end:<br>> Event IB_EVENT_PATH_MIG occurred on QP#1040<br>> Event IB_EVENT_PATH_MIG occurred on QP#1043
<br>Is<br>the timeout value (in the QP attributes) is 0?<br>If the answer is no, can you please supply some more details on this?<br><br><br>thanks<br>Dotan<br></blockquote></div><br>