<font size=2 face="sans-serif">Hal,</font>
<br>
<br><tt><font size=2>> Is timeout/retry/send error support implemented
in your QNX<br>
> implementation ? That would explain why the SM appears to stop...</font></tt>
<br>
<br><tt><font size=2>Based on the inherit nature of the QNX Kernel I don't
believe we have a timeout/retry/send on it. This may be the reason I see
the bootup freeze. If it is I may have to implement this somehow.</font></tt>
<br>
<br><tt><font size=2>However, for the time being at least, I believe that
setting OSM_DEFAULT_SMP_MAX_ON_WIRE to 1 will be an acceptable solution
as it works reliably. But, it would be nice to know why it freezes anyway,
may be because of the above.</font></tt>
<br>
<br><tt><font size=2>Thus far I've been unsuccessful in failing with debug
property -D 0x23 but I'll keep trying.</font></tt>
<br><tt><font size=2>Thank you</font></tt>
<br>
<br><tt><font size=2>Hector Abrach</font></tt>
<br>
<br>
<br>
<table width=100%>
<tr valign=top>
<td><font size=1 color=#5f5f5f face="sans-serif">From:</font>
<td><font size=1 face="sans-serif">Hal Rosenstock <hal@dev.mellanox.co.il></font>
<tr valign=top>
<td><font size=1 color=#5f5f5f face="sans-serif">To:</font>
<td><font size=1 face="sans-serif">Hector Abrach <HAbrach@TMRIUSA.COM></font>
<tr valign=top>
<td><font size=1 color=#5f5f5f face="sans-serif">Date:</font>
<td><font size=1 face="sans-serif">12/15/2011 01:21 PM</font>
<tr valign=top>
<td><font size=1 color=#5f5f5f face="sans-serif">Subject:</font>
<td><font size=1 face="sans-serif">Re: [ewg] OpenSM 1.5.4 Boot Problem</font></table>
<br>
<hr noshade>
<br>
<br>
<br><tt><font size=2>On 12/15/2011 1:57 PM, Hector Abrach wrote:<br>
> Hal,<br>
> <br>
> I managed to get it to fail with Debug information -D 0x08. Attached
is<br>
> the log file.<br>
> I'll dig deeper it seems is pkey related maybe...<br>
<br>
Yes, I saw signs of that last night from the log you sent where it<br>
stopped on the pkey tables on the CAs but I wasn't 100% sure whether it<br>
was that or not. I didn't check how many pairs of the pkey tables you<br>
got back here to validate whether every port responded with the proper<br>
number of pkey table blocks.<br>
<br>
Is timeout/retry/send error support implemented in your QNX<br>
implementation ? That would explain why the SM appears to stop...<br>
<br>
-- Hal<br>
<br>
> Once again thank you for your support.<br>
> <br>
> <br>
> <br>
> Hector Abrach<br>
> <br>
> <br>
> From:                
 Hal Rosenstock <hal@dev.mellanox.co.il><br>
> To:                
 Hector Abrach <HAbrach@TMRIUSA.COM><br>
> Date:                
 12/14/2011 08:29 PM<br>
> Subject:              
   Re: [ewg] OpenSM 1.5.4 Boot Problem<br>
> <br>
> <br>
> ------------------------------------------------------------------------<br>
> <br>
> <br>
> <br>
> Hector,<br>
> <br>
> On 12/14/2011 5:49 PM, Hector Abrach wrote:<br>
>> Hal,<br>
>><br>
>> I got the system to fail with verbose enabled after 25 reboots.
Please<br>
>> find attached the log file.<br>
>><br>
> <br>
> I can see the responses but not the requests. What verbosity level
did<br>
> you use ?<br>
> <br>
>> I was reading that OSM_DEFAULT_SMP_MAX_ON_WIRE is used to pipeline
the<br>
>> boot process in multi-switch systems and make the boot process
faster<br>
>> correct?<br>
> <br>
> It's multinode not just multiswitch and this configuration is 8 nodes
(1<br>
> switch + 7 CAs). It's not boot process but discovery/initialization<br>
> which is pipelined.<br>
> <br>
>> Since my system is a single switch system I do not need to have<br>
>> 4 but 1 for OSM_DEFAULT_SMP_MAX_ON_WIRE.<br>
> <br>
> You can run with 1 if that suits your needs. It's just not the default.<br>
> <br>
>> Maybe the pipelined SMP's are confusing the switch some how.<br>
> <br>
> Even if it did, there's nothing that should "stop" the SM
from<br>
> working/proceeding. From the log, it looks like the SM does get stuck.<br>
> <br>
> -- Hal<br>
> <br>
>> Thanks again for your help.<br>
>><br>
>> Hector Abrach<br>
>><br>
>><br>
>> From:                
 Hal Rosenstock <hal@dev.mellanox.co.il><br>
>> To:                  Hector
Abrach <HAbrach@TMRIUSA.COM><br>
>> Cc:                  ewg@lists.openfabrics.org<br>
>> Date:                
 12/14/2011 08:03 AM<br>
>> Subject:                
 Re: [ewg] OpenSM 1.5.4 Boot Problem<br>
>><br>
>><br>
>> ------------------------------------------------------------------------<br>
>><br>
>><br>
>><br>
>> Hi,<br>
>><br>
>> On 12/13/2011 2:35 PM, Hector Abrach wrote:<br>
>>> Hello,<br>
>>><br>
>>> I have a boot problem with OpenSM<br>
>><br>
>> Are you saying the switch is booted rather than OpenSM ?<br>
>><br>
>> What is the OpenSM running on and in what environment ?<br>
>><br>
>>> the problem occurs seldomly and<br>
>>> started to ocur when we started using a new Mellanox MT1118X03342
switch.<br>
>>> The problem occurs during the discovery phase within<br>
>> state_mgr_sweep_hop_1.<br>
>>><br>
>>> However, I discovered that the actual location is because
the<br>
>>> qp0_mads_outsanding stalls at 1 occasionally.<br>
>><br>
>> Is it stuck or after timeout/retry does this get updated properly
?<br>
>><br>
>>> Within file osm_vl15intf.c in function vl15_poller it checks
at the<br>
>>> rfifo and if the qlist still has items it applies function
vl15_send_mad<br>
>>> which later on triggers the signal.<br>
>>> With the current default setting of 4 for OSM_DEFAULT_SMP_MAX_ON_WIRE
I<br>
>>> noticed that cl_qlist_end reaches zero before<br>
>>> stats->qp0_mads_outstanding does. This causes a stall in<br>
>>> cl_event_wait_on. The rfifo always reaches 0 when there are
4<br>
>>> qp0_mads_outstanding however when it fails it always fails
when there is<br>
>>> 1 qp0_mad_outstanding.<br>
>><br>
>> Is some (request) SMP that OpenSM sent timing out (not being responded<br>
> to) ?<br>
>><br>
>>> Have you seen this failure? By the way, I see this failure
once every 15<br>
>>> reboots approximately.<br>
>>><br>
>>> I discovered that changing OSM_DEFAULT_SMP_MAX_ON_WIRE to
1 fixes the<br>
>>> problem.<br>
>><br>
>> What do you mean exactly by fixes the problem ? I'm not sure I<br>
>> understand what the problem is yet.<br>
>><br>
>> -- Hal<br>
>><br>
>>> My guess is that there is a race condition when the switch
sends 4 SMPs<br>
>>> in parallel. Also, this failure only appears to occur at reboot.
Another<br>
>>> solution which is not acceptable is when I add a delay in
the process<br>
>>> the failure goes away. This as if the switch needed more time
to do<br>
>>> something.<br>
>>><br>
>>> I would really appreciate your help and insight.<br>
>>> Thank you<br>
>>><br>
>>> Hector Abrach<br>
>>> ______________________________________________________________________<br>
>>> This email has been scanned by the Symantec Email Security.cloud
service.<br>
>>> For more information please visit </font></tt><a href=http://www.symanteccloud.com/><tt><font size=2>http://www.symanteccloud.com</font></tt></a><tt><font size=2><br>
> <</font></tt><a href=http://www.symanteccloud.com/><tt><font size=2>http://www.symanteccloud.com/</font></tt></a><tt><font size=2>><br>
>> <</font></tt><a href=http://www.symanteccloud.com/><tt><font size=2>http://www.symanteccloud.com/</font></tt></a><tt><font size=2>><br>
>>> ______________________________________________________________________<br>
>>><br>
>>><br>
>>> _______________________________________________<br>
>>> ewg mailing list<br>
>>> ewg@lists.openfabrics.org<br>
>>> </font></tt><a href="http://lists.openfabrics.org/cgi-bin/mailman/listinfo/ewg"><tt><font size=2>http://lists.openfabrics.org/cgi-bin/mailman/listinfo/ewg</font></tt></a><tt><font size=2><br>
>><br>
>><br>
>> ______________________________________________________________________<br>
>> This email has been scanned by the Symantec Email Security.cloud
service.<br>
>> For more information please visit </font></tt><a href=http://www.symanteccloud.com/><tt><font size=2>http://www.symanteccloud.com</font></tt></a><tt><font size=2><br>
> <</font></tt><a href=http://www.symanteccloud.com/><tt><font size=2>http://www.symanteccloud.com/</font></tt></a><tt><font size=2>><br>
>> <</font></tt><a href=http://www.symanteccloud.com/><tt><font size=2>http://www.symanteccloud.com/</font></tt></a><tt><font size=2>><br>
>> ______________________________________________________________________<br>
>><br>
>><br>
>> ______________________________________________________________________<br>
>> This email has been scanned by the Symantec Email Security.cloud
service.<br>
>> For more information please visit </font></tt><a href=http://www.symanteccloud.com/><tt><font size=2>http://www.symanteccloud.com</font></tt></a><tt><font size=2><br>
> <</font></tt><a href=http://www.symanteccloud.com/><tt><font size=2>http://www.symanteccloud.com/</font></tt></a><tt><font size=2>><br>
>> ______________________________________________________________________<br>
> <br>
> <br>
> ______________________________________________________________________<br>
> This email has been scanned by the Symantec Email Security.cloud service.<br>
> For more information please visit </font></tt><a href=http://www.symanteccloud.com/><tt><font size=2>http://www.symanteccloud.com</font></tt></a><tt><font size=2><br>
> <</font></tt><a href=http://www.symanteccloud.com/><tt><font size=2>http://www.symanteccloud.com/</font></tt></a><tt><font size=2>><br>
> ______________________________________________________________________<br>
> <br>
> <br>
> ______________________________________________________________________<br>
> This email has been scanned by the Symantec Email Security.cloud service.<br>
> For more information please visit </font></tt><a href=http://www.symanteccloud.com/><tt><font size=2>http://www.symanteccloud.com</font></tt></a><tt><font size=2><br>
> ______________________________________________________________________<br>
<br>
<br>
______________________________________________________________________<br>
This email has been scanned by the Symantec Email Security.cloud service.<br>
For more information please visit </font></tt><a href=http://www.symanteccloud.com/><tt><font size=2>http://www.symanteccloud.com</font></tt></a><tt><font size=2><br>
______________________________________________________________________<br>
</font></tt>
<br>
<br clear="both">
______________________________________________________________________<BR>
This email has been scanned by the Symantec Email Security.cloud service.<BR>
For more information please visit http://www.symanteccloud.com<BR>
______________________________________________________________________<BR>