<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 5.5.2654.45">
<TITLE>RE: [openib-general] opensm fails to bring up subnet..</TITLE>
</HEAD>
<BODY>

<P><FONT SIZE=2>Hi, </FONT>
<BR><FONT SIZE=2>Sorry for catching up with this late in the thread. (Thanks Hal for waking me up...)</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> It appears that a node is not responding to a discovery packet (SM Get</FONT>
<BR><FONT SIZE=2>> NodeInfo (attrID 0x11)). It's direct route initial path (an array of</FONT>
<BR><FONT SIZE=2>> port numbers at the start of the next hop) is:</FONT>
<BR><FONT SIZE=2>> Initial path = [1][81][1] which means that starting at the node running</FONT>
<BR><FONT SIZE=2>> OpenSM, port 1 then port 129 then port 1. Is there a large switch in the</FONT>
<BR><FONT SIZE=2>> middle ? Can you send the output of ibnetdiscover ? If that is valid,</FONT>
<BR><FONT SIZE=2>> which HCA (port) is not responding (what is the GUID) ?</FONT>
<BR><FONT SIZE=2>[EZ] Normally all directed route dumps should start with: </FONT>
<BR><FONT SIZE=2>Initial path = [0][....</FONT>
<BR><FONT SIZE=2>The first hop is reserved to 0 - so I wonde if the above text is a direct quote from the osm.log ?</FONT>
<BR><FONT SIZE=2>The fact you got there a [81] means that the packet should leave from port 81 ?? </FONT>
<BR><FONT SIZE=2>I have never seen a switch with more then 24 ports...</FONT>
</P>

<P><FONT SIZE=2>> Unfortunately on such an error osm does not appear to give up  (it</FONT>
<BR><FONT SIZE=2>> retries forever and is locked on such a node). This is obviously not</FONT>
<BR><FONT SIZE=2>> good.</FONT>
<BR><FONT SIZE=2>Also Troy if you are able to capture the entire log it might put some light on the issue of "OpenSM never give up" on such cases - which we want to resolve.</FONT></P>

</BODY>
</HTML>