<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 5.5.2654.45">
<TITLE>RE: [openib-general] opensm fails to bring up subnet..</TITLE>
</HEAD>
<BODY>

<P><FONT SIZE=2>So Troy - will you be able to capture an osm.log and send us a tar.gz ?</FONT>
</P>

<P><FONT SIZE=2>Eitan Zahavi</FONT>
<BR><FONT SIZE=2>Design Technology Director</FONT>
<BR><FONT SIZE=2>Mellanox Technologies LTD</FONT>
<BR><FONT SIZE=2>Tel:+972-4-9097208</FONT>
<BR><FONT SIZE=2>Fax:+972-4-9593245</FONT>
<BR><FONT SIZE=2>P.O. Box 586 Yokneam 20692 ISRAEL</FONT>
</P>
<BR>

<P><FONT SIZE=2>> -----Original Message-----</FONT>
<BR><FONT SIZE=2>> From: Troy Benjegerdes [<A HREF="mailto:hozer@hozed.org">mailto:hozer@hozed.org</A>]</FONT>
<BR><FONT SIZE=2>> Sent: Friday, June 03, 2005 8:17 PM</FONT>
<BR><FONT SIZE=2>> To: Hal Rosenstock</FONT>
<BR><FONT SIZE=2>> Cc: openib-general@openib.org</FONT>
<BR><FONT SIZE=2>> Subject: Re: [openib-general] opensm fails to bring up subnet..</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> On Fri, Jun 03, 2005 at 08:37:04AM -0400, Hal Rosenstock wrote:</FONT>
<BR><FONT SIZE=2>> > On Thu, 2005-06-02 at 19:23, Troy Benjegerdes wrote:</FONT>
<BR><FONT SIZE=2>> > > I'm having intermittent problems with opensm.. It seems after a while</FONT>
<BR><FONT SIZE=2>> > > IPoIB stops working</FONT>
<BR><FONT SIZE=2>> ></FONT>
<BR><FONT SIZE=2>> > Wonder if there is some relation to the two: intermittent IPoIB and lack</FONT>
<BR><FONT SIZE=2>> > of response to SM query.</FONT>
<BR><FONT SIZE=2>> ></FONT>
<BR><FONT SIZE=2>> > >  and if I restart opensm,</FONT>
<BR><FONT SIZE=2>> ></FONT>
<BR><FONT SIZE=2>> > How did you get around the ABI version mismatch issue ?</FONT>
<BR><FONT SIZE=2>> ></FONT>
<BR><FONT SIZE=2>> > >  it starts spitting out</FONT>
<BR><FONT SIZE=2>> > > errors. Do I have a misbehaving switch somewhere?</FONT>
<BR><FONT SIZE=2>> ></FONT>
<BR><FONT SIZE=2>> > It appears that a node is not responding to a discovery packet (SM Get</FONT>
<BR><FONT SIZE=2>> > NodeInfo (attrID 0x11)). It's direct route initial path (an array of</FONT>
<BR><FONT SIZE=2>> > port numbers at the start of the next hop) is:</FONT>
<BR><FONT SIZE=2>> > Initial path = [1][81][1] which means that starting at the node running</FONT>
<BR><FONT SIZE=2>> > OpenSM, port 1 then port 129 then port 1. Is there a large switch in the</FONT>
<BR><FONT SIZE=2>> > middle ? Can you send the output of ibnetdiscover ? If that is valid,</FONT>
<BR><FONT SIZE=2>> > which HCA (port) is not responding (what is the GUID) ?</FONT>
<BR><FONT SIZE=2>> ></FONT>
<BR><FONT SIZE=2>> > Unfortunately on such an error osm does not appear to give up  (it</FONT>
<BR><FONT SIZE=2>> > retries forever and is locked on such a node). This is obviously not</FONT>
<BR><FONT SIZE=2>> > good.</FONT>
<BR><FONT SIZE=2>> ></FONT>
<BR><FONT SIZE=2>> > > ibnetdiscover seems to work fine.</FONT>
<BR><FONT SIZE=2>> ></FONT>
<BR><FONT SIZE=2>> > Are you sure it displays all HCA and switches and their ports ? I</FONT>
<BR><FONT SIZE=2>> > wouldn't think it would respond to ibnetdiscover if it didn't respond to</FONT>
<BR><FONT SIZE=2>> > osm.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> I'm running a subversion checkout as of yesterday, so that's how I</FONT>
<BR><FONT SIZE=2>> got around the ABI version stuff.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> the [81] port indicator is definitely bogus. All I have are 8 port</FONT>
<BR><FONT SIZE=2>> switches. I've also seen [0][0][0] path indicators.. are those allowed</FONT>
<BR><FONT SIZE=2>> as well?</FONT>
<BR><FONT SIZE=2>> _______________________________________________</FONT>
<BR><FONT SIZE=2>> openib-general mailing list</FONT>
<BR><FONT SIZE=2>> openib-general@openib.org</FONT>
<BR><FONT SIZE=2>> <A HREF="http://openib.org/mailman/listinfo/openib-general" TARGET="_blank">http://openib.org/mailman/listinfo/openib-general</A></FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> To unsubscribe, please visit <A HREF="http://openib.org/mailman/listinfo/openib-general" TARGET="_blank">http://openib.org/mailman/listinfo/openib-general</A></FONT>
</P>

</BODY>
</HTML>