<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 3.2//EN">
<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=us-ascii">
<META NAME="Generator" CONTENT="MS Exchange Server version 5.5.2654.45">
<TITLE>RE: [openib-general] Re: openib segfaults when openib is not loaded</TITLE>
</HEAD>
<BODY>

<P><FONT SIZE=2>Hi Hal,</FONT>
</P>

<P><FONT SIZE=2>Yael is working on the exact same problem. She is probably going to complete it tomorrow.</FONT>
</P>

<P><FONT SIZE=2>The issue was both the vl15 cl_unregister but we are also facing some issues as the umad receiver never exists. When MADs are arriving after the dispatcher is destroyed they cause a segfault. </FONT></P>

<P><FONT SIZE=2>Hope it will be all fixed by the weekend.</FONT>
</P>

<P><FONT SIZE=2>EZ</FONT>
</P>

<P><FONT SIZE=2>Eitan Zahavi</FONT>
<BR><FONT SIZE=2>Design Technology Director</FONT>
<BR><FONT SIZE=2>Mellanox Technologies LTD</FONT>
<BR><FONT SIZE=2>Tel:+972-4-9097208</FONT>
<BR><FONT SIZE=2>Fax:+972-4-9593245</FONT>
<BR><FONT SIZE=2>P.O. Box 586 Yokneam 20692 ISRAEL</FONT>
</P>
<BR>

<P><FONT SIZE=2>> -----Original Message-----</FONT>
<BR><FONT SIZE=2>> From: Hal Rosenstock [<A HREF="mailto:halr@voltaire.com">mailto:halr@voltaire.com</A>]</FONT>
<BR><FONT SIZE=2>> Sent: Wednesday, November 02, 2005 4:20 PM</FONT>
<BR><FONT SIZE=2>> To: Michael S. Tsirkin</FONT>
<BR><FONT SIZE=2>> Cc: openib-general@openib.org</FONT>
<BR><FONT SIZE=2>> Subject: [openib-general] Re: openib segfaults when openib is not loaded</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> On Wed, 2005-11-02 at 09:14, Michael S. Tsirkin wrote:</FONT>
<BR><FONT SIZE=2>> > Hi!</FONT>
<BR><FONT SIZE=2>> > If I try to load opensm without loading any of openib modules,</FONT>
<BR><FONT SIZE=2>> > opensm crashes on exit.</FONT>
<BR><FONT SIZE=2>> > Has anyone else seen this?</FONT>
<BR><FONT SIZE=2>> ></FONT>
<BR><FONT SIZE=2>> > # /usr/local/bin/opensm</FONT>
<BR><FONT SIZE=2>> > -------------------------------------------------</FONT>
<BR><FONT SIZE=2>> > OpenSM Rev:openib-1.1.0</FONT>
<BR><FONT SIZE=2>> > Command Line Arguments:</FONT>
<BR><FONT SIZE=2>> >  Log File: /var/log/osm.log</FONT>
<BR><FONT SIZE=2>> > -------------------------------------------------</FONT>
<BR><FONT SIZE=2>> > OpenSM Rev:openib-1.1.0</FONT>
<BR><FONT SIZE=2>> ></FONT>
<BR><FONT SIZE=2>> > ibwarn: [8954] umad_init: can't read ABI version from</FONT>
<BR><FONT SIZE=2>> /sys/class/infiniband_mad/abi_version (No such file or directory): is ib_umad module</FONT>
<BR><FONT SIZE=2>> loaded?</FONT>
<BR><FONT SIZE=2>> ></FONT>
<BR><FONT SIZE=2>> > Error from osm_vendor_get_all_port_attr (ffffffff)</FONT>
<BR><FONT SIZE=2>> > Error: Could not get port guid</FONT>
<BR><FONT SIZE=2>> > Exiting SM</FONT>
<BR><FONT SIZE=2>> ></FONT>
<BR><FONT SIZE=2>> > Segmentation fault (core dumped)</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> Yes, this seg fault is caused due to the following:</FONT>
<BR><FONT SIZE=2>> osm_opensm_destroy shutdowns the dispatcher and subsequent to this</FONT>
<BR><FONT SIZE=2>> osm_vl15_destroy attempts to unregister with the dispatcher (although</FONT>
<BR><FONT SIZE=2>> this has already been done).</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> osm_opensm.c::osm_opensm_destroy</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>>    /* shut down the dispatcher - so no new messages cross */</FONT>
<BR><FONT SIZE=2>>    cl_disp_shutdown( &p_osm->disp );</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>>    /* cleanup all messages on VL15 fifo that were not sent yet */</FONT>
<BR><FONT SIZE=2>>    osm_vl15_shutdown( &p_osm->vl15, &p_osm->mad_pool );</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>>    /* lock the whole thing so we do not get any requests etc */</FONT>
<BR><FONT SIZE=2>>    cl_plock_excl_acquire( &p_osm->lock );</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>>    /* do the destruction in reverse order as init */</FONT>
<BR><FONT SIZE=2>>    updn_destroy( p_osm->p_updn_ucast_routing );</FONT>
<BR><FONT SIZE=2>>    osm_sa_destroy( &p_osm->sa );</FONT>
<BR><FONT SIZE=2>>    osm_sm_destroy( &p_osm->sm );</FONT>
<BR><FONT SIZE=2>>    osm_db_destroy( &p_osm->db );</FONT>
<BR><FONT SIZE=2>>    osm_vl15_destroy( &p_osm->vl15, &p_osm->mad_pool );</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> My workaround has been to remove this from</FONT>
<BR><FONT SIZE=2>> osm_vl15intf.c::osm_vl15_destroy but I'm not sure this is the best long</FONT>
<BR><FONT SIZE=2>> term fix as yet. I hadn't searched out whether there were other paths</FONT>
<BR><FONT SIZE=2>> that were different from this flow.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> This seems lower priority to me than some other issues I'm still sorting</FONT>
<BR><FONT SIZE=2>> through but I will get back to this unless someone else gets to it first</FONT>
<BR><FONT SIZE=2>> or thinks that the workaround I have should be made permanent.</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> -- Hal</FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> _______________________________________________</FONT>
<BR><FONT SIZE=2>> openib-general mailing list</FONT>
<BR><FONT SIZE=2>> openib-general@openib.org</FONT>
<BR><FONT SIZE=2>> <A HREF="http://openib.org/mailman/listinfo/openib-general" TARGET="_blank">http://openib.org/mailman/listinfo/openib-general</A></FONT>
<BR><FONT SIZE=2>> </FONT>
<BR><FONT SIZE=2>> To unsubscribe, please visit <A HREF="http://openib.org/mailman/listinfo/openib-general" TARGET="_blank">http://openib.org/mailman/listinfo/openib-general</A></FONT>
</P>

</BODY>
</HTML>