<div dir="ltr">The issue I faced was caused by a faulty IB fabric switch.  Our Voltaire would periodically crash resulting in the subnet manager failing.  The SM is hosted on the switch (Voltaire GridDirector).  The switch itself began to do this once every few weeks so I stopped using IB on the non-compute servers that hosted virtual machine storage as I did not want the unreliable switch to bring down our VMs (this includes our login nodes).<div><br></div><div>The symptom that made it clear when the switch was the cause of IPoIB issues was if a system was rebooted it would fail to get an LID, and the ibstat output would just show as "Initializing" until  the switch was rebooted.</div><div><br></div><div>The other issue that coincided with this is that one of the fabric boards on our switch failed resulting in some of the chassis blades being "orphaned" and unable to communicate with systems on the blades managed by the working fabric boards.  This issue is somewhat specific to our switch as we have all systems run directly to the core IB switch.</div><div><br></div><div>Good luck,</div><div>- Trey</div></div><div class="gmail_extra"><br clear="all"><div><div class="gmail_signature"><div dir="ltr"><div>=============================</div><div><br></div><div>Trey Dockendorf </div><div>Systems Analyst I </div><div>Texas A&M University </div><div>Academy for Advanced Telecommunications and Learning Technologies </div><div>Phone: (979)458-2396 </div><div>Email: <a href="mailto:treydock@tamu.edu" target="_blank">treydock@tamu.edu</a> </div><div>Jabber: <a href="mailto:treydock@tamu.edu" target="_blank">treydock@tamu.edu</a></div></div></div></div>
<br><div class="gmail_quote">On Tue, Mar 17, 2015 at 9:54 AM, Mehmet Soysal <span dir="ltr"><<a href="mailto:mehmet.soysal@kit.edu" target="_blank">mehmet.soysal@kit.edu</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hi,<br>
did you solved the problem ?<br>
We have a similar issue since a upgrade to RHEL 6.5 or higher.<br>
<br>
On our nodes ipoib is not working any longer after a opensm fail over occurs.<br>
We have serveral nodes from different vendors. All Red-Hat machines are affected,<br>
SUSE machines are working fine after a opensm fail over.<br>
<br>
We did not noticed that issue, cause after a reboot ipoib is doing fine<br>
and then suddenly stops working on all nodes. Everything else is still working fine,<br>
like mpi communication or lustre. But if the Client need to reconnect to a lustre server,<br>
due to a lustre failover, this is initially done over IP (ipoib).<br>
This took a long time until we pinned that issue down to a opensm fail over.<br>
<br>
Our RHEL nodes have also ConnectX3 cards.<br>
Update to RHEL 6.6 does not solve this issue.<br>
We opened a Case at Redhat for it and waiting for a fix or a solution.<br>
<br>
<br>
<br>
best regards<br>
M.Soysal<br>
<br>
 <br>
______________________________<u></u>_________________<br>
Users mailing list<br>
<a href="mailto:Users@lists.openfabrics.org" target="_blank">Users@lists.openfabrics.org</a><br>
<a href="http://lists.openfabrics.org/mailman/listinfo/users" target="_blank">http://lists.openfabrics.org/<u></u>mailman/listinfo/users</a><br>
</blockquote></div><br></div>