<div dir="ltr"><div class="gmail_extra"><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div class=""><div class="h5">
> perfquery output before ib_send_bw test:<br>
><br>
> # Port counters: Lid 2 port 1<br>
> PortSelect:......................1<br>
> CounterSelect:...................0x1400<br>
> SymbolErrorCounter:..............15814<br>
> LinkErrorRecoveryCounter:........255<br>
> LinkDownedCounter:...............0<br>
> PortRcvErrors:...................5403<br>
> PortRcvRemotePhysicalErrors:.....0<br>
> PortRcvSwitchRelayErrors:........0<br>
> PortXmitDiscards:................0<br>
> PortXmitConstraintErrors:........0<br>
> PortRcvConstraintErrors:.........0<br>
> CounterSelect2:..................0x00<br>
> LocalLinkIntegrityErrors:........0<br>
> ExcessiveBufferOverrunErrors:....0<br>
> VL15Dropped:.....................0<br>
> PortXmitData:....................2925583200<br>
> PortRcvData:.....................145715607<br>
> PortXmitPkts:....................10975597<br>
> PortRcvPkts:.....................8191613<br>
> PortXmitWait:....................7570<br>
><br>
><br>
> Run Ib_send_bw test:<br>
> [root@vsanqa7 ~]# ib_send_bw<br>
> ------------------------------------------------------------------<br>
>                     Send BW Test<br>
>  Number of qps   : 1<br>
>  Connection type : RC<br>
>  RX depth        : 600<br>
>  CQ Moderation   : 50<br>
>  Mtu             : 2048B<br>
>  Link type       : IB<br>
>  Max inline data : 0B<br>
>  rdma_cm QPs   : OFF<br>
>  Data ex. method : Ethernet<br>
> ------------------------------------------------------------------<br>
>  local address: LID 0x02 QPN 0xde1b PSN 000000<br>
>  remote address: LID 0x01 QPN 0x64004a PSN 000000<br>
> ------------------------------------------------------------------<br>
>  #bytes     #iterations    BW peak[MB/sec]    BW average[MB/sec]<br>
>  65536      1000           -nan               42.71<br>
><br>
> Which is too low<br>
><br>
> Perfquery after ib_send_bw test:<br>
><br>
> # Port counters: Lid 2 port 1<br>
> PortSelect:......................1<br>
> CounterSelect:...................0x1400<br>
> SymbolErrorCounter:..............20750<br>
<br>
</div></div>Are symbol errors increasing ?<br>
<br></blockquote><div><br></div><div>Yes.<br><br>From the outputs above:<br><br>Before the ib_send_bw test, the symbol error counter reads as below:<br>> SymbolErrorCounter:..............15814<br><br></div><div>Post test, the following is the counter value:<br>
> SymbolErrorCounter:..............20750<br><br></div><div><br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
> LinkErrorRecoveryCounter:........255<br>
<br>
Could it be that your link goes through error recovery as indicated by<br>
this counter being max'd out ?<br>
<br>
Can you clear this counter and see if it increments ?<br></blockquote><div><br></div><div class="im">I will try this the next time I hit the issue.<br>
<br>[...]<br><br>
</div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">I suspect the link is retraining due to minor errors over threshold or<br>
major errors.<br>
<br>
Can you try some other known good cable ?<br></blockquote></div><br></div><div class="gmail_extra">Will do that and will report if we continue to see issues. But the fact that the<br>problems disappear everytime I reload the modules suggests it might be some<br>
software state that is getting messed, but I am only guessing. Also, it is not<br></div><div class="gmail_extra">just one pair of systems that is seeing this problem. We have witnessed it<br></div><div class="gmail_extra">
between atleast 3 pairs of systems which reduces the likelihood of this being<br></div><div class="gmail_extra">a cable problem.<br></div><div class="gmail_extra"><br></div><div class="gmail_extra">Pavan<br></div></div>