Bart -<br>I started a thread similar to this a while back about expected RDMA performance after I measured low bandwidth similar to yours.  In our case, we are using DDR and you apparently are using SDR, but we are getting bandwidth almost exactly twice what you are getting.  That is: your SDR BW = 674 MB/s and our DDR BW = 1336 MB/s.  Our motherboards are SuperMicro (X7DBU and X7DBT) using the same 5000P chipset as your board. They are dual Xeon CPU boards. The HCA is the MT25204 also. Here is our output from lspci for comparison:
<br><br>0b:00.0 InfiniBand: Mellanox Technologies MT25204 [InfiniHost III Lx HCA] (rev 20)<br>        Subsystem: Mellanox Technologies MT25204 [InfiniHost III Lx HCA]<br>        Control: I/O- Mem+ BusMaster+ SpecCycle- MemWINV- VGASnoop- ParErr+ Stepping- SERR+ FastB2B-
<br>        Status: Cap+ 66MHz- UDF- FastB2B- ParErr- DEVSEL=fast >TAbort- <TAbort- <MAbort- >SERR- <PERR-<br>        Latency: 0, Cache Line Size: 32 bytes<br>        Interrupt: pin A routed to IRQ 18<br>        Region 0: Memory at ca200000 (64-bit, non-prefetchable) [size=1M]
<br>        Region 2: Memory at cb000000 (64-bit, prefetchable) [size=8M]<br>        Capabilities: [40] Power Management version 2<br>                Flags: PMEClk- DSI- D1- D2- AuxCurrent=0mA PME(D0-,D1-,D2-,D3hot-,D3cold-)
<br>                Status: D0 PME-Enable- DSel=0 DScale=0 PME-<br>        Capabilities: [48] Vital Product Data<br>        Capabilities: [90] Message Signalled Interrupts: 64bit+ Queue=0/5 Enable-<br>                Address: 0000000000000000  Data: 0000
<br>        Capabilities: [84] MSI-X: Enable- Mask- TabSize=32<br>                Vector table: BAR=0 offset=00082000<br>                PBA: BAR=0 offset=00082200<br>        Capabilities: [60] Express Endpoint IRQ 0<br>                Device: Supported: MaxPayload 128 bytes, PhantFunc 0, ExtTag+
<br>                Device: Latency L0s <64ns, L1 unlimited<br>                Device: AtnBtn- AtnInd- PwrInd-<br>                Device: Errors: Correctable- Non-Fatal- Fatal- Unsupported-<br>                Device: RlxdOrd- ExtTag- PhantFunc- AuxPwr- NoSnoop-
<br>                Device: MaxPayload 128 bytes, MaxReadReq 512 bytes<br>                Link: Supported Speed 2.5Gb/s, Width x8, ASPM L0s, Port 8<br>                Link: Latency L0s unlimited, L1 unlimited<br>                Link: ASPM Disabled RCB 64 bytes CommClk- ExtSynch-
<br>                Link: Speed 2.5Gb/s, Width x8<br><br>There were some comments in the previous thread that the 5000P chipset is limiting the BW we could achieve.  We have SuperMicro boards that have the MT25204 onboard and others that are on HCA plugin cards, but they all show the same level of performance (all using the 5000P chipset).  We did plug in one of the cards to an x4 slot by mistake and the performance was chopped off at the level you are seeing, but lspci correctly identified it as an x4 slot.  We were unsuccessful in finding any BIOS settings that would improve these numbers.  Also note that we have the good MaxReadReq = 512 that Sagi mentions.
<br><br>Are both of your motherboards using the 5000P chipset? Are the lspci results from the dual CPU board the comparable to the ones you included  above?   Maybe someone can identify some parameter common to different PCI configurations that may be the source of the problem.
<br><br>Chuck<br>