src - FreeBSD source tree

diff options


context:
space:
mode:

author	Dimitry Andric <dim@FreeBSD.org>	2011-07-17 15:36:56 +0000
committer	Dimitry Andric <dim@FreeBSD.org>	2011-07-17 15:36:56 +0000
commit	411bd29eea3c360d5b48a18a17b5e87f5671af0e (patch)
tree	c8086addb211fa670a9d2b1038d8c2e453229755 /lib/Target/X86/X86InstrSSE.td
parent	56fe8f14099930935e3870e3e823c322a85c1c89 (diff)
download	src-411bd29eea3c360d5b48a18a17b5e87f5671af0e.tar.gz src-411bd29eea3c360d5b48a18a17b5e87f5671af0e.zip

Vendor import of llvm trunk r135360:vendor/llvm/llvm-r135360

http://llvm.org/svn/llvm-project/llvm/trunk@135360

Notes

Notes: svn path=/vendor/llvm/dist/; revision=224133 svn path=/vendor/llvm/llvm-r135360/; revision=224134; tag=vendor/llvm/llvm-r135360

Diffstat (limited to 'lib/Target/X86/X86InstrSSE.td')

-rw-r--r--

lib/Target/X86/X86InstrSSE.td

248

1 files changed, 172 insertions, 76 deletions

diff --git a/lib/Target/X86/X86InstrSSE.td b/lib/Target/X86/X86InstrSSE.td
index b64c03a9b597..fe11d776804c 100644
--- a/lib/Target/X86/X86InstrSSE.td
+++ b/lib/Target/X86/X86InstrSSE.td

@@ -512,6 +512,26 @@ defm VCVTSI2SDL : sse12_vcvt_avx<0x2A, GR32, FR64, i32mem, "cvtsi2sd{l}">, XD,

defm VCVTSI2SD64 : sse12_vcvt_avx<0x2A, GR64, FR64, i64mem, "cvtsi2sd{q}">, XD,

VEX_4V, VEX_W;

+let Predicates = [HasAVX] in {

+ def : Pat<(f32 (sint_to_fp (loadi32 addr:$src))),

+ (VCVTSI2SSrm (f32 (IMPLICIT_DEF)), addr:$src)>;

+ def : Pat<(f32 (sint_to_fp (loadi64 addr:$src))),

+ (VCVTSI2SS64rm (f32 (IMPLICIT_DEF)), addr:$src)>;

+ def : Pat<(f64 (sint_to_fp (loadi32 addr:$src))),

+ (VCVTSI2SDrm (f64 (IMPLICIT_DEF)), addr:$src)>;

+ def : Pat<(f64 (sint_to_fp (loadi64 addr:$src))),

+ (VCVTSI2SD64rm (f64 (IMPLICIT_DEF)), addr:$src)>;

+ def : Pat<(f32 (sint_to_fp GR32:$src)),

+ (VCVTSI2SSrr (f32 (IMPLICIT_DEF)), GR32:$src)>;

+ def : Pat<(f32 (sint_to_fp GR64:$src)),

+ (VCVTSI2SS64rr (f32 (IMPLICIT_DEF)), GR64:$src)>;

+ def : Pat<(f64 (sint_to_fp GR32:$src)),

+ (VCVTSI2SDrr (f64 (IMPLICIT_DEF)), GR32:$src)>;

+ def : Pat<(f64 (sint_to_fp GR64:$src)),

+ (VCVTSI2SD64rr (f64 (IMPLICIT_DEF)), GR64:$src)>;

defm CVTTSS2SI : sse12_cvt_s<0x2C, FR32, GR32, fp_to_sint, f32mem, loadf32,

"cvttss2si\t{$src, $dst|$dst, $src}">, XS;

defm CVTTSS2SI64 : sse12_cvt_s<0x2C, FR32, GR64, fp_to_sint, f32mem, loadf32,

@@ -1473,83 +1493,68 @@ let neverHasSideEffects = 1, Pattern = []<dag>, isCommutable = 0 in

/// sse12_fp_packed_logical - SSE 1 & 2 packed FP logical ops

///

multiclass sse12_fp_packed_logical<bits<8> opc, string OpcodeStr,

- SDNode OpNode, int HasPat = 0,

- list<list<dag>> Pattern = []> {

+ SDNode OpNode> {

let Pattern = []<dag> in {

defm V#NAME#PS : sse12_fp_packed_logical_rm<opc, VR128, SSEPackedSingle,

!strconcat(OpcodeStr, "ps"), f128mem,

- !if(HasPat, Pattern[0], // rr

- [(set VR128:$dst, (v2i64 (OpNode VR128:$src1,

- VR128:$src2)))]),

- !if(HasPat, Pattern[2], // rm

- [(set VR128:$dst, (OpNode (bc_v2i64 (v4f32 VR128:$src1)),

- (memopv2i64 addr:$src2)))]), 0>,

- VEX_4V;

+ [(set VR128:$dst, (v2i64 (OpNode VR128:$src1, VR128:$src2)))],

+ [(set VR128:$dst, (OpNode (bc_v2i64 (v4f32 VR128:$src1)),

+ (memopv2i64 addr:$src2)))], 0>, VEX_4V;

defm V#NAME#PD : sse12_fp_packed_logical_rm<opc, VR128, SSEPackedDouble,

!strconcat(OpcodeStr, "pd"), f128mem,

- !if(HasPat, Pattern[1], // rr

- [(set VR128:$dst, (OpNode (bc_v2i64 (v2f64 VR128:$src1)),

- (bc_v2i64 (v2f64

- VR128:$src2))))]),

- !if(HasPat, Pattern[3], // rm

- [(set VR128:$dst, (OpNode (bc_v2i64 (v2f64 VR128:$src1)),

- (memopv2i64 addr:$src2)))]), 0>,

- OpSize, VEX_4V;

+ [(set VR128:$dst, (OpNode (bc_v2i64 (v2f64 VR128:$src1)),

+ (bc_v2i64 (v2f64 VR128:$src2))))],

+ [(set VR128:$dst, (OpNode (bc_v2i64 (v2f64 VR128:$src1)),

+ (memopv2i64 addr:$src2)))], 0>,

+ OpSize, VEX_4V;

}

let Constraints = "$src1 = $dst" in {

defm PS : sse12_fp_packed_logical_rm<opc, VR128, SSEPackedSingle,

!strconcat(OpcodeStr, "ps"), f128mem,

- !if(HasPat, Pattern[0], // rr

- [(set VR128:$dst, (v2i64 (OpNode VR128:$src1,

- VR128:$src2)))]),

- !if(HasPat, Pattern[2], // rm

- [(set VR128:$dst, (OpNode (bc_v2i64 (v4f32 VR128:$src1)),

- (memopv2i64 addr:$src2)))])>, TB;

+ [(set VR128:$dst, (v2i64 (OpNode VR128:$src1, VR128:$src2)))],

+ [(set VR128:$dst, (OpNode (bc_v2i64 (v4f32 VR128:$src1)),

+ (memopv2i64 addr:$src2)))]>, TB;

defm PD : sse12_fp_packed_logical_rm<opc, VR128, SSEPackedDouble,

!strconcat(OpcodeStr, "pd"), f128mem,

- !if(HasPat, Pattern[1], // rr

- [(set VR128:$dst, (OpNode (bc_v2i64 (v2f64 VR128:$src1)),

- (bc_v2i64 (v2f64

- VR128:$src2))))]),

- !if(HasPat, Pattern[3], // rm

- [(set VR128:$dst, (OpNode (bc_v2i64 (v2f64 VR128:$src1)),

- (memopv2i64 addr:$src2)))])>,

- TB, OpSize;

+ [(set VR128:$dst, (OpNode (bc_v2i64 (v2f64 VR128:$src1)),

+ (bc_v2i64 (v2f64 VR128:$src2))))],

+ [(set VR128:$dst, (OpNode (bc_v2i64 (v2f64 VR128:$src1)),

+ (memopv2i64 addr:$src2)))]>, TB, OpSize;

}

/// sse12_fp_packed_logical_y - AVX 256-bit SSE 1 & 2 logical ops forms

///

-multiclass sse12_fp_packed_logical_y<bits<8> opc, string OpcodeStr> {

+multiclass sse12_fp_packed_logical_y<bits<8> opc, string OpcodeStr,

+ SDNode OpNode> {

defm PSY : sse12_fp_packed_logical_rm<opc, VR256, SSEPackedSingle,

- !strconcat(OpcodeStr, "ps"), f256mem, [], [], 0>, VEX_4V;

+ !strconcat(OpcodeStr, "ps"), f256mem,

+ [(set VR256:$dst, (v4i64 (OpNode VR256:$src1, VR256:$src2)))],

+ [(set VR256:$dst, (OpNode (bc_v4i64 (v8f32 VR256:$src1)),

+ (memopv4i64 addr:$src2)))], 0>, VEX_4V;

defm PDY : sse12_fp_packed_logical_rm<opc, VR256, SSEPackedDouble,

- !strconcat(OpcodeStr, "pd"), f256mem, [], [], 0>, OpSize, VEX_4V;

+ !strconcat(OpcodeStr, "pd"), f256mem,

+ [(set VR256:$dst, (OpNode (bc_v4i64 (v4f64 VR256:$src1)),

+ (bc_v4i64 (v4f64 VR256:$src2))))],

+ [(set VR256:$dst, (OpNode (bc_v4i64 (v4f64 VR256:$src1)),

+ (memopv4i64 addr:$src2)))], 0>,

+ OpSize, VEX_4V;

}

// AVX 256-bit packed logical ops forms

-defm VAND : sse12_fp_packed_logical_y<0x54, "and">;

-defm VOR : sse12_fp_packed_logical_y<0x56, "or">;

-defm VXOR : sse12_fp_packed_logical_y<0x57, "xor">;

-let isCommutable = 0 in

- defm VANDN : sse12_fp_packed_logical_y<0x55, "andn">;

+defm VAND : sse12_fp_packed_logical_y<0x54, "and", and>;

+defm VOR : sse12_fp_packed_logical_y<0x56, "or", or>;

+defm VXOR : sse12_fp_packed_logical_y<0x57, "xor", xor>;

+defm VANDN : sse12_fp_packed_logical_y<0x55, "andn", X86andnp>;

defm AND : sse12_fp_packed_logical<0x54, "and", and>;

defm OR : sse12_fp_packed_logical<0x56, "or", or>;

defm XOR : sse12_fp_packed_logical<0x57, "xor", xor>;

let isCommutable = 0 in

- defm ANDN : sse12_fp_packed_logical<0x55, "andn", undef /* dummy */, 1, [

- // single r+r

- [(set VR128:$dst, (X86pandn VR128:$src1, VR128:$src2))],

- // double r+r

- [],

- // single r+m

- [(set VR128:$dst, (X86pandn VR128:$src1, (memopv2i64 addr:$src2)))],

- // double r+m

- []]>;

+ defm ANDN : sse12_fp_packed_logical<0x55, "andn", X86andnp>;

//===----------------------------------------------------------------------===//

// SSE 1 & 2 - Arithmetic Instructions

@@ -1991,11 +1996,11 @@ def : Pat<(alignednontemporalstore (v2i64 VR128:$src), addr:$dst),

// There is no AVX form for instructions below this point

def MOVNTImr : I<0xC3, MRMDestMem, (outs), (ins i32mem:$dst, GR32:$src),

- "movnti\t{$src, $dst|$dst, $src}",

+ "movnti{l}\t{$src, $dst|$dst, $src}",

[(nontemporalstore (i32 GR32:$src), addr:$dst)]>,

TB, Requires<[HasSSE2]>;

def MOVNTI_64mr : RI<0xC3, MRMDestMem, (outs), (ins i64mem:$dst, GR64:$src),

- "movnti\t{$src, $dst|$dst, $src}",

+ "movnti{q}\t{$src, $dst|$dst, $src}",

[(nontemporalstore (i64 GR64:$src), addr:$dst)]>,

TB, Requires<[HasSSE2]>;

}

@@ -2006,13 +2011,13 @@ def MOVNTI_64mr : RI<0xC3, MRMDestMem, (outs), (ins i64mem:$dst, GR64:$src),

// Prefetch intrinsic.

def PREFETCHT0 : PSI<0x18, MRM1m, (outs), (ins i8mem:$src),

- "prefetcht0\t$src", [(prefetch addr:$src, imm, (i32 3))]>;

+ "prefetcht0\t$src", [(prefetch addr:$src, imm, (i32 3), (i32 1))]>;

def PREFETCHT1 : PSI<0x18, MRM2m, (outs), (ins i8mem:$src),

- "prefetcht1\t$src", [(prefetch addr:$src, imm, (i32 2))]>;

+ "prefetcht1\t$src", [(prefetch addr:$src, imm, (i32 2), (i32 1))]>;

def PREFETCHT2 : PSI<0x18, MRM3m, (outs), (ins i8mem:$src),

- "prefetcht2\t$src", [(prefetch addr:$src, imm, (i32 1))]>;

+ "prefetcht2\t$src", [(prefetch addr:$src, imm, (i32 1), (i32 1))]>;

def PREFETCHNTA : PSI<0x18, MRM0m, (outs), (ins i8mem:$src),

- "prefetchnta\t$src", [(prefetch addr:$src, imm, (i32 0))]>;

+ "prefetchnta\t$src", [(prefetch addr:$src, imm, (i32 0), (i32 1))]>;

// Load, store, and memory fence

def SFENCE : I<0xAE, MRM_F8, (outs), (ins), "sfence", [(int_x86_sse_sfence)]>,

@@ -2037,7 +2042,10 @@ def V_SET0PI : PDI<0xEF, MRMInitReg, (outs VR128:$dst), (ins), "",

}

// The same as done above but for AVX. The 128-bit versions are the

-// same, but re-encoded. The 256-bit does not support PI version.

+// same, but re-encoded. The 256-bit does not support PI version, and

+// doesn't need it because on sandy bridge the register is set to zero

+// at the rename stage without using any execution unit, so SET0PSY

+// and SET0PDY can be used for vector int instructions without penalty

// FIXME: Change encoding to pseudo! This is blocked right now by the x86

// JIT implementatioan, it does not expand the instructions below like

// X86MCInstLower does.

@@ -2052,8 +2060,8 @@ def AVX_SET0PSY : PSI<0x57, MRMInitReg, (outs VR256:$dst), (ins), "",

def AVX_SET0PDY : PDI<0x57, MRMInitReg, (outs VR256:$dst), (ins), "",

[(set VR256:$dst, (v4f64 immAllZerosV))]>, VEX_4V;

let ExeDomain = SSEPackedInt in

-def AVX_SET0PI : PDI<0xEF, MRMInitReg, (outs VR128:$dst), (ins), "",

- [(set VR128:$dst, (v4i32 immAllZerosV))]>;

+def AVX_SET0PI : PDI<0xEF, MRMInitReg, (outs VR128:$dst), (ins), "",

+ [(set VR128:$dst, (v4i32 immAllZerosV))]>;

}

def : Pat<(v2i64 immAllZerosV), (V_SET0PI)>;

@@ -2063,6 +2071,15 @@ def : Pat<(v16i8 immAllZerosV), (V_SET0PI)>;

def : Pat<(f32 (vector_extract (v4f32 VR128:$src), (iPTR 0))),

(f32 (EXTRACT_SUBREG (v4f32 VR128:$src), sub_ss))>;

+// FIXME: According to the intel manual, DEST[127:64] <- SRC1[127:64], while

+// in the non-AVX version bits 127:64 aren't touched. Find a better way to

+// represent this instead of always zeroing SRC1. One possible solution is

+// to represent the instruction w/ something similar as the "$src1 = $dst"

+// constraint but without the tied operands.

+def : Pat<(extloadf32 addr:$src),

+ (VCVTSS2SDrm (f32 (EXTRACT_SUBREG (AVX_SET0PS), sub_ss)), addr:$src)>,

+ Requires<[HasAVX, OptForSpeed]>;

//===----------------------------------------------------------------------===//

// SSE 1 & 2 - Load/Store XCSR register

//===----------------------------------------------------------------------===//

@@ -2959,6 +2976,22 @@ def : Pat<(v4i32 (X86vzmovl (bc_v4i32 (loadv2i64 addr:$src)))),

(MOVZDI2PDIrm addr:$src)>;

}

+// These are the correct encodings of the instructions so that we know how to

+// read correct assembly, even though we continue to emit the wrong ones for

+// compatibility with Darwin's buggy assembler.