GBS Bioinformatics Pipeline

Size: px

Start display at page:

Download "GBS Bioinformatics Pipeline"

Tyler May
5 years ago
Views:

1 GBS Bioinformatics Pipeline...or, Where Your Data Go After Sequencing James Harriman Ed Buckler Jeff Glaubitz Reference Genome Pipeline QseqToTagCount Qseq Key files QseqToTBT TagCounts per lane TagsByTaxa files (1 per lane) BWA (Burrows- Wheeler Aligner) SAM alignment TagCountsTo FASTQ Merge TagsCounts TagCounts for species (Master Tags) Merge TagsByTaxa TagsByTaxa for species SAM convertor TagsOnPhysical Map TagsToSNP ByAlignment HapMap Process File (data structure) 1

2 Non- Reference Genome Pipeline QseqToTagCount TagCounts per lane Merge TagsCounts Qseq Key files QseqToTBT TagsByTaxa files (1 per lane) Merge TagsByTaxa TagCounts for species (Master Tags) TagsByTaxa for species TagHomology PhaseNoAnchor HapMap Process File (data structure) Raw Sequence (Qseq) HWI-ST GTCGATTCTGCTGACTTCATGGCTTCTGTTGACGACGATGTGGAACGAGCTGTTGTTGAAACTGATGAGGTTGC HWI-ST GAGAATCAGCTTTTCCAACACCTTGAGTTTGAGTATGCGATGACAGTTACTCTTACTGTCCATTGTCAGCATTGC HWI-ST ATGTACTGCACCGTTGCAAGCGAGCACCACCAAGCGGCGGTATGCACTTTGCAATATGTAGCTAGAATAGGATT HWI-ST CCAGCTCAGCCTGCATTCTTTCAAAAACTTCCAATGCCTCTCTTGGCCTAGCATTTTGGGCATACCCTGTGACCA HWI-ST GATTTTACTGCACATCGGTCTTGTCACACCAGCTATACCTGTAGAGTTGCCTTCCACAGTTGTAGAGATCGGAAG HWI-ST TCACCCAGCATCACGCCCCTTCACATCCAGTAAAACCCCTGAATGATGTGCTGTCACTGTTTGATATACAGTTGT HWI-ST CTTGACTGCCACCATGAATATGTGTTCCAAGTGCCACAAGGACTTGGCCCTGAAGCAAGAACAAGCCAAACTTG HWI-ST CCACAACTGCTCCATCTTTTCCATGAGACATTGCTCCCGCCATTGCACCCTTGGCATCAGCAGAGATCGGAAGA HWI-ST GTATTCTGCACACGAATCAGCTGAGACACCAATTGGGCATGAATCAAATGGCGCCATTGCCGGGGATCGAACCC HWI-ST AATATGCCAGCAGTTAAGAGAGTTCAAGATCCAGGGCTCATATTCAGTCACCTATATCAATTTCGAAATGGATTTC HWI-ST CTCCCTGCGGGTGCGCGCGACCCATCTTCAGTTGGAGCGTCTATCGGCGTTGCTGAGATCGGAAGAGCGGTT HWI-ST TGGTACGTCTGCGGAATGGCGTTTTTTATGCCTTAGTGGTTCGCAGAGCATTTGGCAGCTGAGATGGGAAGAGC HWI-ST GGACCTACTGCCCAAGAACGGCTCACCCATCATCCGCTTTCTTCACCTTCCGTCTTCTTTGGCTGAGATCGGAA HWI-ST GAGAATCAGCGTGTACGGGGCACGGGGTGACTGCTGTTGCGTGCGAGGGCTGAGATCGGAAGAGCGGTTCA HWI-ST TTCTCCAGCCGCATGGGCCGGAGACCAGAGAGGCCTCCCCAGGATTTGCACGATAGACCACGACTTATGGACG HWI-ST GCGTCAGCAAATGCCCCAACAGCCAAGTCAGCAATTGCCTCAGCAACTTGGGCCACAAACACCACAGCTGAGA HWI-ST TAGGCCATCAGCTGACTTCCCGGGTGTGGAGAAAAGAGGGCCCCTCACTTCTCTCAAGTGCTGAGATCGGAAG HWI-ST GGACCTACTGCCGGCGGGACGAAAGCGGTTGTTGAATGATGGGGGTCACTAGGCCTTCCAGGGCCTTTAAGC HWI-ST CTCCCTGTTGAAGCATGTGCAAAAGAGCTTGTTCTCGGCCTTCTTCAAGCCATTCTCTTGGCAGACGGCTTTGC HWI-ST CGCCTTATCTGCCCTCGCCGGTCATGGGGAGTGGTGCCCCTACCTCGGACAAGACAGATGCAGAGATCGGAA HWI-ST CCAGCTCAGCATGGATCTCTCCTTGATGGACTGAAAGCGCGTGTGCTCCCCTGTGTGATGGAAAGTGGCAGTG HWI-ST CCAGCTCAGCTCAAGCATTGGCTTCCGCTTTGGCATCCTGGAGGGTAAGCTTCTGCTCTTCTCACTAGAGGAG HWI-ST ACAAACAGCAGAGGTCGCATTGTAGTTAGTCCGGGACTTGCCCAGTTCATTGCTGAGATCGGAAGAGCGGTTC HWI-ST GCTCTACAGCTTCTGGCCAGAATGCTTTTGGCACTTGTTTGTCACAAAGCATGCACTGAACCATATTCATGATAG HWI-ST TTCTCCAGCTGCTACATGCACCGTGGGAAGAAGGTCTGCCCCACATACCCACCAGCCATCGCCCTTCTCACAT HWI-ST GAGATACAGCTGCGAATTGGGGGTTCCTGTGTTGCGAAGTGGCACTCGTGTGCCAAACTTGGCTACGCAGAGA HWI-ST AAAAGTTCAGCAATACCTGTTGAAGCCAAGCCCTTGTGGTGATTGCCTCGTTCATTGCTGCTGAGATCGGAAGA HWI-ST GAATCTGCTACTAGTGAGCCTTTGTATGGGGACCGAGTTCAGAAGCTCTAACCCTCGTTTTCCCATCTGCTGAG HWI-ST TAGCATGCCTGCTGCAGGAGTTGGTGCCCAGCATTCTCAGGTGTAGTCCAAATTCTGTCTGATACTTATTGTTTA HWI-ST TTCAGACAGATGATGCTTGTCAAGGGTCACCATCTTGCATTGCGCTGCGTCACATCCTTAGTGGGAATAGGGGA HWI-ST CTTGCTTCAGCCATGTAGAGTGGTGTTGCTCCTTTACTACCACGAATCATTGGTAACTCCCTGTTCTTATTCACC HWI-ST TTCAGACAGCCAAACGACGTCTTAGTGGAGAAAATACCTGAGAAAAGTCAAGAAACCAAAACACTAAAAAATGA HWI-ST AGCCTCAGCTTGGTTGCTTGTGGTTGGGGGTGAGGGGGCGGGCGGGAACTTATGTTTGCGCCCCGAGGCGG HWI-ST CTTGACTGGGCGTGGTGCTGAGGCTACTGCGGAATTGAGGTGTTGTCATCCACCGGATTGGGTCGTAGGGCG HWI-ST TTCAGACAGCCAACTGAGATGACTCTCATTCTTGGTAGGAACCAATTTCTGAGAGCTTCGTAATGACATCAACTA HWI-ST GAGATACAGCAACAAATGATGTCATTCCTTGCAAAAGCTGTACAAAGCCCTGGTTTCTTAGCTCAGCTGGTACAG HWI-ST GTGTTTGGTCGTGAAAGTGGACCTCTTTCAGGTGCAGGTGCGAGTAGAAGGAGGTCCCAGAGACGTGCGGCT HWI-ST GAGAAACCGCAGAATGATAGCAAAAAGCGCGTTACAGGAGATATTAAGAAAAGGAGACTTGCAATGCAGGAGTA HWI-ST CGTCAACTGCATGAAGGAGGTTGTCTGGCCGTTGGAGGAGTGATTTTGGAAGGCTGAGATCGGAAGAAAGGT HW 2

3 Assignment to Samples Barcode sequences from the plate map are compared to barcode sequences in the reads, in order to associate reads with the samples from which they originate. Parameters: Users supply a plate map and staff members supply DNA barcodes. These are combined into a table of barcodes by sample. Plate Map Project Details Sample Details Organism Detail Project Name Source Lab Plate Name Well Sample Name Pedigree Population Stock Number Sample BREAD Buckler BREAD-Maize-A A01 PI inbred 04A0160A Wenyan Zhu BREAD Buckler BREAD-Maize-A B01 blank plantae BREAD Buckler BREAD-Maize-A C01 PI inbred 04A0191B Wenyan Zhu BREAD Buckler BREAD-Maize-A D01 PI inbred 04A0165A Wenyan Zhu BREAD Buckler BREAD-Maize-A E01 PI inbred 04A0193B Wenyan Zhu BREAD Buckler BREAD-Maize-A F01 CML91 inbred 04A0005BA Wenyan Zhu plantae BREAD Buckler BREAD-Maize-A G01 CML311 inbred 04A0301A Wenyan Zhu plantae BREAD Buckler BREAD-Maize-A H01 CML311 inbred 04A0200A Wenyan Zhu plantae BREAD Buckler BREAD-Maize-A A02 MR_ (PI x PI655998)S4 PI x PI A0281A 10 BREAD Buckler BREAD-Maize-A B02 MR_ (PI x PI655998)S4 PI x PI A0279B 10 BREAD Buckler BREAD-Maize-A C02 MR_ (PI x PI655998)S4 PI x PI A0164B 10 BREAD Buckler BREAD-Maize-A D02 MR_ (PI x PI655998)S4 PI x PI A0163A 10 BREAD Buckler BREAD-Maize-A E02 MR_ (PI x PI655998)S4 PI x PI A0315B 10 BREAD Buckler BREAD-Maize-A F02 MR_ (PI x PI655998)S4 PI x PI F146114A 10 BREAD Buckler BREAD-Maize-A G02 MR_ (PI x PI655998)S4 PI x PI A0289B 10 BREAD Buckler BREAD-Maize-A H02 MR_ (PI x PI655998)S4 PI x PI A0171A 10 BREAD Buckler BREAD-Maize-A A03 MR_ (PI x PI655998)S4 PI x PI A0170B 10 BREAD Buckler BREAD-Maize-A B03 MR_ (PI x PI655998)S4 PI x PI A0381B 10 BREAD Buckler BREAD-Maize-A C03 MR_ (PI x PI655998)S4 PI x PI A0258A 10 BREAD Buckler BREAD-Maize-A D03 MR_ (PI x PI655998)S4 PI x PI A0304B 10 Cacao Buckler BREAD-Maize-A E03 Tc1536 Catie F1 04A0216A Jemmy Takrama Cacao Buckler BREAD-Maize-A F03 Tc7959 Brazil F2 04A0255A Jemmy Takrama BREAD Buckler BREAD-Maize-A G03 PI inbred 04A0217A Wenyan Zhu BREAD Buckler BREAD-Maize-A H03 PI inbred 04A0167A Wenyan Zhu BREAD Buckler BREAD-Maize-A A04 PI inbred 04P160451A Wenyan Zhu BREAD Buckler BREAD-Maize-A B04 PI17548 inbred 04A0258B Wenyan Zhu plantae BREAD Buckler BREAD-Maize-A C04 PI inbred 04A0244A Wenyan Zhu BREAD Buckler BREAD-Maize-A D04 PI inbred 04A0298A Wenyan Zhu BREAD Buckler BREAD-Maize-A E04 PI inbred 04A0293B Wenyan Zhu BREAD Buckler BREAD-Maize-A F04 PI inbred 04A0296A Wenyan Zhu 3

4 Example DNA Barcode Key Flowcell Lane barcode sample Plate# Row Column PlateName 434GFAAXX 2 CTCC M A 1 IBM1 1A01 434GFAAXX 2 TGCA M A 2 IBM1 1A02 434GFAAXX 2 ACTA M A 3 IBM1 1A03 434GFAAXX 2 GTCT M A 4 IBM1 1A04 434GFAAXX 2 GAAT M A 5 IBM1 1A05 434GFAAXX 2 GCGT M A 6 IBM1 1A06 434GFAAXX 2 TGGC M A 7 IBM1 1A07 434GFAAXX 2 CGAT M A 8 IBM1 1A08 434GFAAXX 2 CTTGA M A 9 IBM1 1A09 434GFAAXX 2 TCACC M A 10 IBM1 1A10 434GFAAXX 2 CTAGC M A 11 IBM1 1A11 434GFAAXX 2 ACAAA M A 12 IBM1 1A12 434GFAAXX 2 TTCTC M B 1 IBM1 1B01 434GFAAXX 2 AGCCC M B 2 IBM1 1B02 434GFAAXX 2 GTATT M B 3 IBM1 1B03 434GFAAXX 2 CTGTA M B 4 IBM1 1B04 434GFAAXX 2 AGCAT M B 5 IBM1 1B05 434GFAAXX 2 ACTAT M B 6 IBM1 1B06 434GFAAXX 2 GAGAAT M B 7 IBM1 1B07 434GFAAXX 2 CCAGCT M B 8 IBM1 1B08 434GFAAXX 2 TTCAGA M B 9 IBM1 1B09 434GFAAXX 2 TAGGAA unknown 1 B 10 IBM1 1B10 Notes on Names & Chromosomes Chromosomes (or contigs MUST be integers) Samples Names some Advice: NO spaces NO : Try to avoid weird characters. 4

5 Reference Genome Pipeline QseqToTagCount Qseq Key files QseqToTBT TagCounts per lane TagsByTaxa files (1 per lane) BWA (Burrows- Wheeler Aligner) SAM alignment TagCountsTo FASTQ Merge TagsCounts TagCounts for species (Master Tags) Merge TagsByTaxa TagsByTaxa for species SAM convertor TagsOnPhysical Map TagsToSNP ByAlignment HapMap Process File (data structure) QSeqToTagCounts Processes a Qseq file so we know what alleles (tags) are present in the the sample Handles sequence quality issue Identifies the barcodes Removes problem tags Counts tags 5

6 GBS Restriction Fragment Structure Barcode adapter Cut site Read Cut site Common adapter Accepted read Barcode adapter Cut site Read Rejected or Trimmed reads Potential chimeric sequence Barcode adapter Cut site Read Cut site Sequence Short sequence Cut site Read Cut site Common adapter Adapter dimer Barcode adapter Cut site Common adapter Sequence Processing Raw sequence data is processed into unique 64-bp sequences. For example: CTCCCAGCCCTCGGCGGTCAAACCACCCGGTCATCCATGCACCAAGGCCTGCGTGCGGGCTTGGTGTCATCGTACGC GTTGAACAGCCCTCGGCGGTCAAACCACCCGGTCATCCATGCACCAAGGCCTGCGTGCGGGCTTGGTGTCATCGTACGC Becomes: CAGCCCTCGGCGGTCAAACCACCCGGTCATCCATGCACCAAGGCCTGCGTGCGGGCTTGGTGTCATCGTACGC 64 2 Parameters: Restriction enzyme Different enzymes will create different sequence motifs, such as overlapping cut sites, palindromes or wobble bases. Barcode Barcode sequences must be provided to identify acceptable reads. Number of identical sequences accepted This gives investigators the option to ignore repetitive sequences or singleton reads. 6

7 TagCounts File Number of Tags Max Size of Tag x 32bp Tag Sequence Count Length (bp) CAGCAAAAAAAAAAAAAAAAAAAACACCAAGTAATTTGATGTCTCATACCTCATACCACAGGAC 64 1 CAGCAAAAAAAAAAAAAAAAAAAACCAAGAATTTTATGTTTCCTACCTCCAACCCCAGGACTTT 64 1 CAGCAAAAAAAAAAAAAAAAAAAACCAAGTAATTTGATGTCCTATACCTCATCCCACAGGACTT 64 1 CAGCAAAAAAAAAAAAAAAAAAAACCAAGTAATTTTATTTCTCATACCTCATACCACAGGACTT 64 1 CAGCAAAAAAAAAAAAAAAAAAAACCCAAGAAATTTGATGTCTCAAACCCCAACACACAGGCTT 64 1 CAGCAAAAAAAAAAAAAAAAAAAACCCAAGAAATTTTTTGTCTCAAACCCCAACCCCCAGGCCT 64 1 CAGCAAAAAAAAAAAAAAAAAAAAGGGGTTTTGAATAAAAAAAACTGAAGGATCTTAAATCTAC 64 1 CAGCAAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTTTCATACCTCATACCACAGGACT 64 1 CAGCAAAAAAAAAAAAAAAAAAACACCAAGTAATTTGATGTCTCATACCTCATACCACAGGACT 64 2 CAGCAAAAAAAAAAAAAAAAAAACCAAAAAATTTTATGTCTCAAACCCCAAACCCCAGGGCTTC 64 1 CAGCAAAAAAAAAAAAAAAAAAACCAAATAATTTGATGTCTCATACCTCATACCACAGGGCTTC 64 1 CAGCAAAAAAAAAAAAAAAAAAACCAAGAAATTTGATGTCTCATACCTCATACCACAGGACTTC 64 1 CAGCAAAAAAAAAAAAAAAAAAACCAAGAAATTTTGGCACTCAAGCCCAAAACCACAGATCTTC 64 1 CAGCAAAAAAAAAAAAAAAAAAACCAAGTAATTTGTTGTCTCATACCTCATACCACAGAACTTC 64 1 CAGCAAAAAAAAAAAAAAAAAAACCCAAAAAATTTTTTTTTCCAACCCCAAAACCCAAGGCTTC 64 1 CAGCAAAAAAAAAAAAAAAAAAACCCAAGAAATTTTTTTTCCCAAACCCCAAACCCCAGGCTTT 64 1 CAGCAAAAAAAAAAAAAAAAAAAGGGATAGGGAAGATGGGGGAGAGTGGCGGCCACGCATGGAA 64 1 CAGCAAAAAAAAAAAAAAAAAACAACAAGGAATTTGGGTATTCATTCCCCATACCCCAGGATTT 64 1 CAGCAAAAAAAAAAAAAAAAAACACAAAAAAATTTGTTTTCTCAACCCCAAAACCAAAGGACTT 64 1 CAGCAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTCTCATACCTCATACCAAAGGACTT 64 1 CAGCAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTCTCATACCTCATACCACAGGACTT 64 2 CAGCAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTCTCATACCTCATACCCCAGGACTT 64 1 CAGCAAAAAAAAAAAAAAAAAACACCAAGGAATTGAATCTCTCACACCTTAAAACACCGGACTT 64 1 CAGCAAAAAAAAAAAAAAAAAACACCAAGTAATTTGATGTCTCATACCTCATACCACAGGACTT 64 1 CAGCAAAAAAAAAAAAAAAAAACACCAAGTAATTTGATTTCTCATACCTCATACCAAAGGACTT 64 1 CAGCAAAAAAAAAAAAAAAAAACACCAATTATTTGAAAGATCATTACCCTATACCACGGGGTTC 64 1 CAGCAAAAAAAAAAAAAAAAAACCAAAAAATTTGATGTCTCATACCCCATACCACAGGACTCCC 64 1 CAGCAAAAAAAAAAAAAAAAAACCAAAAAATTTTATTTCTCATACCCCAAACCCCAGGACTTCC 64 1 CAGCAAAAAAAAAAAAAAAAAACCAAAGAATTTTATGTCTCATACCTCAAACCAAAGGACTTCC 64 1 CAGCAAAAAAAAAAAAAAAAAACCAAATAAATTTGTTGCTCATACCCCAAACCACAGGGCTTTC 64 1 CAGCAAAAAAAAAAAAAAAAAACCAAGCAATTTGATTCCACTTAATCTATCCCACAGAACTTCC 64 1 CAGCAAAAAAAAAAAAAAAAAACCAAGTAATTTGATGTCTCATACCTCATACCACAGGACTTCC 64 1 CAGCAAAAAAAAAAAAAAAAAACCCAAAAAATTTTTTGTTTCCCTAACCCCAAAACCACGGACT 64 1 CAGCAAAAAAAAAAAAAAAAAACCCAATGAATTTGTAGTGCCAAACCCCAAACCAACGGACTTT 64 1 CAGCAAAAAAAAAAAAAAAAAACCCCAAGAAATTTGATGTCTCATACCCCAAACCCCAGGACTT 64 1 CAGCAAAAAAAAAAAAAAAAAAGACCAGGTAATTATTGCTCACATACATCAAACTCCAATTGCC 64 1 CAGCAAAAAAAAAAAAAAAAAAGCGCCTAACGTTTCAAAATGAATGAGTTGCCAACCAAGGACT 64 1 CAGCAAAAAAAAAAAAAAAAAAGGGTTAGGAAAGATGGGTGGGAGGGGCGGGCCTGCTTGAAAT 64 1 Reference Genome Pipeline QseqToTagCount Qseq Key files QseqToTBT TagCounts per lane TagsByTaxa files (1 per lane) BWA (Burrows- Wheeler Aligner) SAM alignment TagCountsTo FASTQ Merge TagsCounts TagCounts for species (Master Tags) Merge TagsByTaxa TagsByTaxa for species SAM convertor TagsOnPhysical Map TagsToSNP ByAlignment HapMap Process File (data structure) 7

8 Unique Reads CAGCAAAAAAAAAAAAAAAAAAAACACCAAGTAATTTGATGTCTCATACCTCATACCACAGGAC + CAGCAAAAAAAAAAAAAAAAAAAACCAAGAATTTTATGTTTCCTACCTCCAACCCCAGGACTTT + CAGCAAAAAAAAAAAAAAAAAAAACCAAGTAATTTGATGTCCTATACCTCATCCCACAGGACTT + CAGCAAAAAAAAAAAAAAAAAAAACCAAGTAATTTTATTTCTCATACCTCATACCACAGGACTT + CAGCAAAAAAAAAAAAAAAAAAAACCCAAGAAATTTGATGTCTCAAACCCCAACACACAGGCTT + CAGCAAAAAAAAAAAAAAAAAAAACCCAAGAAATTTTTTGTCTCAAACCCCAACCCCCAGGCCT + CAGCAAAAAAAAAAAAAAAAAAAAGGGGTTTTGAATAAAAAAAACTGAAGGATCTTAAATCTAC + CAGCAAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTTTCATACCTCATACCACAGGACT + CAGCAAAAAAAAAAAAAAAAAAACACCAAGTAATTTGATGTCTCATACCTCATACCACAGGACT + CAGCAAAAAAAAAAAAAAAAAAACCAAAAAATTTTATGTCTCAAACCCCAAACCCCAGGGCTTC + CAGCAAAAAAAAAAAAAAAAAAACCAAATAATTTGATGTCTCATACCTCATACCACAGGGCTTC + CAGCAAAAAAAAAAAAAAAAAAACCAAGAAATTTGATGTCTCATACCTCATACCACAGGACTTC BWA (Burrows-Wheeler Aligner) Aligns the tags in FASTA format to the reference genome Parameters: Similarity of read sequence and genome sequence. This controls the tradeoff between number of SNPs and confidence in the alignment. Default is 4 edits per sequence. Gap penalty. This controls sensitivity to indels. Default is no indels within 5bp of the read ends. Outputs a SAM Alignment There are many other aligners. BWA is fast and memory efficient, but may not be appropriate for your species 8

9 Generic Alignment (SAM) length=64count= M2I7M * 0 0 CAGCAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTCT length=64count= M2I8M * 0 0 CAGCAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTCT length=64count= M2I9M * 0 0 CAGCAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTCT length=64count= M2I8M * 0 0 CAGCAAAAAAAAAAAAAAAAAACACCAAGTAATTTGATGTCT length=64count= M2I7M * 0 0 CAGCAAAAAAAAAAAAAAAAAACACCAAGTAATTTGATTTCT length=64count= M3D47M2I11M * 0 0 CAGCAAAAAAAAAAAAAAACACCAAGTAATTTGA length=64count= M * 0 0 CCTTTCTTGGCCTGGTTCTCACTCATCTGGGCTT length=64count= M * 0 0 GCCCGTCTACACGCTTGTGTCCCATGCCCGCAAGCCGCCCCA length=64count= M * 0 0 GCCCGTCTACACGTTTGTGTCCCATGCACGCAAGCCGCCCCA length=64count= M * 0 0 GCCCGTCTACAGGCTTGTGTCCCATGCACGCAAGCCGCCCCA length=64count= M * 0 0 GCCCGTCTACCCGCTTGTGTCCCATGCACGCAAGCCGCCCCA length=64count= M * 0 0 GCCCGTCTCCACGCTTGTGTCCCATGCACGCAAGCCGCCCCA length=64count= M * 0 0 GCCCGTCTACACGCTTGTGTCCCATGCACGCAAGCCGCCCCA length=64count= M * 0 0 CCCCGTCTACACGCTTGTGTCCCATGCACGCAAGCCGCCCCA length=64count= M * 0 0 GCCCGTCTACACCCTTGTGTCCCATGCACGCAAGCCGCCCCA length=64count= M1I5M * 0 0 CAGCAAAAAAAAAAAATAGAACTTAGAAACTTAT length=64count= M * 0 0 CAGCAAAAAAAAAAACCAAAGATCGACTTGCAACATCTGGAT length=64count= M1I14M * 0 0 TGCCCGTCTACACGCTTGTGTCCCAT length=58count= M1I59M * 0 0 CAGCAAAAAAAAAAAGCTATGAACCATCGGGGGA length=64count= M1I59M * 0 0 CAGCAAAAAAAAAAAGCTATGAACCATCGGGGGA length=64count= M2I14M * 0 0 GCCCGTCTACACGCTTGTGTCCCATG length=64count= M * 0 0 CAGCAAAAAAAAAAATCCTCTCCTCATACGCTCC length=64count= M1I14M * 0 0 CCCATTGTTGTATCTTGATTGCAGAC length=64count= M1I14M * 0 0 ACCATTGTTGTATCTTGATTGCAGAC length=64count= M1I14M * 0 0 CCCATTGTTGTATCTTGATTGCAGAC length=64count= M1I14M * 0 0 ACCATTGTTGTATCTTGATTGCAGAC length=64count= M1I59M * 0 0 CAGCAAAAAAAAAACATCCTCTCCTCATACGCTC length=64count= M * 0 0 CAGCAAAAAAAAAAGAGAGGCCTAAAAAGGGTAA length=64count= M * 0 0 CTGCCCGTCTACACGCTTGTGTCCCATGCACGCA length=64count= M * 0 0 CAGCAAAAAAAAAAGCCCAATCTAGACCCTATCTTCTAATAG length=64count= M * 0 0 CAGCAAAAAAAAAAGCCCAATCTAGAGCCTATCTTCTAATAG length=57count= M * 0 0 CAGCAAAAAAAAAAGCTATGAACCATCGGGGGAG length=64count= M * 0 0 CAGCAAAAAAAAAAGCTATGAACCATCGGGGGAG length=64count= M * 0 0 CAGCAAAAAAAAAAGCTATGAACCATCGGGGGAG length=64count= M1I47M * 0 0 TCCATTGTTGTATCTTCGATTGCAGA SAMConverter & TagsOnPhysicalMap (TOPM) TOPM is the key file to interpret tags present in a species. Contains: Tag Sequence Position Divergence from reference Polymorphisms Genetic mapping support 9

10 TagsOnPhysicalMap File CAGCAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTCTCATACCTCATACCAAAGGACTT CAGCAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTCTCATACCTCATACCACAGGACTT CAGCAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTCTCATACCTCATACCCCAGGACTT CAGCAAAAAAAAAAAAAAAAAACACCAAGTAATTTGATGTCTCATACCTCATACCACAGGACTT CAGCAAAAAAAAAAAAAAAAAACACCAAGTAATTTGATTTCTCATACCTCATACCAAAGGACTT CAGCAAAAAAAAAAAAAAACACCAAGTAATTTGATGTCTCATACCTCATACCACAGGACTTCCC CAGCAAAAAAAAAAAACGGTTCTCAATTCCAAGCCCAGATGAGTGAGAACCAGGCCAAGAAAGG CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGGGCATGGGACACAAGCGTGTAGACGGGC CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAACGTGTAGACGGGC CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCCTGTAGACGGGC CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGGGTAGACGGGC CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGGAGACGGGC CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGC CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGG CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGGGTGTAGACGGGC CAGCAAAAAAAAAAAATAGAACTTAGAAACTTATACCGTGGGACACGTCAAGTGACTGCTGATG CAGCAAAAAAAAAAACCAAAGATCGACTTGCAACATCTGGATGGAAACAACAAACAAACAAAGA CAGCAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCA CAGCAAAAAAAAAAAGCTATGAACCATCGGGGGAGAGGTGAGAAATGTTGATTGGCTGAAAAAA CAGCAAAAAAAAAAAGCTATGAACCATCGGGGGAGAGGTGAGAAATGTTGATTGGCTGGAGGGA CAGCAAAAAAAAAAAGGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGC CAGCAAAAAAAAAAATCCTCTCCTCATACGCTCCTCCCAGCTTGCACTAACGGCCAACAGATTT CAGCAAAAAAAAAAATGCAGAAAGAGTGATGAGGGGGAGTCTGCAATCAAGATACAACAATGGG CAGCAAAAAAAAAAATGCAGAAAGAGTGATGAGGGTGAGTCTGCAATCAAGATACAACAATGGT CAGCAAAAAAAAAAATGCAGAAAGAGTGATGGGGGTGAGTCTGCAATCAAGATACAACAATGGG CAGCAAAAAAAAAAATGCAGAACGAGTGATGAGGCAGAGTCTGCAATCAAGATACAACAATGGT CAGCAAAAAAAAAACATCCTCTCCTCATACGCTCCTCCCAGCTTGCACTAACGGCCAACAGATT CAGCAAAAAAAAAAGAGAGGCCTAAAAAGGGTAATGAAGGCAAAAGTGCCCTTCTTAGCTGTAG CAGCAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCAG CAGCAAAAAAAAAAGCCCAATCTAGACCCTATCTTCTAATAGCGAATAAGAAAAGGCCCCATCC CAGCAAAAAAAAAAGCCCAATCTAGAGCCTATCTTCTAATAGCGAATAAGAAAAGGCCCCATCC BWA sensitivity is pretty poor Alignment Class BWA Bowtie2 Single Best Mapping 57% 69% Multiple Mapping 17% 17% Unmapped 26% 14% BLAST about the same as Bowtie2. Code needs to be updated to parse Bowtie2. Many of the multiple mapping do NOT map with 100% identity, which suggests they can be genetically mapped. 10

11 Reference Genome Pipeline QseqToTagCount Qseq Key files QseqToTBT TagCounts per lane TagsByTaxa files (1 per lane) BWA (Burrows- Wheeler Aligner) SAM alignment TagCountsTo FASTQ Merge TagsCounts TagCounts for species (Master Tags) Merge TagsByTaxa TagsByTaxa for species SAM convertor TagsOnPhysical Map TagsToSNP ByAlignment HapMap Process File (data structure) Tags by Taxa chardonnay CAGCAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTCTCATACCTCATACCAAAGGACTT CAGCAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTCTCATACCTCATACCACAGGACTT CAGCAAAAAAAAAAAAAAAAAACACCAAGAAATTTGATGTCTCATACCTCATACCCCAGGACTT CAGCAAAAAAAAAAAAAAAAAACACCAAGTAATTTGATGTCTCATACCTCATACCACAGGACTT CAGCAAAAAAAAAAAAAAAAAACACCAAGTAATTTGATTTCTCATACCTCATACCAAAGGACTT CAGCAAAAAAAAAAAAAAACACCAAGTAATTTGATGTCTCATACCTCATACCACAGGACTTCCC CAGCAAAAAAAAAAAACGGTTCTCAATTCCAAGCCCAGATGAGTGAGAACCAGGCCAAGAAAGG CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGGGCATGGGACACAAGCGTGTAGACGGGC CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAACGTGTAGACGGGC CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCCTGTAGACGGGC CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGGGTAGACGGGC CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGGAGACGGGC CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGC CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGG CAGCAAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGGGTGTAGACGGGC CAGCAAAAAAAAAAAATAGAACTTAGAAACTTATACCGTGGGACACGTCAAGTGACTGCTGATG CAGCAAAAAAAAAAACCAAAGATCGACTTGCAACATCTGGATGGAAACAACAAACAAACAAAGA CAGCAAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCA CAGCAAAAAAAAAAAGCTATGAACCATCGGGGGAGAGGTGAGAAATGTTGATTGGCTGAAAAAA CAGCAAAAAAAAAAAGCTATGAACCATCGGGGGAGAGGTGAGAAATGTTGATTGGCTGGAGGGA CAGCAAAAAAAAAAAGGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGC CAGCAAAAAAAAAAATCCTCTCCTCATACGCTCCTCCCAGCTTGCACTAACGGCCAACAGATTT CAGCAAAAAAAAAAATGCAGAAAGAGTGATGAGGGGGAGTCTGCAATCAAGATACAACAATGGG CAGCAAAAAAAAAAATGCAGAAAGAGTGATGAGGGTGAGTCTGCAATCAAGATACAACAATGGT CAGCAAAAAAAAAAATGCAGAAAGAGTGATGGGGGTGAGTCTGCAATCAAGATACAACAATGGG CAGCAAAAAAAAAAATGCAGAACGAGTGATGAGGCAGAGTCTGCAATCAAGATACAACAATGGT CAGCAAAAAAAAAACATCCTCTCCTCATACGCTCCTCCCAGCTTGCACTAACGGCCAACAGATT CAGCAAAAAAAAAAGAGAGGCCTAAAAAGGGTAATGAAGGCAAAAGTGCCCTTCTTAGCTGTAG CAGCAAAAAAAAAAGAGGGATGGGGCGGCTTGCGTGCATGGGACACAAGCGTGTAGACGGGCAG CAGCAAAAAAAAAAGCCCAATCTAGACCCTATCTTCTAATAGCGAATAAGAAAAGGCCCCATCC CAGCAAAAAAAAAAGCCCAATCTAGAGCCTATCTTCTAATAGCGAATAAGAAAAGGCCCCATCC CAGCAAAAAAAAAAGCTATGAACCATCGGGGGAGAGGTGAGAAATGTTGATTGGCTGAAAAAAA CAGCAAAAAAAAAAGCTATGAACCATCGGGGGAGAGGTGAGAAATGTTGATTGGCTGGAGAGAT CAGCAAAAAAAAAAGCTATGAACCATCGGGGGAGAGGTGAGAAATGTTGATTGGTTGCAGAGAA

12 Reference Genome Pipeline QseqToTagCount Qseq Key files QseqToTBT TagCounts per lane TagsByTaxa files (1 per lane) BWA (Burrows- Wheeler Aligner) SAM alignment TagCountsTo FASTQ Merge TagsCounts TagCounts for species (Master Tags) Merge TagsByTaxa TagsByTaxa for species SAM convertor TagsOnPhysical Map TagsToSNP ByAlignment HapMap Process File (data structure) TagsToSNPByAlignment Tags that align to the same region are aligned against one another and SNPs and small indels are identified. Based on the alignments SNPs are propagated to specific lines having that tag into a HapMap file. Parameters: chromosomes to search for SNPs bi or tri-allelic SNPs Indels Genetic mapping support Max markers on a chromosome 12

13 HapMap Format rs# alleles chrom pos strand SgSBRIL067:633Y5AAXX:2:C9 SgSBRI S1_2100 A/G N N N N N S1_2163 T/C N N N N N S1_13837 T/G N N N N S1_14606 C/T N N C N S1_20601 T/A T N N N S1_68332 C/T N N N N S1_68596 A/T A N N N S1_69309 G/A N G N N S1_79955 T/G N T G T S1_79961 T/G N T T T S1_80584 G N N N N S1_80647 C/T N N N N S1_81274 T/G N N N N S1_ G/A N N N N S1_ T/G N N N N S1_ C/T N N N N S1_ T/C N N N N S1_ G/A G G A N S1_ T/G N N T N S1_ A/G N A G N S1_ C/T N N N N S1_ T/C N T N N Why another pipeline? The last maize build (21000 taxa) with the discovery pipeline took over 2 weeks. Most common alleles have been idenbfied ader the first few discovery builds Use the informabon from the discovery pipeline to call SNPs in new runs quickly. Improve efficiency and automate. 13

14 GBS bioinformabcs pipeline Discovery Tags by Taxa Tag Counts TOPM SNP Caller Genotypes GBS bioinformabcs pipeline Discovery Tags by Taxa Tag Counts TOPM SNP Caller Genotypes Filtered Genotypes 14

15 GBS bioinformabcs pipeline Discovery ProducCon Tags by Taxa Tag Counts TOPM SNP Caller Genotypes Discovery ProducCon Tags by Taxa Tag Counts TOPM TagsOnPhysicalMap (TOPM) SNP Caller Genotypes 15

16 GBS bioinformabcs pipeline Discovery ProducCon Tags by Taxa Tag Counts TOPM SNP Caller Genotypes Filtered Genotypes GBS bioinformabcs pipeline Discovery ProducCon Tags by Taxa Tag Counts TOPM TOPM SNP Caller Genotypes Filtered Genotypes 16

17 GBS bioinformabcs pipeline Discovery ProducCon Tags by Taxa Tag Counts TOPM TOPM SNP Caller Genotypes Filtered Genotypes GBS bioinformabcs pipeline Discovery ProducCon Tags by Taxa Tag Counts TOPM TOPM SNP Caller Genotypes Filtered Genotypes Genotypes 17

18 Running the ProducBon Pipeline Required Files: Sequence file (fastq or qseq) Key file ProducBon TOPM TASSEL 3 Standalone & RawReadsToHapMapPlugin Running the Pipeline: One lane processed at a Bme HapMap files by chromosome ~7 minutes TesBng ProducBon Pipeline Compared HapMap files produced by Discovery Pipeline and ProducBon Pipeline Site Comparison: Discovery 48,139 ProducBon 47,676 Difference due to maximum 8 alleles 99.98% correlabon of genebc distance matrices 18

smaller Access times looks very good Working to fuse TOPM, TBT, and Keyfile into one HDF5 repository Why can GBS be

19 Shifting to HDF5 Hierarchical Data Format supports very large data sets and complex data structures. Widely used in climate and astromonomy communities TBT files can approach 2 Tb in size Compressed HDF5 can be 40 times smaller Access times looks very good Working to fuse TOPM, TBT, and Keyfile into one HDF5 repository Why can GBS be complicated? Tools for filtering, error correction and imputation. Edward Buckler USDA-ARS Cornell University 19

Maize has more molecular diversity than humans and apes combined

Plant 1 Person 1 50% 99% Plant 2 Plant 3 Maize Person 2 Person 3

20 Maize has more molecular diversity than humans and apes combined 1.34% 0.09% 1.42% Silent Diversity (Zhao PNAS 2000; Tenallion et al, PNAS 2001) Only 50% of the maize genome is shared between two varieties Plant 1 Person 1 50% 99% Plant 2 Plant 3 Maize Person 2 Person 3 Humans Fu & Dooner 2002, Morgante et al. 2005, Brunner et al 2005 Numerous PAVs and CNVs - Springer, Lai, Schnable in

Maize genetic variation has been evolving for 5 million

Evolving Sister Genus Diverges Divergence from Chimps

1mya Zea species begin diverging Maize domesticated Homo

21 Maize genetic variation has been evolving for 5 million years Warm Pliocene 5mya 4mya Modern Variation Begins Evolving Sister Genus Diverges Divergence from Chimps Ardipithecus 3mya Australopithecus Cold Pleistocene 2mya 1mya Zea species begin diverging Maize domesticated Homo erectus Modern Variation Begins Modern Humans What are our expectations with GBS? 21

High Diversity Ensures High Return on Sequencing Proportion of informative markers Highly repetitive 15% not

informative with a large enough database Low copy shared proportion (1% diversity) Bi-parental information =

05)^64bp= 97% informative Expectation of marker distribution Biallelic, 17% Presense / Absense, 50%

22 High Diversity Ensures High Return on Sequencing Proportion of informative markers Highly repetitive 15% not easily informative Half the genome is not shared between two maize line Potentially all of these are informative with a large enough database Low copy shared proportion (1% diversity) Bi-parental information = (1-0.01)^64bp = 48% informative Association information = (1-0.05)^64bp= 97% informative Expectation of marker distribution Biallelic, 17% Presense / Absense, 50% Nonpolymor phic; 18% Biparental population Too Repetitiv e, 15% Presense / Absense, 50% Multialleli c, 34% Too Repetitiv e, 15% Nonpolymorp hic; 1% Across the species 22

23 Sequencing Error Illumina Basic Error Rate is ~1% Error rates are associated with distance from start of sequence Bad GBS puts these all at the same position Good Reverse reads can correct Good Error are consistent and modelable 23

24 Reads with errors Perfect sequences: =52.5% of the 64bp sequences are perfect 47.5 are NOT perfect The errors are autocorrelated so the proportion of perfect sequence is a little higher, and those with 2 or more is also higher. Do we see these errors? Assume 10,000 lines genotyped at 0.5X coverage Base Type Read # (no SNP) Read # (w/ SNP) A Major C Minor (50 real) G Error T Error

25 Do Errors Matter? Yes Imputation, Haplotype reconstruction Maybe GWAS for low frequency SNPs No GS, genetic distance, mapping on biparental populations Expectations of Real SNPs Vast majority are biallelic Homozygosity is predicted by inbreeding coefficient Allele frequency is constrained in structured populations In linkage disequilibrium with neighboring SNPs 25

26 Clean Up and Imputation HapMap MergeDuplicateSNPsPlugin Merge reads from opposite sides GBSHapMapFiltersPlugin Site Coverage, Taxa Coverage, Inbreeding Coefficient, LD BiParentalErrorCorrectionPlugin Error rate estimation, LD filters Imputation MergeIdenticalTaxaPlugin Error rate estimation, LD filters INBREDS PARTIALLY SOLVED HapMap GWAS HETEROZYGOUS NOT SOLVED YET Imputation & Phasing Kinship Distance Phylogeny LD GS Process File (data structure) Filters in TagsToSNPByAlignmentMTPlugin Only calls bi-allelic (hard coded now) Two most common alleles used Inbreeding coefficient (-mnf) If have inbred samples definitely use, very powerful for errors and paralogues Minimum minor allele frequency (-mnmaf) Very important if do not have other tools for filtering (bi-parental populations or LD) Set for >=1% if no other filter method present 26

27 MergeDuplicateSNPsPlugin When restriction sites are less than 128bp apart, we may read SNP from both directions (strands) ~13% of all sites Fusing increases coverage Fixes errors -mismat = set maximum mismatch rate -callhets = mismatch set to hets or not GBSHapMapFiltersPlugin Basic filters for coverage of sites, taxa inbreeding coefficient, and LD -mntcov = minimum taxa coverage (e.g.0.05) -mnscov = minimum site coverage, proportion of taxa with call (e.g. 0.10) -mnmaf = minimum minor allele frequency (e.g. 0.01) 27

so difficult to tune without using the code.

28 GBSHapMapFiltersPlugin -mnf = minimum inbreeding coefficient (e.g. 0.9) Don t use with outcrossers -hld = require that sites are in high local LD, currently parameters are hard coded, so difficult to tune without using the code. Tests a sliding window of 100 surrounding sites, and looks for a Bonferonni corrected P<0.01 Useful but can be slow option. More work needed here. Biparental populations Limited range of alleles, expected allele frequencies, high LD 28

29 Maize RIL population expectations Allele frequency 0% or 50% Nearby sites should be in very high LD (r 2 >50%) Most sites can be tested if multiple populations are available Bi-parental populations allow identification of error, and non-mendelian segregation Non-segregating Error Segregating 29

30 Bi-parental populations allow identification of error, and non-mendelian segregation Error Median error rate is 0.004, but there is a long tail of some high error sites Median 30

31 BiParentalErrorCorrectionPlugin -popm = REGEX population identification(e.g. Z[0-9]{3} ) -popf = population File (not implemented) instead of popm option -mxe = maximum error rate (e.g. 0.01); calculated from non-segregating populations BiParentalErrorCorrectionPlugin -mnd = distortion from expectation (e.g. 2.0); the test uses both the binomial distribution and this distortion to classify segregation. -mnpld = minimum linkage disequilibrum r 2 = 0.5; this is calculated within each population, and then the median across segregating populations is used 31

32 MergeIdenticalTaxaPlugin Fuse taxa with the same name. Useful for checks and duplicated runs. Also useful in determining error rates -xhets = exclude heterozygotes calls (e.g. true) -hetfreq= frequency between hets and homozygous calls (e.g. 0.76) Product of Filtering After filters, in maize we find error rate AA<>aa = < AA<>Aa = 0.8 at low coverage SNPs in wrong location <~1%. Lower in other species. 32

Clean Up and Imputation HapMap MergeDuplicateSNPsPlugin Merge reads from opposite sides GBSHapMapFiltersPlugin Site Coverage, Taxa Coverage, Inbreeding Coefficient, LD BiParentalErrorCorrectionPlugin

33 Clean Up and Imputation HapMap MergeDuplicateSNPsPlugin Merge reads from opposite sides GBSHapMapFiltersPlugin Site Coverage, Taxa Coverage, Inbreeding Coefficient, LD BiParentalErrorCorrectionPlugin Error rate estimation, LD filters Imputation MergeIdenticalTaxaPlugin Error rate estimation, LD filters INBREDS PARTIALLY SOLVED HapMap GWAS HETEROZYGOUS Partially SOLVED Imputation & Phasing Kinship Distance Phylogeny LD GS Process File (data structure) Two major sources: Sampling Missing Data Low coverage often used in big genomes with inbred lines Differential coverage caused by fragment size biases Biological Region on genome not shared between lines Cut site polymorphisms We want to impute the missing sampling but not the biological 33

34 Standard Imputation Lots of algorithms: FastPhase, NPUTE, BEAGLE, etc. These are appropriate for high coverage loci, inbreds, and regions where biological missing is a rare condition Some can be slow for sample sizes that we have. FastImputationBitFixedWindow Imputation approach focused on speed and large sets of taxa with some closely related individuals. Nearest neighbor approach, fixed window sizes Strengths: Very accurate <1% error, much faster than other algorithms 100X Weakness: Not good a recombination junctions, heterozgyosity Code in TASSEL not plugin, but available 34

35 Hidden Markov Model TASSEL GBS Imputation Developed by Peter Bradbury Aimed a GBS and biparental populations Hidden Markov Model Very accurate at determining boundaries Works well on Maize NAM inbred lines, and probably others. AA <> BB error rate AB > AA Most problem appears in faulty populations Available as TASSEL 4.0 plugin Only 50% of the maize genome is shared between two varieties Plant 1 Person 1 50% 99% Plant 2 Plant 3 Maize Person 2 Person 3 Humans Fu & Dooner 2002, Morgante et al. 2005, Brunner et al 2005 Numerous PAVs and CNVs - Springer, Lai, Schnable in

Mapping all the alleles (TagCallerAgainstAnchor) Most maize alleles have no position on the reference map Map

7M alleles were mapped in <24 hours using 100 CPU cluster Alleles Physical and genetic mapping of 8.

mapped& Complex&mapping&or&modest& power&currently& Consistent&Error&or&Evenly& repe$$ve& Only 29% of alleles

gene/c&and/or& BLAST&posi/on& Reads&with&weaker& posi/on&hypothesis& Reads&with&no& hypothesis&(error&or&

36 Mapping all the alleles (TagCallerAgainstAnchor) Most maize alleles have no position on the reference map Map allele presence (TagsByTaxa) versus a anchor SNP map (HapMap) 8.7M alleles were mapped in <24 hours using 100 CPU cluster Alleles Physical and genetic mapping of 8.7 million GBS alleles Gene$c&and&Physical&Agree& Gene$c&and&Physical&Disagree& Not&in&Physical,&Gene$cally& mapped& Complex&mapping&or&modest& power&currently& Consistent&Error&or&Evenly& repe$$ve& Only 29% of alleles are simple - physical and genetic agree 55% of alleles are easily genetically mappable Reads Reads&with&strong& gene/c&and/or& BLAST&posi/on& Reads&with&weaker& posi/on&hypothesis& Reads&with&no& hypothesis&(error&or& even&repe//ve)& Many complex alleles are rarer, so 71% of alleles are genetic and/or physically interpretable. With more samples and better error models perhaps 90% will be useable 36

37 Using the Presence/Absence Variants In species like maize, this is the majority of the data Less subject to sequencing error Need imputation methods to differentiate between missing from sampling and biologically missing Future Need better integration of Whole Genome Sequence data with pipeline Add information on premature cut sites or mutated cut sites Use paired-end read information Full incorporation of presence/absence variants Increase range of imputation tools and phasing for structure populations Quantitative genotype tools for polyploids/ GS 37

GBS Bioinformatics Pipeline(s) Overview

GBS Bioinformatics Pipeline(s) Overview Getting from sequence files to genotypes. Pipeline Coding: Ed Buckler Jeff Glaubitz James Harriman Presentation: Rob Elshire With supporting information from the