On Thu, Jan 6, 2011 at 5:31 PM, Alexander Wait Zaranek <span dir="ltr"><<a href="mailto:awaitz@post.harvard.edu">awaitz@post.harvard.edu</a>></span> wrote:<br><div class="gmail_quote"><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
<div class="im">On Tue, Jan 4, 2011 at 7:10 PM, Leon Peshkin <<a href="mailto:peshkin@gmail.com">peshkin@gmail.com</a>> wrote:<br>
>   Could someone point me to a tool which would allow<br>
> to create a SAM/BAM file from GFF3 and then export in Wig/BED files.<br>
> I thing BAM->BED is possible in bamtools, but how about<br>
> GFF3->BAM and BAM->Wig ?<br>
>  I am attaching a chunk of my gff3 file - it is alignment of reads<br>
> against scaffolds.<br>
><br>
</div>since the PGP gets whole genome and other genomic data from multiple<br>
platforms we convert this data into a simpler format we created for<br>
the PGP.   Most of our data was produced by Complete Genomics and is<br>
not in "BAM" format.   BAM doesn't have a way to faithfully represent<br>
CGI reads due to format limitations.  (The CGI->BAM converters are<br>
lossy, AFAIK.)<br></blockquote><div><br></div><div>We've been working on format extensions to BAM which will make it applicable to multiple splits per read fragment.</div><div><br></div><div>We didn't consider CGI data, which I believe is a bit different in structure than the patterns we anticipated.  We could add support for it to the extension.</div>
<div><br></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
The latest version of the CGI pipeline, with sample files, is described here:<br>
* <a href="http://www.completegenomics.com/sequence-data/download-data/" target="_blank">http://www.completegenomics.com/sequence-data/download-data/</a></blockquote><div><br></div><div>Does CGI only provide evidence for called alleles, or is this merely done to make the example data smaller?</div>
<div> </div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex;">
Visualizing CGI/Illumina/SOLiD data is definitely an important<br>
project.  It would be great if a community member could volunteer to<br>
take it on!   Perhaps we could use this mailing list to work out a<br>
"spec" for what needs to be done?<br>
<br>
Thanks,<br>
Sasha<br>
<div><div></div><div class="h5"><br>
><br>
> scaffold38913   alignAssembly-sacc454pasa_LV15  cDNA_match      51483   51536   96      +       .       ID=chain_1;Target=GGWHCZS01CVNEB<br>
> 1 52 +<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      181791  182015  100     +       .       ID=chain_2;Target=GGWHCZS01B8DBA<br>
> 8 232 +<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      182349  182461  98      +       .       ID=chain_2;Target=GGWHCZS01B8DBA<br>
> 233 345 +<br>
> scaffold36953   alignAssembly-sacc454pasa_LV15  cDNA_match      12449   12685   97      -       .       ID=chain_3;Target=GGWHCZS01BYL46<br>
> 1 241 +<br>
> scaffold38915   alignAssembly-sacc454pasa_LV15  cDNA_match      143091  143273  100     +       .       ID=chain_4;Target=GGWHCZS01B68J0<br>
> 1 183 +<br>
> scaffold38408   alignAssembly-sacc454pasa_LV15  cDNA_match      17300   17392   96      -       .       ID=chain_5;Target=GGWHCZS01D8PA1<br>
> 1 92 +<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      153548  153684  99      -       .       ID=chain_6;Target=GGWHCZS01BUD6C<br>
> 8 143 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909581  909657  100     +       .       ID=chain_7;Target=GGWHCZS01B8A85<br>
> 1 77 +<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      154234  154314  95      -       .       ID=chain_8;Target=GGWHCZS01EMFO0<br>
> 1 83 +<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      153545  153735  98      -       .       ID=chain_8;Target=GGWHCZS01EMFO0<br>
> 84 275 +<br>
> scaffold36409   alignAssembly-sacc454pasa_LV15  cDNA_match      261048  261102  100     +       .       ID=chain_9;Target=GGWHCZS01EUQ0J<br>
> 1 55 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909591  909657  100     +       .       ID=chain_10;Target=GGWHCZS01DNMTI<br>
> 1 67 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909602  909657  100     +       .       ID=chain_11;Target=GGWHCZS01CRCLW<br>
> 1 56 +<br>
> scaffold38911   alignAssembly-sacc454pasa_LV15  cDNA_match      143736  143833  98      -       .       ID=chain_12;Target=GGWHCZS01D1K2W<br>
> 1 98 +<br>
> scaffold37916   alignAssembly-sacc454pasa_LV15  cDNA_match      81940   81992   100     +       .       ID=chain_13;Target=GGWHCZS01C6JD5<br>
> 1 53 +<br>
> scaffold37916   alignAssembly-sacc454pasa_LV15  cDNA_match      82836   82926   100     +       .       ID=chain_13;Target=GGWHCZS01C6JD5<br>
> 54 144 +<br>
> scaffold38933   alignAssembly-sacc454pasa_LV15  cDNA_match      135829  135927  98      -       .       ID=chain_14;Target=GGWHCZS01CQ9ZX<br>
> 1 99 +<br>
> scaffold38933   alignAssembly-sacc454pasa_LV15  cDNA_match      134108  134179  95      -       .       ID=chain_14;Target=GGWHCZS01CQ9ZX<br>
> 100 171 +<br>
> scaffold36910   alignAssembly-sacc454pasa_LV15  cDNA_match      94607   94679   97      -       .       ID=chain_15;Target=GGWHCZS01CFNTH<br>
> 1 71 +<br>
> scaffold36910   alignAssembly-sacc454pasa_LV15  cDNA_match      92066   92099   100     -       .       ID=chain_15;Target=GGWHCZS01CFNTH<br>
> 72 105 +<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      154234  154314  97      -       .       ID=chain_16;Target=GGWHCZS01DS3UM<br>
> 1 81 +<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      153545  153735  100     -       .       ID=chain_16;Target=GGWHCZS01DS3UM<br>
> 82 272 +<br>
> scaffold36953   alignAssembly-sacc454pasa_LV15  cDNA_match      12449   12683   97      -       .       ID=chain_17;Target=GGWHCZS01CTGNU<br>
> 1 239 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909592  909664  100     +       .       ID=chain_18;Target=GGWHCZS01CBNFR<br>
> 1 73 +<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      154234  154314  98      -       .       ID=chain_19;Target=GGWHCZS01CR372<br>
> 1 81 +<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      153545  153735  100     -       .       ID=chain_19;Target=GGWHCZS01CR372<br>
> 82 272 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909588  909667  97      +       .       ID=chain_20;Target=GGWHCZS01DOL8E<br>
> 1 80 +<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      182394  182451  98      +       .       ID=chain_21;Target=GGWHCZS01E37KQ<br>
> 1 58 +<br>
> scaffold36407   alignAssembly-sacc454pasa_LV15  cDNA_match      418186  418221  100     +       .       ID=chain_22;Target=GGWHCZS01A7VUK<br>
> 1 36 +<br>
> scaffold36407   alignAssembly-sacc454pasa_LV15  cDNA_match      419038  419166  100     +       .       ID=chain_22;Target=GGWHCZS01A7VUK<br>
> 37 165 +<br>
> scaffold36407   alignAssembly-sacc454pasa_LV15  cDNA_match      419794  419868  100     +       .       ID=chain_22;Target=GGWHCZS01A7VUK<br>
> 166 240 +<br>
> scaffold36421   alignAssembly-sacc454pasa_LV15  cDNA_match      118515  118699  99      -       .       ID=chain_23;Target=GGWHCZS01CJEXS<br>
> 1 184 +<br>
> scaffold37410   alignAssembly-sacc454pasa_LV15  cDNA_match      361706  361809  100     -       .       ID=chain_24;Target=GGWHCZS01BB26P<br>
> 1 104 +<br>
> scaffold37410   alignAssembly-sacc454pasa_LV15  cDNA_match      360904  360952  100     -       .       ID=chain_24;Target=GGWHCZS01BB26P<br>
> 105 153 +<br>
> scaffold37910   alignAssembly-sacc454pasa_LV15  cDNA_match      82980   83092   100     +       .       ID=chain_25;Target=GGWHCZS01DHIW0<br>
> 1 113 -<br>
> scaffold37910   alignAssembly-sacc454pasa_LV15  cDNA_match      83537   83584   94      +       .       ID=chain_25;Target=GGWHCZS01DHIW0<br>
> 114 163 -<br>
> scaffold36430   alignAssembly-sacc454pasa_LV15  cDNA_match      5533    5619    97      -       .       ID=chain_26;Target=GGWHCZS01CINS0<br>
> 1 89 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      912517  912653  97      -       .       ID=chain_27;Target=GGWHCZS01CY8FF<br>
> 1 137 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      912168  912225  91      -       .       ID=chain_27;Target=GGWHCZS01CY8FF<br>
> 138 195 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909589  909659  100     +       .       ID=chain_28;Target=GGWHCZS01CVFMM<br>
> 1 71 +<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      154234  154314  100     -       .       ID=chain_29;Target=GGWHCZS01B40FY<br>
> 1 81 +<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      153547  153735  100     -       .       ID=chain_29;Target=GGWHCZS01B40FY<br>
> 82 270 +<br>
> scaffold36919   alignAssembly-sacc454pasa_LV15  cDNA_match      113299  113345  100     +       .       ID=chain_30;Target=GGWHCZS01DBSZR<br>
> 1 47 +<br>
> scaffold36953   alignAssembly-sacc454pasa_LV15  cDNA_match      12449   12685   97      -       .       ID=chain_31;Target=GGWHCZS01AVC8Y<br>
> 1 235 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909677  909715  100     +       .       ID=chain_32;Target=GGWHCZS01DC0OZ<br>
> 1 39 -<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909891  909920  100     +       .       ID=chain_32;Target=GGWHCZS01DC0OZ<br>
> 40 69 -<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      156139  156176  100     -       .       ID=chain_33;Target=GGWHCZS01CZ1CL<br>
> 1 38 -<br>
> scaffold36419   alignAssembly-sacc454pasa_LV15  cDNA_match      154845  154973  96      -       .       ID=chain_33;Target=GGWHCZS01CZ1CL<br>
> 39 165 -<br>
> scaffold37919   alignAssembly-sacc454pasa_LV15  cDNA_match      122261  122312  96      +       .       ID=chain_34;Target=GGWHCZS01EF1CO<br>
> 1 51 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909683  909715  100     +       .       ID=chain_35;Target=GGWHCZS01C6B5W<br>
> 1 33 -<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909891  909915  100     +       .       ID=chain_35;Target=GGWHCZS01C6B5W<br>
> 34 58 -<br>
> scaffold37910   alignAssembly-sacc454pasa_LV15  cDNA_match      266441  266510  98      +       .       ID=chain_36;Target=GGWHCZS01BR14F<br>
> 1 69 +<br>
> scaffold38922   alignAssembly-sacc454pasa_LV15  cDNA_match      137914  137970  100     -       .       ID=chain_37;Target=GGWHCZS01CPA1V<br>
> 1 57 +<br>
> scaffold37917   alignAssembly-sacc454pasa_LV15  cDNA_match      52798   52892   97      -       .       ID=chain_38;Target=GGWHCZS01CMW2K<br>
> 1 93 +<br>
> scaffold36935   alignAssembly-sacc454pasa_LV15  cDNA_match      22274   22398   100     -       .       ID=chain_39;Target=GGWHCZS01C1GEQ<br>
> 1 125 +<br>
> scaffold38911   alignAssembly-sacc454pasa_LV15  cDNA_match      143736  143833  98      -       .       ID=chain_40;Target=GGWHCZS01CAS23<br>
> 1 98 +<br>
> scaffold36433   alignAssembly-sacc454pasa_LV15  cDNA_match      188     343     98      +       .       ID=chain_41;Target=GGWHCZS01D4XLL<br>
> 1 154 +<br>
> scaffold36926   alignAssembly-sacc454pasa_LV15  cDNA_match      91417   91535   100     -       .       ID=chain_42;Target=GGWHCZS01CIJEU<br>
> 1 119 -<br>
> scaffold36926   alignAssembly-sacc454pasa_LV15  cDNA_match      90394   90498   100     -       .       ID=chain_42;Target=GGWHCZS01CIJEU<br>
> 120 224 -<br>
> scaffold38913   alignAssembly-sacc454pasa_LV15  cDNA_match      51431   51614   99      +       .       ID=chain_43;Target=GGWHCZS01DAAC8<br>
> 1 184 +<br>
> scaffold36414   alignAssembly-sacc454pasa_LV15  cDNA_match      498987  499090  98      +       .       ID=chain_44;Target=GGWHCZS01BIZ3D<br>
> 1 103 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909675  909715  100     +       .       ID=chain_45;Target=GGWHCZS01BLTD9<br>
> 2 42 -<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909891  909913  100     +       .       ID=chain_45;Target=GGWHCZS01BLTD9<br>
> 43 65 -<br>
> scaffold38913   alignAssembly-sacc454pasa_LV15  cDNA_match      51490   51614   99      +       .       ID=chain_46;Target=GGWHCZS01DCKJA<br>
> 1 124 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909524  909715  98      +       .       ID=chain_47;Target=GGWHCZS01CSVIX<br>
> 1 192 -<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909891  909920  100     +       .       ID=chain_47;Target=GGWHCZS01CSVIX<br>
> 193 222 -<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909602  909659  100     +       .       ID=chain_48;Target=GGWHCZS01D0PFQ<br>
> 1 58 +<br>
> scaffold38416   alignAssembly-sacc454pasa_LV15  cDNA_match      6762    6810    97      +       .       ID=chain_49;Target=GGWHCZS01D0TX7<br>
> 1 48 +<br>
> scaffold38416   alignAssembly-sacc454pasa_LV15  cDNA_match      9003    9119    96      +       .       ID=chain_49;Target=GGWHCZS01D0TX7<br>
> 49 165 +<br>
> scaffold38907   alignAssembly-sacc454pasa_LV15  cDNA_match      833004  833038  97      +       .       ID=chain_50;Target=GGWHCZS01CTCD7<br>
> 1 34 +<br>
> scaffold38907   alignAssembly-sacc454pasa_LV15  cDNA_match      838060  838125  100     +       .       ID=chain_50;Target=GGWHCZS01CTCD7<br>
> 35 100 +<br>
> scaffold38907   alignAssembly-sacc454pasa_LV15  cDNA_match      838570  838591  90      +       .       ID=chain_50;Target=GGWHCZS01CTCD7<br>
> 101 122 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909608  909720  98      +       .       ID=chain_51;Target=GGWHCZS01B9U4E<br>
> 1 113 +<br>
> scaffold37912   alignAssembly-sacc454pasa_LV15  cDNA_match      387939  388102  98      +       .       ID=chain_52;Target=GGWHCZS01CC4MR<br>
> 1 163 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909587  909659  100     +       .       ID=chain_53;Target=GGWHCZS01BPMT8<br>
> 1 73 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      908939  909006  98      +       .       ID=chain_54;Target=GGWHCZS01DPL5E<br>
> 1 68 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909592  909715  98      +       .       ID=chain_55;Target=GGWHCZS01BHI27<br>
> 1 124 -<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909891  909920  100     +       .       ID=chain_55;Target=GGWHCZS01BHI27<br>
> 125 154 -<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      908626  908682  96      +       .       ID=chain_56;Target=GGWHCZS01ED8IJ<br>
> 1 57 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909603  909659  100     +       .       ID=chain_57;Target=GGWHCZS01BCQYE<br>
> 1 57 +<br>
> scaffold36907   alignAssembly-sacc454pasa_LV15  cDNA_match      249216  249286  97      +       .       ID=chain_58;Target=GGWHCZS01ATA7N<br>
> 1 69 +<br>
> scaffold36414   alignAssembly-sacc454pasa_LV15  cDNA_match      259865  259962  100     -       .       ID=chain_59;Target=GGWHCZS01DYGRT<br>
> 1 98 +<br>
> scaffold38915   alignAssembly-sacc454pasa_LV15  cDNA_match      116917  117033  97      -       .       ID=chain_60;Target=GGWHCZS01BMW8R<br>
> 1 119 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      911227  911253  100     -       .       ID=chain_61;Target=GGWHCZS01CB12C<br>
> 1 27 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      910741  910883  97      -       .       ID=chain_61;Target=GGWHCZS01CB12C<br>
> 28 170 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      910330  910350  100     -       .       ID=chain_61;Target=GGWHCZS01CB12C<br>
> 171 191 +<br>
> scaffold36935   alignAssembly-sacc454pasa_LV15  cDNA_match      40763   40908   100     -       .       ID=chain_62;Target=GGWHCZS01B2SBA<br>
> 1 146 +<br>
> scaffold36935   alignAssembly-sacc454pasa_LV15  cDNA_match      40763   40920   100     -       .       ID=chain_63;Target=GGWHCZS01EHM0P<br>
> 1 158 +<br>
> scaffold37410   alignAssembly-sacc454pasa_LV15  cDNA_match      611218  611305  100     -       .       ID=chain_64;Target=GGWHCZS01BMOMV<br>
> 1 88 +<br>
> scaffold38919   alignAssembly-sacc454pasa_LV15  cDNA_match      102147  102213  100     +       .       ID=chain_65;Target=GGWHCZS01BVMOL<br>
> 1 67 -<br>
> scaffold38919   alignAssembly-sacc454pasa_LV15  cDNA_match      107678  107788  98      +       .       ID=chain_65;Target=GGWHCZS01BVMOL<br>
> 68 178 -<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909610  909715  97      +       .       ID=chain_66;Target=GGWHCZS01C2HAX<br>
> 1 107 -<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909891  909920  100     +       .       ID=chain_66;Target=GGWHCZS01C2HAX<br>
> 108 137 -<br>
> scaffold37408   alignAssembly-sacc454pasa_LV15  cDNA_match      16679   16777   98      +       .       ID=chain_67;Target=GGWHCZS01BTFN0<br>
> 1 98 +<br>
> scaffold38932   alignAssembly-sacc454pasa_LV15  cDNA_match      135072  135188  95      -       .       ID=chain_68;Target=GGWHCZS01CURJ7<br>
> 1 119 +<br>
> scaffold37907   alignAssembly-sacc454pasa_LV15  cDNA_match      909586  909657  100     +       .       ID=chain_69;Target=GGWHCZS01CB9IJ<br>
> 1 72 +<br>
> scaffold38911   alignAssembly-sacc454pasa_LV15  cDNA_match      136895  136999  100     +       .       ID=chain_70;Target=GGWHCZS01DBI1M<br>
> 1 105 +<br>
> scaffold38911   alignAssembly-sacc454pasa_LV15  cDNA_match      138219  138319  100     +       .       ID=chain_70;Target=GGWHCZS01DBI1M<br>
> 106 206 +<br>
> scaffold38933   alignAssembly-sacc454pasa_LV15  cDNA_match      135829  135906  97      -       .       ID=chain_71;Target=GGWHCZS01C0GBU<br>
> 1 77 +<br>
> scaffold38933   alignAssembly-sacc454pasa_LV15  cDNA_match      134108  134179  95      -       .       ID=chain_71;Target=GGWHCZS01C0GBU<br>
> 78 149 +<br>
><br>
</div></div><font color="#888888">--<br>
Alexander (Sasha) Wait Zaranek, PhD<br>
Research Fellow in Genetics<br>
Director Informatics<br>
Personal Genome Project<br>
Harvard Medical School<br>
<br>
<a href="http://openwetware.org/wiki/User:Alexander_Wait_Zaranek" target="_blank">http://openwetware.org/wiki/User:Alexander_Wait_Zaranek</a><br>
</font><div><div></div><div class="h5"><br>
_______________________________________________<br>
GET-dev mailing list<br>
<a href="mailto:GET-dev@lists.freelogy.org">GET-dev@lists.freelogy.org</a><br>
<a href="http://lists.freelogy.org/mailman/listinfo/get-dev" target="_blank">http://lists.freelogy.org/mailman/listinfo/get-dev</a><br>
</div></div></blockquote></div><br>