<font class="Apple-style-span" face="arial, helvetica, sans-serif">On Fri, Jun 18, 2010 at 11:07 AM, Kimberly Robasky <<a href="mailto:krobasky@gmail.com">krobasky@gmail.com</a>> wrote:<br>> I'm trying to understand how GET is mapping build 37 SNPs to build 36<br>
> genomes<br><br>The short answer is that it doesn't.  Trait-o-matic assumes that all GFF coordinates are hg18 (36.3).  Madeleine and I have talked about this briefly a while ago.  It seems like a first step might be to accept/store coordinates as "build:chromosome:position" instead of just "chromosome:position".  Then, the nsSNP engine can be extended to support multiple references by using the appropriate version of refFlat and dbsnp.<br>
<br>> How does GET know that NA19240 has variant rs77023418?:<br>> <a href="http://evidence.personalgenomes.org/AGAP7-Thr362Asn">http://evidence.personalgenomes.org/AGAP7-Thr362Asn</a><br>> You see NA19240 at the bottom has no chr/coordinate, nor does this<br>
> page cross-reference the dbSNP id.<br><br>I don't think this is a build 36/37 issue.  It's just that the current NA19240 data set does not list any AGAP7 variants but the previous one does.<br><br>GET-Evidence knows that a single human might have multiple data sets, so it still remembers that NA19240 has that variant, even though the latest data set does not include it.  I think there are 3 bugs to fix here:<br>
<br>(1) GET-Evidence should be more careful to link to the data set that actually has the variant (rather than linking to all current data sets for that variant).<br><br>(2) Trait-o-matic should be able to display both data sets publicly, without having both appear on the "public samples" front page.<br>
<br>(3) GET-Evidence should remove the "genome X" sections when a public data set becomes non-public (basically "stop linking to a previously public data set" is not automated so it's no big surprise that this didn't happen properly).  IIRC it does correctly handle "public data set is recomputed and no longer has variant V" so it might not take much to fix this.<br>
<br>The second bug probably isn't a super high priority if we're going to revise/replace the "public samples" and "trait-o-matic report" functionality using GET-Evidence.<br><br>chr10   MAQ     SNP     51135377        51135377        .       +       .       alleles G/T;amino_acid AGAP7 T362N;ref allele G;ref_allele G<br>
<br>> I've been slogging through source trying to figure out how genome id<br>> gets mapped to variant in the edits/snap_latest/snap_release tables,<br>> but to no avail.  It doesn't seem to have been mapped in the makefile<br>
> or install.php, either.  Could this be an artifact from some previous<br>> source code base?<br><br>snap_latest has a row with variant_id=1078, genome_id=25 -- that corresponds to "Dec 27 2009 Genome Importing Robot added [NA19240]" in the edit history.<br>
<br>(When #3 is fixed you'll see a "removed [NA19240]" edit corresponding to this.)<br><br>For sake of explanation let's look at a variant that isn't affected by bug (3) above:<br><br><a href="http://evidence.personalgenomes.org/RHO-Gly51Ala">http://evidence.personalgenomes.org/RHO-Gly51Ala</a><br>
<br><font class="Apple-style-span" face="'courier new', monospace">mysql> select * from variant_occurs where variant_id = 83444;<br>+------------+------+------------+--------------+------+-----------+--------+<br>
| variant_id | rsid | dataset_id | zygosity     | chr  | chr_pos   | allele |<br>+------------+------+------------+--------------+------+-----------+--------+<br>|      83444 |    0 | T/snp/179  | heterozygous | chr3 | 130730418 | C      | <br>
+------------+------+------------+--------------+------+-----------+--------+<br></font></font><div><font class="Apple-style-span" face="'courier new', monospace">1 row in set (0.00 sec)</font></div><div><font class="Apple-style-span" face="'courier new', monospace"><br>
</font></div><div><font class="Apple-style-span" face="'courier new', monospace">mysql> select * from datasets where dataset_id = 'T/snp/179';</font></div><div><font class="Apple-style-span" face="'courier new', monospace">+------------+-----------+--------------------------------------------+------+</font></div>
<div><font class="Apple-style-span" face="'courier new', monospace">| dataset_id | genome_id | dataset_url                                | sex  |</font></div><div><font class="Apple-style-span" face="'courier new', monospace">+------------+-----------+--------------------------------------------+------+</font></div>
<div><font class="Apple-style-span" face="'courier new', monospace">| T/snp/179  |        17 | <a href="http://snp.med.harvard.edu/results/job/179">http://snp.med.harvard.edu/results/job/179</a> | M    | </font></div>
<div><font class="Apple-style-span" face="'courier new', monospace">+------------+-----------+--------------------------------------------+------+</font></div><div><font class="Apple-style-span" face="'courier new', monospace">1 row in set (0.00 sec)</font></div>
<div><font class="Apple-style-span" face="'courier new', monospace"><br></font></div><div><font class="Apple-style-span" face="'courier new', monospace"><div>mysql> select * from genomes where genome_id = 17;</div>
<div>+-----------+-----------------+---------------+</div><div>| genome_id | global_human_id | name          |</div><div>+-----------+-----------------+---------------+</div><div>|        17 | snp-17          | James Sherley | </div>
<div>+-----------+-----------------+---------------+</div><div>1 row in set (0.00 sec)</div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif"><font class="Apple-style-span" face="'courier new', monospace"><br>
</font></font></div></font></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif">> More broadly, I found this because I'm trying to map all variants to<br>> coordinates that I use to compute conservation, but I have no<br>
> coordinates for around 15% of the variants, including this AGAP7<br>> variant.</font></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif"><br></font></div><div><font class="Apple-style-span" face="arial, helvetica, sans-serif">The "variant_occurs" table (and the variants table, to get the AA coordinates) should give you coordinates for all the variants that occur in the current versions of all the public genomes.</font></div>
<div><font class="Apple-style-span" face="arial, helvetica, sans-serif"><br></font></div><div><span class="Apple-style-span" style="font-family: arial, helvetica, sans-serif; ">In general, the AGAP7-Thr362Asn situation (genome entry despite no data set evidence) will still happen even with bug (3) fixed -- if someone (other than the genome importing robot) writes something in the text field for that genome, the genome importer will leave it alone.  Perhaps it would be helpful to have an annotation on the web page to explain this: "No current data sets indicate that this genome has this variant."  Someone want to offer a more concise version of that?</span></div>
<div><font class="Apple-style-span" face="arial, helvetica, sans-serif"><br></font>Tom</div><div><br></div>