As with other steps in the genome processing, nonsynonymous calling was insanely slow. I was worried that Xiaodi did the reference sequence extraction in a bad way despite all the C code optimization, but it turns out to just be another SQL-query-is-slow issue. A version which uses a sorted version of refflat.txt runs through all the calls in 3 minutes, the SQL querying version took 112 minutes -- a 37-fold improvement.<br>


<br>So after removing everything but the ref allele calling, dbSNP calling, nonsynonymous calling, and matching against GET-Evidence, processing a genome takes 40 minutes on my server. I think most of that is in the last step now, which still uses SQL queries.<br>
<br>I've loaded up the first 12 PGP genomes onto: <a href="http://mball.freelogy.org/genomes.php">http://mball.freelogy.org/genomes.php</a><br><br>You can check out what the new reports look like there. The tables are ugly as heck 'cause I haven't learned CSS yet, but we might want to think about some color coding. I know Joe wants to color code allele frequency. Cells could also be colored according to impact... maybe more vivid for more evidence and color reflecting clinical importance & impact (red = high pathogenic, yellow=low pathogenic, green = pharm, blue = benign)...<br>
<br>  -- Madeleine<br><br><br><br>