Цитата(10gin @ 30.09.2008 - 18:03)
Меня интересует:
Выравнивание.
Определение и вывод гаплотипа. (и все это чем "автоматическее" - тем лучше)
Печать удобоваримого отчёта.
Возможность редактирования сиквенса (обрезка областей, редактирование, замена нуклеотидов)
Возможность сохранять результаты работы.
Возможность поиска по популяциям.
ОК. От выравнивания до сохранить - умеет делать масса бесплатных программ. Правда придется дорабатывать это дело с напильником - скажем для поиска в базе вам нужен формат типа 16223,16362 а в наличии есть только выравненная строка. Для программиста раз плюнуть, а пользователю неудобно - не БЛАСТить же базу. То есть обязательно проверьте в какие форматы умеет конвертировать сиквенсы предлагаемый Вам продукт.
Далее, в программе должна быть возможность при поиске соответствий игнорировать инделы, вообще длину С-трактов. Инделы нужны только при сличении двух образцов предположительно принадлежащих одному и тому же человеку. При подсчете частоты в популяциях они будут мешать. Также должна быть возможность игнорировать при поиске любой набор сайтов, скажем обычный кандидат на удаление - 16519.
Поиск по популяциям - здесь дам Вам пару советов.
1) Разумеется любая база будет отставать по количеству записей от того максимального количества сиквенсов что есть в литературе. Скажем, сейчас опубликовано уже за 100000 ГВС, хотя и не все из них с хорошими популяционными привязками. В коммерческой базе желательно видеть хотя бы треть от этого количества. В частности европеоидов в базе долно быть не менее 15000-20000 образцов, иначе работать не сможете. Проверьте также сколько есть по этнич. русским. В настоящее время опубликовано примерно 1200, если вам предложат значительно меньше - база фуфло. Если Вам будут предлагать закрытые базы с неопубликованными данными судебного происхождения, будьте аккуратны - обычно там масса ошибок в сиквенсах и скверно с определением этнической принадлежности.
2) Очень желательно чтобы там были не только данные ГВСов но и полиморфизмы кодирующего участка, либо гаплогруппа определенная через ПДРФ/мультиплекс. Даже если Вы не будете типировать кодирующие области, такие данные могут уберечь от неправильных выводов. Кстати, сейчас это стандарт, что бы ни писали в старых статьях.
В общем можете написать здесь или в личку что умеет предлагаемый Вам "продукт", подумаем. Честно говоря, я не встречал разработок даже отдаленно соответствующих всем требованиям.