O Projeto Genoma Café gerou seqüências parciais de mais de duzentos mil clones de EST (Expressed Sequence Tag). Essa estratégia gera dados redundantes. Nesse trabalho, selecionamos o conjunto mínimo de clones que representam todos os transcritos encontrado no projeto. Para tanto, as 213.157 seqüências geradas pelo projeto, apos um processo criterioso que resultou em 145.507 seqüências limpas, foram agrupadas por similaridade dando origem a 32.958 possíveis transcritos, aqui chamados de Unigenes. Para cada Unigene, determinamos o clone correspondente à extremidade 5' o que, pela metodologia empregada na construção das bibliotecas, deve corresponder ao clone de maior extensão. Todos os resultados obtidos foram centralizados e organizados em uma base de dados relacional, de forma a facilitar sua utilização em posteriores aplicações de diferentes plataformas e linguagens. O SGDB usado foi o PostgreSQL. Desenvolvemos uma interface Web usando as linguagens PHP e Perl rodando sobre o Apache para permitir a usuários acesso aos dados de maneira simplificada e rápida. Escolhemos essas ferramentas por serem todas de código livre, permitindo personalizações, se necessárias, e por não agregarem nenhum vinculo de licença.
The Coffee Genome Project has generated partial sequences in excess of two hundred thousand EST (Expressed Sequence Tag) clones. This approach generates redundant data. In this work, we have devised the minimal clone set that represents all transcripts found in the project. The 213,157 sequences generated by the project were submitted to an elaborated cleaning process that resulted in 145,507 trimmed sequences. Those trimmed sequences where grouped by similarity in 32,958 putative transcripts, here called Unigenes. For each Unigene, we have picked the clone in the 5’ edge, which should correspond to the one with the largest insert, due to the methodology used in library construction. All data was organized in a single relational database, allowing its use by future applications in diverse platforms and languages. The RDBMS in this work is PostgreSQL. An Web interface, using PHP and Perl over Apache was developed, allowing users fast and simple access to the data. We have chosen to work with open source tools because it allows us to make customizations, if necessary, and due to its free license and distribution policy.