Dentre os marcadores genéticos disponíveis, os microssatélites ou SSRs (Simple Sequence Repeats) têm sido os escolhidos para diferentes estudos genéticos por apresentarem características que agregam simplicidade técnica, grande poder de resolução e alto nível de polimorfismo. Com a disponibilidade das seqüências ESTs (Expressed Sequence Tags), geradas pelo Projeto Brasileiro do Genoma Café, surgiu a oportunidade de desenvolver esses marcadores, de forma direta e eficiente, por meio de análise eletrônica. Visando o desenvolvimento futuro de marcadores SSRs para café, nesse trabalho foram identificados e caracterizados microssatélites nas seqüências expressas do genoma do cafeeiro. A mineração dos dados foi realizada utilizando-se todas as combinações de di-, tri- e tetranucleotídeos formadores dos microssatélites, perfazendo um total de 46 combinações (quatro de dinucleotídeos, 10 de trinucleotídeos e 32 de tetranucleotídeos). Foram considerados os microssatélites perfeitos e com tamanho mínimo de 12 pares de bases. Do total de 130.792 ESTs proveniente de C. arabica foram identificadas 37.826 contendo microssatélites, que após a clusterização resultou em 24.031 EST-SSR. Dentre estas, 45,11% apresentaram tetranucleotídeos, 36,67% trinucleotídeos e 18,23% dinucleotídeos. As unidades repetitivas mais abundantes dentro de cada categoria de EST-SSR foram (AG)n encontrada em 57,08% das sequências contendo dinucleotídeos, (AGG)n com 30,79% dos trinucleotídeos e (AGGG)n com 33,24% dos tetranucleotídeos. A grande quantidade de SSRs identificada nas seqüências transcritas do genoma do cafeeiro demonstra que essas são fontes valiosas para o desenvolvimento dos marcadores moleculares EST-SSRs.
Among the available genetic markers, the microsatellites or SSRs (Simple Sequence repeats) have been chosen for genetic studies because they present different characteristics that add technical simplicity, high resolution and high level of polymorphism. With the availability of Expressed Sequence Tags (EST), generated by the Brazilian Coffee Genome Project, it come the opportunity to develop these markers, in a directly and efficiently manner via electronic analysis. Aiming at the future development of SSRs markers for coffee, in this work, microsatellites were identified and characterized in expressed sequences of the coffee genome. The data mining was performed using all the combinations of di-, tri-and tetranucleotide microsatellite motifs, being a total of 46 combinations (four dinucleotide, 10 trinucleotide and 32 tetranucleotides). Of the total of 130,792 ESTs from C. arabica, 37,826 containing microsatellites were identified, which after clustering resulted in 24,031 EST-SSR. Among these, 45.11% had tetranucleotide, 36.67% trinucleotide and 18.23% dinucleotide motifs. The most abundant repetitive units within each category of EST-SSR were (AG)n found in 57.08% of sequences containing dinucleotide, (AGG)n in 30.79% of trinucleotides, and (AGGG)n in 33.24% of tetranucleotides. A large number of SSRs identified in the transcribed sequences of the genome of coffee shows that these are valuable sources for the development of molecular markers EST-SSRs.