Polimorfismos de modificações nucleotídicas (SNPs – Single Nucleotide Polymorphisms, INDELs – Insertion / Deletions) têm uma alta freqüência nos genomas da maioria dos organismos, incluindo plantas. Eles vêm se tornando a escolha principal de marcador para trabalhos de melhoramento, genotipagem e diagnóstico. A identificação destes polimorfismos irá fornecer marcadores que poderão ser utilizados para o mapeamento genético, estudos de genética de população e de associação. Portanto, os objetivos deste trabalho foram: 1) identificar in silico SNPs e INDELS existentes em seqüências de ESTs disponíveis; e 2) analisar a diversidade nucleotídica em Coffea spp. Um pipeline para identificação de SNPs e INDELs foi desenvolvido utilizando seqüências de ESTs disponíveis de Coffea spp. Foi utilizado uma estratégia para detecção de SNPs em dentro de 23.019 contigs. Um total 23.062 SNPs e 2.165 INDELS foram encontrados em 5184 contigs que continham pelo menos quatro ESTs. Analises in silico permitiram a identificação de diferentes alelos de C. canephora e C. eugenioides que estão presentes em C. arabica. A maioria dos ESTs de C. arabica vieram de apenas dois alelos, uma evidência molecular sobre a especiação de C. arabica. De acordo com essas análises cerca de 55% das seqüências de C. arabica são derivadas do genoma de C. eugenioides e 45% de C. canephora. Além disso, foi possível observar que o genoma de C. eugenioides contribui principalmente para genes relacionados a metabolismo basal, enquanto que os genes de C. canephora estão envolvidos com sinais de tradução e regulação da expressão gênica. Análises in vivo estão sendo realizadas através do sequenciamento de diversos genes em 24 genótipos de Coffea sendo 12 de C. arabica, 9 de C. canephora e três de outras espécies de Coffea, para uma analise maior da diversidade nucleotídica do gênero. Resultados referentes ao sequenciamento do gene de sacarose fosfato sintase (SPS) apresentaram 21 polimorfismos, sendo a maioria interespecíficos (C. arabica, C. canephora, C. eugenioides e C. racemosa). Para os genótipos de C. canephora foram observados nove polimorfismos intraespecíficos. Já os polimorfismos encontrados entre os genótipos de C. arabica forma os mesmos detectados entre C. canephora e C. eugenioides.
Single nucleotide polymorphisms are the most abundant polymorphisms in the genomes analyzed to date. They are becoming the main choice of molecular markers for breeding, genotyping, and diagnosis purposes, due to the large amount of sequences data available. Identification of those nucleotide polymorphisms will provide useful markers for genetic mapping, population genetics and association studies. It will also provide criteria to infer the evolutionary history of the analyzed genes, which can be relevant to select the best candidate genes to test in future association studies. For those reasons, the objectives of this work were: 1) identify and validate both in silico and in vivo, the SNPs and INDELS existing in EST resources; and 2) analyze the nucleotide diversity in Coffea spp., in addition to selected C. arabica cultivars. A Pipeline for identification of SNPs and INDELS was generated using sequences from the Brazilian ESTs Coffee Genome Project as well as other Coffea sequences available in GenBank. The pipeline was carried out by a haplotype –based strategy to detect reliable SNPs in 23.019 contigs assembled. A total of 23.062 SNPs e 2.165 INDELS were identified in 5184 contigs with more than four ESTs assembled. With the haplotype-based strategy, it was possible to define the probable ancestral of C. arabica transcripts. The majority of ESTs from C. arabica, came from only two different alleles, providing molecular evidences about C. arabica speciation. According to our analysis, approximately 55% of C. arabica sequences were derived from C. eugenioides, and 45% were considered as come from C. canephora. Interestedly, C. eugenioides contributes mostly with genes related to basal metabolism and the secondary metabolism, while genes C. canephora genes are involved with signal transduction and gene expression regulation. The in vivo analyses are being performed by sequencing PCR fragments of several genes in 24 Coffea genotypes corresponding respectively to 12 C. arabica, 9 C. canephora and 3 Coffea spp. Genotypes belonging to C. arabica and C. canephora were chosen in order to represent the largest diversity possible. Sequencing results from Sucrose Phosphate Sintase gene in those genotypes reveal the presence of SNPs mainly in interspecific sequences. A higher number of SNPs intraspecific was also observed for C. canephora. Intraespecifc SNPs for C. arabica were the same observed in the two ancestral genomes, C. canephora and C. eugenioides.