A produtividade agrícola representa o resultado de ações tomadas antes da colheita e indica se as práticas agrícolas adotadas causaram aumento ou redução no rendimento e podem ajudar na tomada de decisões futuras. Dessa maneira, a previsão de produtividade é uma ferramenta útil para os agricultores. Existem modelos que estimam a produtividade, porém, a quantidade de variáveis necessárias e a dificuldade em mensurá-las são um problema. Vários pesquisadores têm usado imagens orbitais para realizar estimativas de biomassa e produtividade de culturas. Além disso, alguns pesquisadores vêm combinando métodos de aprendizado de máquina (machine learning), mineração de dados (data mining) ou inteligência artificial (artificial intelligence) na tentativa de prever a produtividade de culturas agrícolas. Para estimar a produtividade agrícola, é interessante que o banco de dados possua imagens de todo o ciclo produtivo da cultura. Porém, o período de revisita dos satélites e a presença de nuvens sobre a área de estudo podem tornar o banco de dados incompleto. Uma possibilidade é adquirir imagens capturadas por sensores a bordo de distintos satélites. No entanto, cada sensor captura faixas de comprimento de onda diferentes e alguns sensores não capturam todos os comprimentos de onda necessários aos estudos. Uma forma de resolver esse problema é realizar uma predição das imagens faltantes de um satélite utilizando como base imagens oriundas de outro satélite. Dessa forma, consegue-se preencher lacunas na série de dados e garantir um banco de dados com uma série temporal mais representativa. Por fim, é possível utilizar a série temporal de informações derivadas das imagens orbitais para estimar a produtividade de culturas agrícolas. Portanto, o objetivo desta tese foi estimar a produtividade do café por meio de informações espectrais e machine learning. Para isso, o banco de dados foi composto por imagens Sentinel-2 originais, além de imagens Sentinel-2 preditas com base em imagens oriundas do Cbers-4, Landsat-8 e Resourcesat-2. A predição de imagens Sentinel-2 ocorreu por meio de sete métodos de machine learning. Os dados foram separados em conjunto de treinamento, teste e avaliação dos modelos. O desempenho dos modelos foi mensurado pela raiz do erro quadrático médio (rootIV mean square error - RMSE) entre o valor real e o valor predito pelo modelo para o conjunto que ficou de fora do treinamento. O teste t a 5% de significância foi usado para verificar a existência de igualdade ou diferença estatística entre os erros apresentados pelos modelos de predição da reflectância. Os métodos de machine learning mostraram-se eficazes para estimar os valores de reflectância de imagens Sentinel-2 com base em imagens oriundas do Cbers-4, do Landsat-8 e do Resourcesat-2. Os modelos que apresentaram menores RMSE’s na predição da reflectância de imagens orbitais de uma data distinta a data cujos dados foram usados para treinar os modelos foram usados para estimar as imagens Sentinel-2 ausentes do banco de dados usado para estimar a produtividade do café. A partir das imagens orbitais, seis índices de vegetação e reflectância em seis bandas espectrais foram obtidos. A estimativa da produtividade ocorreu por meio de seis métodos de machine learning. Os modelos de estimativa foram implantados em linguagem R no programa computacional R Versão 3.5.1 (R Team, 2018). A raiz do erro quadrático médio (root mean square error - RMSE) e o erro médio absoluto (mean absolute error - MAE) foram usados para avaliar a acurácia dos modelos de estimativa da produtividade. O RMSE e o MAE serviram de entrada para o teste de Scott-Knott que agrupou os modelos semelhantes. Os métodos de machine learning apresentaram erros RMSE e MAE da estimativa da produtividade semelhantes uns aos outros pelo teste de Scott-Knott, com exceção da regressão linear utilizando 14 variáveis preditoras. Foi possível estimar a produtividade por meio de cinco variáveis com erros semelhantes aos erros apresentados pelos modelos com 10 e com 14 variáveis referentes a informações espectrais, topográficas e agronômicas. O erro RMSE mínimo apresentado pelos modelos correspondeu a uma diferença de 11% entre o valor estimado e o valor real da produtividade do café do talhão Pasto Novo 1 no ano de 2017. O erro MAE mínimo correspondeu a uma diferença de 1,7% entre o valor estimado e o valor observado da produtividade do talhão Açude 3 no ano de 2018. A estimativa da produtividade pode ser realizada com até três meses de antecedência.
Yield represents the result of actions taken before harvest and indicates whether the agricultural practices adopted have caused yield increase or reduce, and may help in future decision making. In this way, the yield estimation is a useful tool for farmers. There are some models that try to estimate the yield, but the number of variables needed and the difficulty in measuring them is a problem. Several researchers have used orbital images to perform estimates of biomass and crop yields. In addition, some researchers have been combining machine learning, data mining or artificial intelligence methods in an attempt to estimate crop yields. To estimate the yield, it is interesting that the database has images of the entire crop's productive cycle. However, the satellite re-visit period and the presence of clouds over the study area may make the database incomplete. One possibility is to acquire images captured by sensors on board different satellites. However, each sensor captures different wavelength ranges and some sensors do not capture all the wavelengths required by the studies. One way to solve this problem is to predict the missing images of a satellite based on images from another satellite. In this way, it is possible to fill gaps in the data series and guarantee a database with a more representative time series. Finally, it is possible to use the time series of information derived from orbital images to estimate the yield of agricultural crops. Therefore, the purpose of this thesis was to estimate coffee yield through spectral information and machine learning. For this, the database was composed of original Sentinel-2 images, as well as Sentinel-2 images predicted based on images from Cbers-4, Landsat-8 and Resourcesat-2. The prediction of Sentinel-2 images occurred through seven methods of machine learning. The data were separated together in training, testing and evaluation of the models. Model performance was measured by the root mean square error (RMSE) between the actual value and the value predicted by the model for the set that was left out of training. The 5% significance t-test was used to verify the existence of statistical equality or difference between the errors presented by the reflectance prediction models. Machine learning methods proved to be effective in predicting the reflectance values of Sentinel-2 images based on Cbers-4, Landsat-8 andVI Resourcesat-2 images. The models that presented lower RMSE’s in predicting the reflectance of orbital images from a date other than the date whose data were used to train the models were used to predict Sentinel-2 images missing from the database used to estimate the coffee yield. From the orbital images, six vegetation indices and reflectance in six spectral bands were obtained. The estimation of yield occurred through six methods of machine learning. The estimation models were implemented in R language in the R Version 3.5.1 (R Team, 2018). Mean root error square (RMSE) and mean absolute error (MAE) were used to evaluate the accuracy of yield estimation models. RMSE and MAE served as input to the Scott-Knott test that grouped similar models. The machine learning methods presented RMSE and MAE errors of yield estimation similar to each other by the Scott-Knott test, with the exception of linear regression using 14 predictor variables. It was possible to estimate the yield through five variables with errors similar to the errors presented by the models with 10 and with 14 variables referring to spectral, topographic and agronomic information. The minimum RMSE error presented by the models corresponded to a difference of 11% between the estimated value and the real productivity value of the Pasto Novo 1 field coffee in 2017. The minimum MAE error corresponded to a difference of 1.7% between the estimated value and the observed yield value of the Açude 3 field in the year 2018. Productivity estimates can be made up to three months in advance.