“Máquina de Ciência de Dados” substitui a intuição humana com algoritmos
Engenheiros do MIT desenvolveram um novo sistema que substitui a intuição humana por algoritmos. A “Máquina de Ciência de Dados” superou 615 de 906 equipes humanas em três competições de ciências de dados recentes.
A análise de Big-data consiste na busca de padrões ocultos que têm algum tipo de poder de previsão. Mas escolher quais “características” dos dados analisar geralmente requer alguma intuição humana. Em um banco de dados contendo, por exemplo, as datas de início e fim de várias promoções de vendas e lucros semanais, os dados cruciais podem não ser as próprias datas, mas os espaços entre elas, ou não o total de lucros, mas as médias em todos esses espaços.
O que é Big-data? – Em tecnologia da informação, Big Data (“megadados” em português) refere-se a um grande armazenamento de dados e maior velocidade. Diz-se que o Big Data se baseia em 5 “V” : velocidade, volume, variedade, veracidade e valor.
Pesquisadores do MIT têm como objetivo levar o elemento humano da análise de big-data, com um novo sistema que não só procura por padrões, mas projeta o conjunto de recursos também. Para testar o primeiro protótipo de seu sistema, eles inscreveram-no em três competições científicas de dados, nas quais competiram contra equipes humanos para encontrar padrões preditivos em conjuntos de dados desconhecidos. Das 906 equipes participantes nas três competições, a “Máquina de Ciência de Dados” dos pesquisadores terminou na frente de 615.
Em duas das três competições, as previsões feitas pela máquina foram de 94 por cento e 96 por cento tão precisos quanto as apresentações vencedoras. Na terceira, o valor era de um pouco mais modesto, 87 por cento. Mas onde as equipes de seres humanos tipicamente trabalharam sobre os seus algoritmos de previsão por meses, a “Máquina de Ciência de Dados” levou de duas e 12 horas para produzir cada um dos resultados.
“Nós vemos a ‘Máquina de Ciência de Dados’ como um complemento natural para a inteligência humana”, diz Max Kanter, cuja tese de mestrado no MIT em ciência da computação é a base da Máquina de Ciência de Dados. “Há tantos dados lá fora, para serem analisados. E justamente agora eles estão apenas parados sem fazer nada. Então, talvez possamos chegar a uma solução que irá, pelo menos, analisá-los, ao menos movimentar-los.”
Entrelinhas
Kanter e seu conselheiro de tese, Kalyan Veeramachaneni, um pesquisador científico no Laboratório de Ciência da Computação e Inteligencia Artificial do MIT(CSAIL), descreveram a Máquina de Ciência de Dados em uma dissertação que Kanter irá apresentar na Conferência Internacional de Dados Científicos e Análise Avançada (IEEE).
Veeramachaneni co-lidera a aprendizagem escalar para o grupo All no CSAIL, que aplica técnicas de aprendizado de máquina para problemas práticos na análise de big-data, como a determinação da capacidade de geração energética de fazendas eólicas ou prever que os estudantes estão em risco de largar os cursos on-line.
“O que observamos em nossa experiencia em resolver um número de problemas de dados científicos para a industria é aquele um muito crítico chamado engenharia de recurso”, disse Veeramachaneni. “A primeira coisa que você precisa fazer é identificar quais variáveis extrair ou compor da base de dados, e para isso, são necessárias muitas ideias.”
Na previsão de saída, por exemplo, dois indicadores mostraram-se cruciais em quanto tempo antes de um prazo um estudante começa a trabalhar em um conjunto de problemas e quanto tempo o estudante gasta no site em relação aos seus colegas de classe. A plataforma de aprendizado online do MIT, o MITX não registra nenhuma dessas estatísticas, mas coleta os dados a partir dos quais eles podem ser inferidos. (deduzir ou concluir algo)
Composição de destaque
Kanter e Veeramachaneni usam alguns truques para fabricar características dos candidatos para análises de dados. Uma é explorar as relações estruturais inerentes no projeto do banco de dados. Bancos de dados normalmente armazenam diferentes tipos de dados em tabelas diferentes, indicando as correlações entre eles usando identificadores numéricos. A Máquina de Ciência de Dados rastreia essas correlações, usando-as como uma sugestão para caracterizar a construção.
Por exemplo, uma tabela pode listar os itens de varejo e os seus custos; outra pode listar os itens incluídos nas compras dos clientes individuais. A Máquina iria começar importando os custos da primeira tabela para a segunda. Em seguida, adotaria a própria sugestão de associação de vários itens diferentes na segunda tabela com o mesmo número de compra, em seguida executaria um conjunto de operações para gerar possíveis características: o custo total por compra, o custo médio por compra, o custo mínimo por compra, e assim por diante. Como os identificadores numéricos se proliferaram através das tabelas, as Máquina de Ciências de dados opera em camada acima umas das outras, encontrando médias mínimas, médias de somas, e assim por diante.
Ela também olha para os chamadas de dados categóricos, que parecem ser restritos a uma gama limitada de valores, tais como dias da semana ou nomes de marcas. Em seguida, ela gera mais características candidatas, dividindo os recursos existentes em todas as categorias.
Uma vez que é produzido um conjunto de características, ela reduz o seu número, identificando aqueles cujos valores parecem estar correlacionadas. Em seguida, ela começa a testar seu conjunto reduzido de recursos em dados de amostra, recombinando-os de diferentes maneiras para melhorar a precisão das previsões que originaram.
“A máquina de Ciência de dados é um desses projetos incríveis onde aplicamos pesquisas de ponta para resolver problemas práticos, abre uma maneira inteiramente nova de olhar para um problema”, diz Margo Seltzer, professor de ciência da computação na Universidade de Harvard, que não participou do trabalho. “Eu acho que o que eles fizeram vai se tornar o padrão rapidamente, muito rapidamente”
Fonte: Larry Hardesty e MIT News via SciTechDaily
Esta é uma tradução livre feita por Suprimatec do artigo publicado na SciTechDaily, para vê-lo no idioma original clique no título a seguir: “Data Science Machine” Replaces Human Intuition with Algorithms
Sei lá… Mas isso parece mais uso da inteligência, do raciocínio lógico… Enfim, quem sou eu para encontrar poréns para o pessoal do MIT 😀
Eu tive que ler umas duas vezes pra entender a matéria. O armazenamento de dados é algo muito complexo, se isso der certo, a interpretação e realocação de informações, resumindo a entrada de dados será benéfica no quesito espaço usado, ao invés de inventarem HD’s cada vez mais espaçosos, o que virá é o aperfeiçoamento da leitura interpretação e armazenamento em pouco espaço, e ai que entra a rapidez do processamento, os chips com muitos núcleos: https://suprimatec.com/2015/10/14/nova-tecnica-pode-permitir-chips-com-milhares-de-nucleos/