Aprendizagem profunda

área da aprendizagem de máquina

O aprendizado profundo é um subconjunto do aprendizado de máquina que se concentra na utilização de redes neurais para executar tarefas como classificação, regressão e aprendizado de representação. O campo se inspira na neurociência biológica e é centrado em empilhar neurônios artificiais em camadas e "treiná-los" para processar dados. O adjetivo "profundo" se refere ao uso de múltiplas camadas (variando de três a várias centenas ou milhares) na rede. Os métodos usados podem ser supervisionados, semissupervisionados ou não serem supervisionados.[1]

Algumas arquiteturas comuns de rede de aprendizado profundo incluem redes totalmente conectadas, redes de crenças profundas, redes neurais recorrentes, redes neurais convolucionais, redes adversárias generativas, transformadoras e campos de radiância neural. Essas arquiteturas foram aplicadas a campos como visão computacional, reconhecimento de fala, processamento de linguagem natural, tradução automática, bioinformática, design de medicamentos, análise de imagens médicas, ciência do clima, inspeção de materiais e programas de jogos de tabuleiro, onde produziram resultados comparáveis ​​e, em alguns casos, superando o desempenho de especialistas humanos.[2][3][4]

As primeiras formas de redes neurais foram inspiradas pelo processamento de informações e nós de comunicação distribuídos em sistemas biológicos, particularmente o cérebro humano. No entanto, as redes neurais atuais não pretendem modelar a função cerebral dos organismos e são geralmente vistas como modelos de baixa qualidade para esse propósito.[5]

Visão geral

editar

A maioria dos modelos modernos de aprendizagem profunda são baseados em redes neurais multicamadas, como redes neurais convolucionais e transformadoras, embora também possam incluir fórmulas proposicionais ou variáveis ​​latentes organizadas em camadas em modelos generativos profundos, como os nós em redes de crenças profundas e máquinas de Boltzmann profundas.[6]

Fundamentalmente, o aprendizado profundo se refere a uma classe de algoritmos de aprendizado de máquina em que uma hierarquia de camadas é usada para transformar dados de entrada em uma representação progressivamente mais abstrata e composta. Por exemplo, em um modelo de reconhecimento de imagem, a entrada bruta pode ser uma imagem (representada como um tensor de pixels). A primeira camada representacional pode tentar identificar formas básicas, como linhas e círculos, a segunda camada pode compor e codificar arranjos de bordas, a terceira camada pode codificar um nariz e olhos, e a quarta camada pode reconhecer que a imagem contém um rosto.

É importante ressaltar que um processo de aprendizado profundo pode aprender quais recursos posicionar de forma ideal em qual nível por conta própria. Antes do aprendizado profundo, as técnicas de aprendizado de máquina frequentemente envolviam engenharia de recursos feita à mão para transformar os dados em uma representação mais adequada para um algoritmo de classificação operar. Na abordagem de aprendizado profundo, os recursos não são feitos à mão e o modelo descobre representações úteis de recursos a partir dos dados automaticamente. Isso não elimina a necessidade de ajuste manual; por exemplo, números variados de camadas e tamanhos de camadas podem fornecer diferentes graus de abstração.[7][1]

A palavra "profunda" em "aprendizagem profunda" se refere ao número de camadas através das quais os dados são transformados. Mais precisamente, os sistemas de aprendizagem profunda têm uma profundidade substancial de caminho de atribuição de crédito (CAP). O caminho de atribuição de crédito é a sequência de transformações de entrada para saída. Os caminhos de atribuição de crédito descrevem conexões potencialmente causais entre entrada e saída. Para uma rede neural feedforward, a profundidade dos caminhos de atribuição de crédito é a da rede e é o número de camadas ocultas mais uma (já que a camada de saída também é parametrizada). Para redes neurais recorrentes, nas quais um sinal pode se propagar através de uma camada mais de uma vez, a profundidade do caminho de atribuição de crédito é potencialmente ilimitada.[8] Nenhum limite universalmente acordado de profundidade divide a aprendizagem superficial da aprendizagem profunda, mas a maioria dos pesquisadores concorda que a aprendizagem profunda envolve profundidade de caminho de atribuição de crédito maior que dois. O caminho de atribuição de crédito de profundidade dois demonstrou ser um aproximador universal no sentido de que pode emular qualquer função.[9] Além disso, mais camadas não aumentam a capacidade de aproximação de função da rede. Modelos profundos (caminho de atribuição de crédito maior que dois) conseguem extrair melhores características do que modelos superficiais e, portanto, camadas extras ajudam a aprender as características de forma eficaz.

Arquiteturas de aprendizado profundo podem ser construídas com um método ganancioso camada por camada.[10] O aprendizado profundo ajuda a desembaraçar essas abstrações e escolher quais recursos melhoram o desempenho.[7]

Algoritmos de aprendizado profundo podem ser aplicados a tarefas de aprendizado que não são supervisionadas. Este é um benefício importante porque dados que não são rotulados são mais abundantes do que os dados rotulados. Exemplos de estruturas profundas que podem ser treinadas de maneira que não é supervisionada são redes de crenças profundas.[7][11]

O termo aprendizado profundo foi introduzido na comunidade de aprendizado de máquina por Rina Dechter em 1986,[12] e nas redes neurais artificiais por Igor Aizenberg e colegas em 2000, no contexto de neurônios de limiar booleano.[13][14] Embora a história de seu surgimento seja aparentemente mais complicada.[15]

Interpretações

editar

Redes neurais profundas são geralmente interpretadas em termos do teorema da aproximação universal[16][17][18][19][20] ou da inferência probabilística.[21][22][7][8][23]

O teorema clássico da aproximação universal diz respeito à capacidade das redes neurais feedforward com uma única camada oculta de tamanho finito para aproximar funções contínuas.[16][17][18][19] Em 1989, a primeira prova foi publicada por George Cybenko para funções de ativação sigmoides[16] e foi generalizada para arquiteturas multicamadas feed-forward em 1991 por Kurt Hornik.[17] Trabalhos recentes também mostraram que a aproximação universal também é válida para funções de ativação que não são limitadas, como a unidade linear retificada (ReLU) de Kunihiko Fukushima.[24][25]

O teorema da aproximação universal para redes neurais profundas diz respeito à capacidade de redes com largura limitada, mas a profundidade pode crescer. Lu et al.[20] provaram que se a largura de uma rede neural profunda com ativação de unidade linear retificada (ReLU) for estritamente maior do que a dimensão de entrada, então a rede pode aproximar qualquer função integrável de Lebesgue; se a largura for menor ou igual à dimensão de entrada, então uma rede neural profunda não é um aproximador universal.

A interpretação probabilística[23] deriva do campo do aprendizado de máquina. Ela apresenta inferência,[22][6][7][8][11][23] bem como os conceitos de otimização de treinamento e teste, relacionados ao ajuste e generalização, respectivamente. Mais especificamente, a interpretação probabilística considera a não linearidade de ativação como uma função de distribuição cumulativa.[23] A interpretação probabilística levou à introdução do abandono (dropout) ou da diluição como regularizador em redes neurais. A interpretação probabilística foi introduzida por pesquisadores como Hopfield, Widrow, e Narendra e popularizada em pesquisas como a de Bishop.[26]

História

editar

Antes de 1980

editar

Existem dois tipos de redes neurais artificiais (ANNs): redes neurais feedforward (FNNs) ou perceptrons multicamadas (MLPs) e redes neurais recorrentes (RNNs). As redes neurais recorrentes têm ciclos em suas estruturas de conectividade, as redes neurais feedforward não. Na década de 1920, Wilhelm Lenz e Ernst Ising criaram o modelo de Ising[27][28] que é essencialmente uma arquitetura de rede neural recorrente que não é de aprendizagem consistindo de elementos de limiar semelhantes a neurônios. Em 1972, Shun'ichi Amari tornou essa arquitetura adaptável.[29][30] Sua rede neural recorrente de aprendizagem foi republicada por John Hopfield em 1982.[31] Outras redes neurais recorrentes anteriores foram publicadas por Kaoru Nakano em 1971.[32][33] Já em 1948, Alan Turing produziu um trabalho sobre "Maquinário Inteligente" que não foi publicado em sua vida,[34] contendo "ideias relacionadas a redes neurais recorrentes de aprendizagem e evolução artificiais".[30]

Frank Rosenblatt (1958)[35] propôs a perceptron, uma perceptron multicamadas com 3 camadas: uma camada de entrada, uma camada oculta com pesos aleatórios que não aprendiam e uma camada de saída. Mais tarde, ele publicou um livro em 1962 que também introduziu experimentos de computador e variantes, incluindo uma versão com perceptrons de quatro camadas "com redes pré-terminais adaptativas" onde as duas últimas camadas aprenderam pesos (aqui ele dá créditos a H. D. Block e B. W. Knight).[36]:secção 16 O livro cita uma rede anterior de R. D. Joseph (1960)[37] "funcionalmente equivalente a uma variação" deste sistema de quatro camadas (o livro menciona Joseph mais de 30 vezes). Joseph deve, portanto, ser considerado o criador das perceptrons multicamadas adaptativas com unidades ocultas de aprendizagem próprias? Infelizmente, o algoritmo de aprendizagem não era funcional e caiu no esquecimento.

O primeiro algoritmo de aprendizado profundo funcional foi o método de manipulação de dados de grupo, um método para treinar redes neurais profundas arbitrariamente, publicado por Alexey Ivakhnenko e Lapa em 1965. Eles o consideraram uma forma de regressão polinomial,[38] ou uma generalização da perceptron de Rosenblatt.[39] Um artigo de 1971 descreveu uma rede profunda com oito camadas treinada por este método,[40] que é baseado no treinamento de camada por camada por meio de análise de regressão. Unidades ocultas supérfluas são podadas usando um conjunto de validação separado. Como as funções de ativação dos nós são polinômios de Kolmogorov e Gabor, essas também foram as primeiras redes profundas com "portas" ou unidades multiplicativas.[30]

A primeira perceptron multicamadas de aprendizado profundo treinada por descida de gradiente estocástica[41] foi publicada em 1967 por Shun'ichi Amari.[42] Em experimentos de computador conduzidos pelo aluno de Amari, Saito, uma perceptron multicamadas de cinco camadas com duas camadas modificáveis ​​aprendeu representações internas para classificar classes de padrões que não são separáveis linearmente.[30] Desenvolvimentos subsequentes em ajustes de hiperparâmetros e hardware fizeram da descida de gradiente estocástica de ponta a ponta a técnica de treinamento dominante atualmente.

Em 1969, Kunihiko Fukushima introduziu a função de ativação de ReLU (unidade linear retificada).[24][30] A retificadora se tornou a função de ativação mais popular para aprendizado profundo.[43]

As arquiteturas de aprendizado profundo para redes neurais convolucionais (CNNs) com camadas convolucionais e camadas de redução de amostragem começaram com a Neocognitron introduzida por Kunihiko Fukushima em 1979, embora não ter sido treinada por retropropagação.[44][45]

A retropropagação é uma aplicação eficiente da regra sequencial derivada por Gottfried Wilhelm Leibniz em 1673[46] para redes de nós diferenciáveis. A terminologia "erros de retropropagação" foi realmente introduzida em 1962 por Rosenblatt,[36] mas ele não sabia como implementar isso, embora Henry J. Kelley tivesse um precursor contínuo da retropropagação em 1960 no contexto da teoria de controle.[47] A forma moderna de retropropagação foi publicada pela primeira vez na tese de mestrado de Seppo Linnainmaa (1970).[48][49][30] G.M. Ostrovski et al. republicaram em 1971.[50][51] Paul Werbos aplicou a retropropagação às redes neurais em 1982[52] (sua tese de doutorado de 1974, reimpressa em um livro de 1994,[53] ainda não descreveu o algoritmo[51]). Em 1986, David E. Rumelhart et al. popularizaram a retropropagação, mas não citaram o trabalho original.[54][55]

Redes neurais

editar
Exemplo simplificado de treinamento de uma rede neural na detecção de objetos: A rede é treinada por várias imagens que são conhecidas por representar estrelas do mar e ouriços-do-mar, que são correlacionadas com "nós" que representam características visuais. As estrelas do mar combinam com uma textura anelada e um contorno de estrela, enquanto a maioria dos ouriços-do-mar combinam com uma textura listrada e formato oval. No entanto, a instância de um ouriço-do-mar com textura anelar cria uma associação fracamente ponderada entre eles.
Execução subsequente da rede em uma imagem de entrada (esquerda):[56] A rede detecta corretamente a estrela-do-mar. No entanto, a associação fracamente ponderada entre textura anelada e ouriço-do-mar também confere um sinal fraco a este último de um dos dois nós intermediários. Além disso, uma concha que não foi incluída no treinamento fornece um sinal fraco para a forma oval, resultando também em um sinal fraco para a saída do ouriço-do-mar. Esses sinais fracos podem resultar em um resultado falso positivo para o ouriço-do-mar. Na realidade, texturas e contornos não seriam representados por nós únicos, mas sim por padrões de peso associados de vários nós.

Redes neurais artificiais (RNAs, ANNs) ou sistemas conexionistas são sistemas de computação inspirados nas redes neurais biológicas que constituem os cérebros dos animais. Tais sistemas aprendem (melhoram progressivamente sua capacidade de) fazer tarefas considerando exemplos, geralmente sem programação específica para a tarefa. Por exemplo, no reconhecimento de imagens, eles podem aprender a identificar imagens que contêm gatos analisando imagens de exemplo que foram rotuladas manualmente como "gato" ou "sem gato" e usando os resultados analíticos para identificar gatos em outras imagens. Eles encontraram mais uso em aplicações difíceis de expressar com um algoritmo de computador tradicional usando programação baseada em regras.

Uma rede neural artificial (RNA) é baseada em uma coleção de unidades conectadas chamadas neurônios artificiais (análogos aos neurônios biológicos em um cérebro biológico). Cada conexão (sinapse) entre neurônios pode transmitir um sinal para outro neurônio. O neurônio receptor (pós-sináptico) pode processar o(s) sinal(ais) e então sinalizar os neurônios a jusante conectados a ele. Os neurônios podem ter estado, geralmente representados por números reais, tipicamente entre 0 e 1. Neurônios e sinapses também podem ter um peso que varia conforme o aprendizado prossegue, o que pode aumentar ou diminuir a força do sinal que ele envia a jusante.

Normalmente, os neurônios são organizados em camadas. Camadas diferentes podem executar diferentes tipos de transformações em suas entradas. Os sinais viajam da primeira (entrada) para a última camada (saída), possivelmente após atravessar as camadas várias vezes.

O objetivo original da abordagem da rede neural era resolver problemas da mesma forma que um cérebro humano faria. Com o tempo, a atenção se concentrou em combinar habilidades mentais específicas, levando a desvios da biologia, como retropropagação ou passagem de informações na direção reversa e ajuste da rede para refletir essas informações.

As redes neurais têm sido usadas em uma variedade de tarefas, incluindo visão computacional, reconhecimento de fala, tradução automática, filtragem de redes sociais, jogos de tabuleiro e vídeo, e diagnóstico médico.

Em 2017, as redes neurais normalmente tinham alguns milhares a alguns milhões de unidades e milhões de conexões. Apesar desse número ser várias ordens de magnitude menor do que o número de neurônios em um cérebro humano, essas redes podem executar muitas tarefas em um nível além do dos humanos (por exemplo, reconhecer rostos ou jogar "Go"[57]).

Redes neurais profundas

editar

Uma rede neural profunda (DNN) é uma rede neural artificial com múltiplas camadas entre as camadas de entrada e saída.[6][8] Existem diferentes tipos de redes neurais, mas elas sempre consistem nos mesmos componentes: neurônios, sinapses, pesos, vieses e funções.[58] Esses componentes como um todo funcionam de uma forma que imita funções do cérebro humano e podem ser treinados como qualquer outro algoritmo de aprendizado de máquina.

Por exemplo, uma rede neural profunda treinada para reconhecer raças de cães examinará a imagem fornecida e calculará a probabilidade de que o cão na imagem seja de uma determinada raça. O usuário pode revisar os resultados e selecionar quais probabilidades a rede deve exibir (acima de um certo limite, etc.) e retornar o rótulo proposto. Cada manipulação matemática como tal é considerada uma camada,[59] e redes neurais profundas complexas têm muitas camadas, daí o nome redes "profundas".

As redes neurais profundas podem modelar relacionamentos que não são lineares complexos. As arquiteturas dad redes neurais profundas geram modelos composicionais onde o objeto é expresso como uma composição em camadas de primitivos.[60] As camadas extras permitem a composição de recursos de camadas inferiores, potencialmente modelando dados complexos com menos unidades do que uma rede rasa de desempenho semelhante.[6] Por exemplo, foi provado que polinômios multivariados esparsos são exponencialmente mais fáceis de aproximar com redes neurais profundas do que com redes rasas.[61]

As arquiteturas profundas incluem muitas variantes de algumas abordagens básicas. Cada arquitetura obteve sucesso em domínios específicos. Nem sempre é possível comparar o desempenho de múltiplas arquiteturas, a menos que tenham sido avaliadas nos mesmos conjuntos de dados.[59]

As redes neurais profundas são tipicamente redes feedforward nas quais os dados fluem da camada de entrada para a camada de saída sem fazer loopback. Primeiramente, a rede neural profunda cria um mapa de neurônios virtuais e atribui valores numéricos aleatórios, ou "pesos", às conexões entre eles. Os pesos e entradas são multiplicados e retornam uma saída entre 0 e 1. Se a rede não reconhecesse com precisão um padrão específico, um algoritmo ajustaria os pesos.[62] Dessa forma, o algoritmo pode tornar certos parâmetros mais influentes, até determinar a manipulação matemática correta para processar completamente os dados.

As redes neurais recorrentes, nas quais os dados podem fluir em qualquer direção, são usadas para aplicações como modelagem de linguagem.[63][64][65][66][67] A memória de curto prazo longa é particularmente eficaz para esse uso.[68][69]

As redes neurais convolucionais (CNNs) são usadas em visão computacional.[70] As redes neurais convolucionais também foram aplicadas à modelagem acústica para reconhecimento automático de fala (ASR).[71]

Desafios

editar

Assim como com redes neurais artificiais, muitos problemas podem surgir com redes neurais profundas treinadas ingenuamente. Dois problemas comuns são o ajuste excessivo e o tempo de computação.

As redes neurais profundas são propensas a ajuste excessivo por causa das camadas de abstração adicionadas, que permitem que elas modelem dependências raras nos dados de treinamento. Métodos de regularização como a poda de unidade de Ivakhnenko[40] ou o decaimento de peso (regularização de  ) ou esparsidade (regularização de  ) podem ser aplicados durante o treinamento para combater ajuste excessivo.[72] Alternativamente, a regularização de abandono omite aleatoriamente unidades das camadas ocultas durante o treinamento. Isso ajuda a excluir dependências raras.[73] Outro desenvolvimento recente interessante é a pesquisa em modelos de complexidade suficiente por meio de uma estimativa da complexidade intrínseca da tarefa que está sendo modelada. Essa abordagem foi aplicada com sucesso para tarefas de previsão de séries temporais multivariadas, como previsão de tráfego.[74] Finalmente, os dados podem ser aumentados por meio de métodos como corte e rotação, de modo que conjuntos de treinamento menores possam ser aumentados em tamanho para reduzir as chances de ajuste excessivo.[75]

As redes neurais profundas devem considerar muitos parâmetros de treinamento, como o tamanho (número de camadas e número de unidades por camada), a taxa de aprendizado e pesos iniciais. Varrer o espaço de parâmetros para parâmetros ideais pode não ser viável devido ao custo em tempo e recursos computacionais. Vários truques, como loteamento (computação do gradiente em vários exemplos de treinamento de uma vez em vez de exemplos individuais)[76] aceleram a computação. Grandes capacidades de processamento de arquiteturas de muitos núcleos (como GPUs ou o Intel Xeon Phi) produziram acelerações significativas no treinamento, devido à adequação de tais arquiteturas de processamento para as computações de matriz e vetor.[77][78]

Alternativamente, os engenheiros podem procurar outros tipos de redes neurais com algoritmos de treinamento mais diretos e convergentes. A controladora de articulação de modelo cerebelar (CMAC) é uma desses tipos de rede neural. Ela não requer taxas de aprendizado ou pesos iniciais randomizados. O processo de treinamento pode ser garantido para convergir em uma etapa com um novo lote de dados, e a complexidade computacional do algoritmo de treinamento é linear em relação ao número de neurônios envolvidos.[79][80]

Hardware

editar

Desde a década de 2010, os avanços em algoritmos de aprendizado de máquina e hardware de computador levaram a métodos mais eficientes para treinar redes neurais profundas que contêm muitas camadas de unidades ocultas que não são lineares e uma camada de saída muito grande.[81] Em 2019, unidades de processamento gráfico (GPUs), geralmente com aprimoramentos específicos de IA, substituíram as CPUs como o método dominante para treinar IA de nuvem comercial em larga escala.[82] A OpenAI estimou a computação de hardware usada nos maiores projetos de aprendizado profundo de AlexNet (2012) a AlphaZero (2017) e encontrou um aumento de 300.000 vezes na quantidade de computação necessária, com uma linha de tendência de tempo de duplicação de 3,4 meses.[83][84]

Circuitos eletrônicos especiais chamados processadores de aprendizado profundo foram projetados para acelerar algoritmos de aprendizado profundo. Os processadores de aprendizado profundo incluem unidades de processamento neural (NPUs) em celulares Huawei[85] e servidores de computação em nuvem, como unidades de processamento tensorial (TPU) na Google Cloud Platform.[86] A Cerebras Systems também construiu um sistema dedicado para lidar com grandes modelos de aprendizado profundo, o CS-2, baseado no maior processador do setor, o Wafer Scale Engine de segunda geração (WSE-2).[87][88]

Semicondutores atomicamente finos são considerados promissores para hardware de aprendizado profundo com eficiência energética, onde a mesma estrutura básica do dispositivo é usada para operações lógicas e armazenamento de dados. Em 2020, Marega et al. publicaram experimentos com um material de canal ativo de grande área para desenvolver dispositivos e circuitos lógicos na memória baseados em transistores de efeito de campo de porta flutuante (FGFETs).[89]

Em 2021, J. Feldmann et al. propuseram um acelerador de hardware fotônico integrado para processamento convolucional paralelo.[90] Os autores identificam duas vantagens principais da fotônica integrada sobre suas contrapartes eletrônicas: (1) transferência de dados massivamente paralela por meio de multiplexação por divisão de comprimento de onda em conjunto com pentes de frequência e (2) velocidades de modulação de dados extremamente altas.[90] Seu sistema pode executar trilhões de operações de multiplicação e acumulação por segundo, indicando o potencial da fotônica integrada em aplicações de IA com muitos dados.[90]

Relação com o desenvolvimento cerebral e cognitivo humano

editar

O aprendizado profundo está intimamente relacionado a uma classe de teorias de desenvolvimento cerebral (especificamente, desenvolvimento neocortical) propostas por neurocientistas cognitivos no início da década de 1990.[91][92][93][94] Essas teorias de desenvolvimento foram instanciadas em modelos computacionais, tornando-as predecessoras de sistemas de aprendizado profundo. Esses modelos de desenvolvimento compartilham a propriedade de que várias dinâmicas de aprendizado propostas no cérebro (por exemplo, uma onda de fator de crescimento nervoso) suportam a auto-organização de forma um tanto análoga às redes neurais utilizadas em modelos de aprendizado profundo. Como o neocórtex, as redes neurais empregam uma hierarquia de filtros em camadas em que cada camada considera informações de uma camada anterior (ou do ambiente operacional) e, em seguida, passa sua saída (e possivelmente a entrada original) para outras camadas. Esse processo produz uma pilha auto-organizada de transdutores, bem ajustada ao seu ambiente operacional. Uma descrição de 1995 declarou: "...o cérebro do bebê parece se organizar sob a influência de ondas dos chamados fatores tróficos... diferentes regiões do cérebro se conectam sequencialmente, com uma camada de tecido amadurecendo antes da outra e assim por diante até que todo o cérebro esteja maduro".[95]

Uma variedade de abordagens tem sido usada para investigar a plausibilidade de modelos de aprendizado profundo de uma perspectiva neurobiológica. Por um lado, várias variantes do algoritmo de retropropagação foram propostas para aumentar seu realismo de processamento.[96][97] Outros pesquisadores argumentaram que formas não supervisionadas de aprendizado profundo, como aquelas baseadas em modelos generativos hierárquicos e redes de crenças profundas, podem estar mais próximas da realidade biológica.[98][99] A esse respeito, modelos de rede neural generativa têm sido relacionados a evidências neurobiológicas sobre processamento baseado em amostragem no córtex cerebral.[100]

Embora uma comparação sistemática entre a organização do cérebro humano e a codificação neuronal em redes profundas ainda não tenha sido estabelecida, várias analogias foram relatadas. Por exemplo, as computações realizadas por unidades de aprendizado profundo podem ser semelhantes às de neurônios reais[101] e populações neurais.[102] Da mesma forma, as representações desenvolvidas por modelos de aprendizado profundo são semelhantes às medidas no sistema visual de primatas[103] tanto nos níveis de unidade única[104] quanto nos níveis de população.[105]

Atividade comercial

editar

O laboratório de IA do Facebook realiza tarefas como marcar automaticamente fotos carregadas com os nomes das pessoas nelas.[106]

A DeepMind Technologies do Google desenvolveu um sistema capaz de aprender a jogar videogames Atari usando apenas pixels como entrada de dados. Em 2015, eles demonstraram seu sistema AlphaGo, que aprendeu o jogo Go bem o suficiente para vencer um jogador profissional de Go.[107][108][109] O Google Translate usa uma rede neural para traduzir entre mais de 100 idiomas.

Em 2017, foi lançado o Covariant.ai, que se concentra na integração do aprendizado profundo em fábricas.[110]

Em 2008,[111] pesquisadores da Universidade do Texas em Austin (UT) desenvolveram uma estrutura de aprendizado de máquina chamada Treinando um Agente Manualmente via Reforço Avaliativo, ou TAMER, que propôs novos métodos para robôs ou programas de computador aprenderem a executar tarefas interagindo com um instrutor humano.[112] Desenvolvido inicialmente como TAMER, um novo algoritmo chamado Deep TAMER foi posteriormente introduzido em 2018 durante uma colaboração entre o Laboratório de Pesquisa do Exército dos EUA (ARL) e pesquisadores da UT. O Deep TAMER usou o aprendizado profundo para fornecer a um robô a capacidade de aprender novas tarefas por meio da observação.[112] Usando o Deep TAMER, um robô aprendeu uma tarefa com um treinador humano, assistindo a transmissões de vídeo ou observando um humano executar uma tarefa pessoalmente. O robô posteriormente praticou a tarefa com a ajuda de algum treinamento do treinador, que forneceu feedback como "bom trabalho" e "trabalho ruim".[113]

Críticas e comentários

editar

O aprendizado profundo atraiu críticas e comentários, em alguns casos de fora do campo da ciência da computação.

Teoria

editar

Uma crítica principal diz respeito à falta de teoria em torno de alguns métodos.[114] O aprendizado nas arquiteturas profundas mais comuns é implementado usando a descida de gradiente bem compreendida. No entanto, a teoria em torno de outros algoritmos, como a divergência contrastiva, é menos clara. (por exemplo, Converge? Se sim, quão rápido? O que está se aproximando?) Os métodos de aprendizado profundo são frequentemente vistos como uma caixa-preta, com a maioria das confirmações feitas empiricamente, em vez de teoricamente.[115]

Outros apontam que o aprendizado profundo deve ser visto como um passo em direção à realização de uma IA forte, não como uma solução abrangente. Apesar do poder dos métodos de aprendizado profundo, eles ainda carecem de grande parte da funcionalidade necessária para atingir esse objetivo inteiramente. O psicólogo pesquisador Gary Marcus observou:

Realisticamente, o aprendizado profundo é apenas parte do desafio maior de construir máquinas inteligentes. Tais técnicas carecem de maneiras de representar relações causais (...) não têm maneiras óbvias de realizar inferências lógicas, e também ainda estão muito longe de integrar conhecimento abstrato, como informações sobre o que são objetos, para que servem e como são normalmente usados. Os sistemas de I.A. mais poderosos, como o Watson (...) usam técnicas como aprendizado profundo como apenas um elemento em um conjunto muito complicado de técnicas, que vão da técnica estatística de inferência bayesiana ao raciocínio dedutivo.[116]

Em referência adicional à ideia de que a sensibilidade artística pode ser inerente a níveis relativamente baixos da hierarquia cognitiva, uma série publicada de representações gráficas dos estados internos de redes neurais profundas (20-30 camadas) tentando discernir dentro de dados essencialmente aleatórios as imagens nas quais foram treinadas[117] demonstra um apelo visual: o aviso de pesquisa original recebeu bem mais de 1.000 comentários e foi o assunto do que foi por um tempo o artigo mais acessado no site do The Guardian.[118]

Algumas arquiteturas de aprendizagem profunda apresentam comportamentos problemáticos,[119] como classificar com segurança imagens irreconhecíveis como pertencentes a uma categoria familiar de imagens comuns (2014)[120] e classificar incorretamente perturbações minúsculas de imagens classificadas corretamente (2013).[121] Goertzel levantou a hipótese de que esses comportamentos são devidos a limitações em suas representações internas e que essas limitações inibiriam a integração em arquiteturas heterogêneas de inteligência artificial geral (AGI) multicomponente.[119] Essas questões podem ser possivelmente abordadas por arquiteturas de aprendizagem profunda que formam internamente estados homólogos às decomposições de gramática de imagem[122] de entidades e eventos observados.[119] Aprender uma gramática (visual ou linguística) a partir de dados de treinamento seria equivalente a restringir o sistema ao raciocínio de senso comum que opera em conceitos em termos de regras de produção gramatical e é um objetivo básico tanto da aquisição da linguagem humana[123] quanto da inteligência artificial (IA).[124]

Ameaça cibernética

editar

À medida que o aprendizado profundo sai do laboratório para o mundo, pesquisas e experiências mostram que redes neurais artificiais são vulneráveis ​​a hacks e enganos.[125] Ao identificar os padrões que esses sistemas usam para funcionar, os invasores podem modificar entradas para as redes neurais artificiais de tal forma que a rede neural artificial encontre uma correspondência que observadores humanos não reconheceriam. Por exemplo, um invasor pode fazer mudanças sutis em uma imagem de tal forma que a rede neural artificial encontre uma correspondência, mesmo que a imagem não pareça nada com o alvo da pesquisa para um humano. Tal manipulação é denominada "ataque adversário".[126]

Em 2016, pesquisadores usaram uma rede neural artificial para manipular imagens por tentativa e erro, identificar os pontos focais de outra e, assim, gerar imagens que a enganassem. As imagens modificadas não pareciam diferentes aos olhos humanos. Outro grupo mostrou que impressões de imagens manipuladas e depois fotografadas enganaram com sucesso um sistema de classificação de imagens.[127] Uma defesa é a busca reversa de imagens, na qual uma possível imagem falsa é enviada a um site como o TinEye, que pode então encontrar outras instâncias dela. Um refinamento é pesquisar usando apenas partes da imagem, para identificar imagens das quais aquela parte pode ter sido retirada.[128]

Outro grupo mostrou que certos espetáculos psicodélicos poderiam enganar um sistema de reconhecimento facial, fazendo-o pensar que pessoas comuns eram celebridades, potencialmente permitindo que uma pessoa se passasse por outra. Em 2017, pesquisadores adicionaram adesivos a placas de pare e fizeram com que uma rede neural artificial as classificasse incorretamente.[127]

As redes neurais artificiais podem, no entanto, ser mais treinadas para detectar tentativas de engano, potencialmente levando atacantes e defensores a uma corrida armamentista semelhante ao tipo que já define a indústria de defesa contra malware. As redes neurais artificiais foram treinadas para derrotar software antimalware baseado em rede neural artificial, atacando repetidamente uma defesa com malware que foi continuamente alterado por um algoritmo genético até enganar o antimalware, mantendo sua capacidade de danificar o alvo.[127]

Em 2016, outro grupo demonstrou que certos sons poderiam fazer o sistema de comando de voz do Google Now abrir um endereço da web específico e levantou a hipótese de que isso poderia "servir como um trampolim para novos ataques (por exemplo, abrir uma página da web que hospeda malware drive-by)".[127]

No "envenenamento de dados", dados falsos são continuamente contrabandeados para o conjunto de treinamento de um sistema de aprendizado de máquina para evitar que ele alcance a maestria.[127]

Ética na coleta de dados

editar

Os sistemas de aprendizagem profunda que são treinados usando aprendizagem supervisionada geralmente dependem de dados criados e/ou anotados por humanos.[129] Foi argumentado que não apenas o trabalho de clique mal pago (como no Amazon Mechanical Turk) é regularmente implantado para esse propósito, mas também formas implícitas de microtrabalho humano que muitas vezes não são reconhecidas como tal.[130] O filósofo Rainer Mühlhoff distingue cinco tipos de "captura maquínica" do microtrabalho humano para gerar dados de treinamento: (1) gamificação (a incorporação de tarefas de anotação ou computação no fluxo de um jogo), (2) "captura e rastreamento" (por exemplo, CAPTCHAs para reconhecimento de imagem ou rastreamento de cliques nas páginas de resultados de pesquisas do Google), (3) exploração de motivações sociais (por exemplo, marcar rostos no Facebook para obter imagens faciais rotuladas), (4) mineração de informações (por exemplo, alavancando dispositivos de autoquantificação, como rastreadores de atividade) e (5) trabalho de clique.[130]

Ver também

editar

Referências

  1. a b LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). «Deep Learning» (PDF). Nature. 521 (7553): 436–444. Bibcode:2015Natur.521..436L. PMID 26017442. doi:10.1038/nature14539 
  2. Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). «Multi-column deep neural networks for image classification». 2012 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.: s.n.] pp. 3642–3649. ISBN 978-1-4673-1228-8. arXiv:1202.2745 . doi:10.1109/cvpr.2012.6248110 
  3. Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey (2012). «ImageNet Classification with Deep Convolutional Neural Networks» (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. Consultado em 24 de maio de 2017. Cópia arquivada (PDF) em 10 de janeiro de 2017 
  4. «Google's AlphaGo AI wins three-match series against the world's best Go player». TechCrunch. 25 de maio de 2017. Consultado em 17 de junho de 2018. Cópia arquivada em 17 de junho de 2018 
  5. «Study urges caution when comparing neural networks to the brain». MIT News | Massachusetts Institute of Technology (em inglês). 2 de novembro de 2022. Consultado em 6 de dezembro de 2023 
  6. a b c d Bengio, Yoshua (2009). «Learning Deep Architectures for AI» (PDF). Foundations and Trends in Machine Learning. 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . doi:10.1561/2200000006. Consultado em 3 de setembro de 2015. Arquivado do original (PDF) em 4 de março de 2016 
  7. a b c d e Bengio, Y.; Courville, A.; Vincent, P. (2013). «Representation Learning: A Review and New Perspectives». IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. PMID 23787338. arXiv:1206.5538 . doi:10.1109/tpami.2013.50 
  8. a b c d Schmidhuber, J. (2015). «Deep Learning in Neural Networks: An Overview». Neural Networks. 61: 85–117. PMID 25462637. arXiv:1404.7828 . doi:10.1016/j.neunet.2014.09.003 
  9. Shigeki, Sugiyama (12 de abril de 2019). Human Behavior and Another Kind in Consciousness: Emerging Research and Opportunities: Emerging Research and Opportunities (em inglês). [S.l.]: IGI Global. ISBN 978-1-5225-8218-2 
  10. Bengio, Yoshua; Lamblin, Pascal; Popovici, Dan; Larochelle, Hugo (2007). Greedy layer-wise training of deep networks (PDF). Advances in neural information processing systems. pp. 153–160. Consultado em 6 de outubro de 2019. Cópia arquivada (PDF) em 20 de outubro de 2019 
  11. a b Hinton, G.E. (2009). «Deep belief networks». Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947  
  12. Rina Dechter (1986). Learning while searching in constraint-satisfaction problems (em inglês). University of California, Computer Science Department, Cognitive Systems Laboratory.Online Arquivado em 2016-04-19 no Wayback Machine
  13. Aizenberg, I.N.; Aizenberg, N.N.; Vandewalle, J. (2000). Multi-Valued and Universal Binary Neurons. [S.l.]: Science & Business Media. ISBN 978-0-7923-7824-2. doi:10.1007/978-1-4757-3115-6. Consultado em 27 de dezembro de 2023 
  14. Co-evolving recurrent neurons learn deep memory POMDPs (em inglês). Proc. GECCO, Washington, D. C., pp. 1795–1802, ACM Press, New York, NY, USA, 2005.
  15. Fradkov, Alexander L. (1 de janeiro de 2020). «Early History of Machine Learning». IFAC-PapersOnLine. 21st IFAC World Congress. 53 (2): 1385–1390. ISSN 2405-8963. doi:10.1016/j.ifacol.2020.12.1888  
  16. a b c Cybenko (1989). «Approximations by superpositions of sigmoidal functions» (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303–314. Bibcode:1989MCSS....2..303C. doi:10.1007/bf02551274. Arquivado do original (PDF) em 10 de outubro de 2015 
  17. a b c Hornik, Kurt (1991). «Approximation Capabilities of Multilayer Feedforward Networks». Neural Networks. 4 (2): 251–257. doi:10.1016/0893-6080(91)90009-t 
  18. a b Haykin, Simon S. (1999). Neural Networks: A Comprehensive Foundation. [S.l.]: Prentice Hall. ISBN 978-0-13-273350-2 
  19. a b Hassoun, Mohamad H. (1995). Fundamentals of Artificial Neural Networks. [S.l.]: MIT Press. p. 48. ISBN 978-0-262-08239-6 
  20. a b Lu, Z., Pu, H., Wang, F., Hu, Z., & Wang, L. (2017). The Expressive Power of Neural Networks: A View from the Width (em inglês) Arquivado em 2019-02-13 no Wayback Machine. Neural Information Processing Systems, 6231-6239.
  21. Orhan, A. E.; Ma, W. J. (2017). «Efficient probabilistic inference in generic neural networks trained with non-probabilistic feedback». Nature Communications. 8 (1). 138 páginas. Bibcode:2017NatCo...8..138O. PMC 5527101 . PMID 28743932. doi:10.1038/s41467-017-00181-8  
  22. a b Deng, L.; Yu, D. (2014). «Deep Learning: Methods and Applications» (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1–199. doi:10.1561/2000000039. Consultado em 18 de outubro de 2014. Cópia arquivada (PDF) em 14 de março de 2016 
  23. a b c d Murphy, Kevin P. (24 de agosto de 2012). Machine Learning: A Probabilistic Perspective. [S.l.]: MIT Press. ISBN 978-0-262-01802-9 
  24. a b Fukushima, K. (1969). «Visual feature extraction by a multilayered network of analog threshold elements». IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322–333. doi:10.1109/TSSC.1969.300225 
  25. Sonoda, Sho; Murata, Noboru (2017). «Neural network with unbounded activation functions is universal approximator». Applied and Computational Harmonic Analysis. 43 (2): 233–268. arXiv:1505.03654 . doi:10.1016/j.acha.2015.12.005 
  26. Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF). [S.l.]: Springer. ISBN 978-0-387-31073-2. Consultado em 6 de agosto de 2017. Cópia arquivada (PDF) em 11 de janeiro de 2017 
  27. «bibliotheca Augustana». www.hs-augsburg.de 
  28. Brush, Stephen G. (1967). «History of the Lenz-Ising Model». Reviews of Modern Physics. 39 (4): 883–893. Bibcode:1967RvMP...39..883B. doi:10.1103/RevModPhys.39.883 
  29. Amari, Shun-Ichi (1972). «Learning patterns and pattern sequences by self-organizing nets of threshold elements». IEEE Transactions. C (21): 1197–1206 
  30. a b c d e f Schmidhuber, Jürgen (2022). «Annotated History of Modern AI and Deep Learning». arXiv:2212.11279  [cs.NE] 
  31. Hopfield, J. J. (1982). «Neural networks and physical systems with emergent collective computational abilities». Proceedings of the National Academy of Sciences. 79 (8): 2554–2558. Bibcode:1982PNAS...79.2554H. PMC 346238 . PMID 6953413. doi:10.1073/pnas.79.8.2554  
  32. Nakano, Kaoru (1971). «Learning Process in a Model of Associative Memory». Pattern Recognition and Machine Learning. [S.l.: s.n.] pp. 172–186. ISBN 978-1-4615-7568-9. doi:10.1007/978-1-4615-7566-5_15 
  33. Nakano, Kaoru (1972). «Associatron-A Model of Associative Memory». IEEE Transactions on Systems, Man, and Cybernetics. SMC-2 (3): 380–388. doi:10.1109/TSMC.1972.4309133 
  34. Turing, Alan (1948). «Intelligent Machinery». Unpublished (Later Published in Ince DC, Editor, Collected Works of AM Turing—Mechanical Intelligence, Elsevier Science Publishers, 1992) 
  35. Rosenblatt, F. (1958). «The perceptron: A probabilistic model for information storage and organization in the brain.». Psychological Review (em inglês). 65 (6): 386–408. ISSN 1939-1471. PMID 13602029. doi:10.1037/h0042519 
  36. a b Rosenblatt, Frank (1962). Principles of Neurodynamics. [S.l.]: Spartan, New York 
  37. Joseph, R. D. (1960). Contributions to Perceptron Theory, Cornell Aeronautical Laboratory Report No. VG-11 96--G-7, Buffalo. [S.l.: s.n.] 
  38. Ivakhnenko, A. G.; Lapa, V. G. (1967). Cybernetics and Forecasting Techniques. [S.l.]: American Elsevier Publishing Co. ISBN 978-0-444-00020-0 
  39. Ivakhnenko, A.G. (março de 1970). «Heuristic self-organization in problems of engineering cybernetics». Automatica (em inglês). 6 (2): 207–219. doi:10.1016/0005-1098(70)90092-0 
  40. a b Ivakhnenko, Alexey (1971). «Polynomial theory of complex systems» (PDF). IEEE Transactions on Systems, Man, and Cybernetics. SMC-1 (4): 364–378. doi:10.1109/TSMC.1971.4308320. Consultado em 5 de novembro de 2019. Cópia arquivada (PDF) em 29 de agosto de 2017 
  41. Robbins, H.; Monro, S. (1951). «A Stochastic Approximation Method». The Annals of Mathematical Statistics. 22 (3). 400 páginas. doi:10.1214/aoms/1177729586  
  42. Amari, Shun'ichi (1967). «A theory of adaptive pattern classifier». IEEE Transactions. EC (16): 279–307 
  43. Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 de outubro de 2017). «Searching for Activation Functions». arXiv:1710.05941  [cs.NE] 
  44. Fukushima, K. (1979). «Neural network model for a mechanism of pattern recognition unaffected by shift in position—Neocognitron». Trans. IECE (em japonês). J62-A (10): 658–665. PMID 7370364. doi:10.1007/bf00344251 
  45. Fukushima, K. (1980). «Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position». Biol. Cybern. 36 (4): 193–202. PMID 7370364. doi:10.1007/bf00344251 
  46. Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir) (em inglês). [S.l.]: Open court publishing Company. ISBN 9780598818461 
  47. Kelley, Henry J. (1960). «Gradient theory of optimal flight paths». ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282 
  48. Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (em finlandês). University of Helsinki. p. 6–7 
  49. Linnainmaa, Seppo (1976). «Taylor expansion of the accumulated rounding error». BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367 
  50. Ostrovski, G.M., Volin,Y.M., and Boris, W.W. (1971). On the computation of derivatives (em inglês). Wiss. Z. Tech. Hochschule for Chemistry, 13:382–384.
  51. a b Schmidhuber, Juergen (25 de outubro de 2014). «Who Invented Backpropagation?». IDSIA, Switzerland. Consultado em 14 de setembro de 2024. Cópia arquivada em 30 de julho de 2024 
  52. Werbos, Paul (1982). «Applications of advances in nonlinear sensitivity analysis» (PDF). System modeling and optimization. [S.l.]: Springer. pp. 762–770. Consultado em 2 de julho de 2017. Cópia arquivada (PDF) em 14 de abril de 2016 
  53. Werbos, Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons. ISBN 0-471-59897-6 
  54. Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (outubro de 1986). «Learning representations by back-propagating errors». Nature (em inglês). 323 (6088): 533–536. Bibcode:1986Natur.323..533R. ISSN 1476-4687. doi:10.1038/323533a0 
  55. Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation (em inglês ) Arquivado em 2022-10-13 no Wayback Machine". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition (em inglês), Volume 1: Foundation. MIT Press, 1986.
  56. Ferrie, C., & Kaiser, S. (2019). Neural Networks for Babies. [S.l.]: Sourcebooks. ISBN 978-1492671206 
  57. Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (janeiro de 2016). «Mastering the game of Go with deep neural networks and tree search». Nature. 529 (7587): 484–489. Bibcode:2016Natur.529..484S. ISSN 1476-4687. PMID 26819042. doi:10.1038/nature16961 
  58. A Guide to Deep Learning and Neural Networks, consultado em 16 de novembro de 2020, cópia arquivada em 2 de novembro de 2020 
  59. a b Kumar, Nishant; Raubal, Martin (2021). «Applications of deep learning in congestion detection, prediction and alleviation: A survey». Transportation Research Part C: Emerging Technologies. 133. 103432 páginas. Bibcode:2021TRPC..13303432K. arXiv:2102.09759 . doi:10.1016/j.trc.2021.103432 . hdl:10230/42143  
  60. Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). «Deep neural networks for object detection». Advances in Neural Information Processing Systems: 2553–2561. Consultado em 13 de junho de 2017. Cópia arquivada em 29 de junho de 2017 
  61. Rolnick, David; Tegmark, Max (2018). «The power of deeper networks for expressing natural functions». International Conference on Learning Representations. ICLR 2018. Consultado em 5 de janeiro de 2021. Cópia arquivada em 7 de janeiro de 2021 
  62. Hof, Robert D. «Is Artificial Intelligence Finally Coming into Its Own?». MIT Technology Review. Consultado em 10 de julho de 2018. Cópia arquivada em 31 de março de 2019 
  63. Gers, Felix A.; Schmidhuber, Jürgen (2001). «LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages». IEEE Transactions on Neural Networks. 12 (6): 1333–1340. PMID 18249962. doi:10.1109/72.963769. Consultado em 25 de fevereiro de 2020. Cópia arquivada em 26 de janeiro de 2020 
  64. Sutskever, L.; Vinyals, O.; Le, Q. (2014). «Sequence to Sequence Learning with Neural Networks» (PDF). Proc. NIPS. Bibcode:2014arXiv1409.3215S. arXiv:1409.3215 . Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 9 de maio de 2021 
  65. Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). «Exploring the Limits of Language Modeling». arXiv:1602.02410  [cs.CL] 
  66. Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015). «Multilingual Language Processing from Bytes». arXiv:1512.00103  [cs.CL] 
  67. Mikolov, T.; et al. (2010). «Recurrent neural network based language model» (PDF). Interspeech: 1045–1048. doi:10.21437/Interspeech.2010-343. Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 16 de maio de 2017 
  68. Hochreiter, Sepp; Schmidhuber, Jürgen (1 de novembro de 1997). «Long Short-Term Memory». Neural Computation. 9 (8): 1735–1780. ISSN 0899-7667. PMID 9377276. doi:10.1162/neco.1997.9.8.1735 
  69. «Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)». ResearchGate. Consultado em 13 de junho de 2017. Cópia arquivada em 9 de maio de 2021 
  70. LeCun, Y.; et al. (1998). «Gradient-based learning applied to document recognition». Proceedings of the IEEE. 86 (11): 2278–2324. doi:10.1109/5.726791 
  71. Sainath, Tara N.; Mohamed, Abdel-Rahman; Kingsbury, Brian; Ramabhadran, Bhuvana (2013). «Deep convolutional neural networks for LVCSR». 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.: s.n.] pp. 8614–8618. ISBN 978-1-4799-0356-6. doi:10.1109/icassp.2013.6639347 
  72. Bengio, Yoshua; Boulanger-Lewandowski, Nicolas; Pascanu, Razvan (2013). «Advances in optimizing recurrent networks». 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. [S.l.: s.n.] pp. 8624–8628. CiteSeerX 10.1.1.752.9151 . ISBN 978-1-4799-0356-6. arXiv:1212.0901 . doi:10.1109/icassp.2013.6639349 
  73. Dahl, G.; et al. (2013). «Improving DNNs for LVCSR using rectified linear units and dropout» (PDF). ICASSP. Consultado em 13 de junho de 2017. Cópia arquivada (PDF) em 12 de agosto de 2017 
  74. Kumar, Nishant; Martin, Henry; Raubal, Martin (2024). «Enhancing Deep Learning-Based City-Wide Traffic Prediction Pipelines Through Complexity Analysis». Data Science for Transportation. 6 (3): Article 24. doi:10.1007/s42421-024-00109-x . hdl:20.500.11850/695425  
  75. «Data Augmentation - deeplearning.ai | Coursera». Coursera. Consultado em 30 de novembro de 2017. Cópia arquivada em 1 de dezembro de 2017 
  76. Hinton, G. E. (2010). «A Practical Guide to Training Restricted Boltzmann Machines». Tech. Rep. UTML TR 2010-003. Consultado em 13 de junho de 2017. Cópia arquivada em 9 de maio de 2021 
  77. You, Yang; Buluç, Aydın; Demmel, James (novembro de 2017). «Scaling deep learning on GPU and knights landing clusters». Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis on - SC '17. [S.l.]: SC '17, ACM. pp. 1–12. ISBN 9781450351140. doi:10.1145/3126908.3126912. Consultado em 5 de março de 2018. Cópia arquivada em 29 de julho de 2020 
  78. Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). «CHAOS: a parallelization scheme for training convolutional neural networks on Intel Xeon Phi». The Journal of Supercomputing. 75: 197–227. Bibcode:2017arXiv170207908V. arXiv:1702.07908 . doi:10.1007/s11227-017-1994-x 
  79. Ting Qin, et al. "A learning algorithm of CMAC based on RLS" (em inglês). Neural Processing Letters 19.1 (2004): 49-61.
  80. Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array" (em inglês). Arquivado em 2018-11-18 no Wayback Machine. Neural Processing Letters 22.1 (2005): 1-16.
  81. Research, AI (23 de outubro de 2015). «Deep Neural Networks for Acoustic Modeling in Speech Recognition». airesearch.com. Consultado em 23 de outubro de 2015. Cópia arquivada em 1 de fevereiro de 2016 
  82. «GPUs Continue to Dominate the AI Accelerator Market for Now». InformationWeek (em inglês). Dezembro de 2019. Consultado em 11 de junho de 2020. Cópia arquivada em 10 de junho de 2020 
  83. Ray, Tiernan (2019). «AI is changing the entire nature of computation». ZDNet (em inglês). Consultado em 11 de junho de 2020. Cópia arquivada em 25 de maio de 2020 
  84. «AI and Compute». OpenAI (em inglês). 16 de maio de 2018. Consultado em 11 de junho de 2020. Cópia arquivada em 17 de junho de 2020 
  85. «HUAWEI Reveals the Future of Mobile AI at IFA 2017 | HUAWEI Latest News | HUAWEI Global». consumer.huawei.com 
  86. P, JouppiNorman; YoungCliff; PatilNishant; PattersonDavid; AgrawalGaurav; BajwaRaminder; BatesSarah; BhatiaSuresh; BodenNan; BorchersAl; BoyleRick (24 de junho de 2017). «In-Datacenter Performance Analysis of a Tensor Processing Unit». ACM SIGARCH Computer Architecture News (em inglês). 45 (2): 1–12. arXiv:1704.04760 . doi:10.1145/3140659.3080246  
  87. Woodie, Alex (1 de novembro de 2021). «Cerebras Hits the Accelerator for Deep Learning Workloads». Datanami. Consultado em 3 de agosto de 2022 
  88. «Cerebras launches new AI supercomputing processor with 2.6 trillion transistors». VentureBeat (em inglês). 20 de abril de 2021. Consultado em 3 de agosto de 2022 
  89. Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). «Logic-in-memory based on an atomically thin semiconductor». Nature. 587 (2): 72–77. Bibcode:2020Natur.587...72M. PMC 7116757 . PMID 33149289. doi:10.1038/s41586-020-2861-0 
  90. a b c Feldmann, J.; Youngblood, N.; Karpov, M.; et al. (2021). «Parallel convolutional processing using an integrated photonic tensor». Nature. 589 (2): 52–58. PMID 33408373. arXiv:2002.00281 . doi:10.1038/s41586-020-03070-1 
  91. Utgoff, P. E.; Stracuzzi, D. J. (2002). «Many-layered learning». Neural Computation. 14 (10): 2497–2529. PMID 12396572. doi:10.1162/08997660260293319 
  92. Elman, Jeffrey L. (1998). Rethinking Innateness: A Connectionist Perspective on Development. [S.l.]: MIT Press. ISBN 978-0-262-55030-7 
  93. Shrager, J.; Johnson, MH (1996). «Dynamic plasticity influences the emergence of function in a simple cortical array». Neural Networks. 9 (7): 1119–1129. PMID 12662587. doi:10.1016/0893-6080(96)00033-0 
  94. Quartz, SR; Sejnowski, TJ (1997). «The neural basis of cognitive development: A constructivist manifesto». Behavioral and Brain Sciences. 20 (4): 537–556. CiteSeerX 10.1.1.41.7854 . PMID 10097006. doi:10.1017/s0140525x97001581 
  95. S. Blakeslee, "In brain's early growth, timetable may be critical" (em inglês), The New York Times, Science Section, pp. B5–B6, 1995.
  96. Mazzoni, P.; Andersen, R. A.; Jordan, M. I. (15 de maio de 1991). «A more biologically plausible learning rule for neural networks.». Proceedings of the National Academy of Sciences. 88 (10): 4433–4437. Bibcode:1991PNAS...88.4433M. ISSN 0027-8424. PMC 51674 . PMID 1903542. doi:10.1073/pnas.88.10.4433  
  97. O'Reilly, Randall C. (1 de julho de 1996). «Biologically Plausible Error-Driven Learning Using Local Activation Differences: The Generalized Recirculation Algorithm». Neural Computation. 8 (5): 895–938. ISSN 0899-7667. doi:10.1162/neco.1996.8.5.895 
  98. Testolin, Alberto; Zorzi, Marco (2016). «Probabilistic Models and Generative Neural Networks: Towards an Unified Framework for Modeling Normal and Impaired Neurocognitive Functions». Frontiers in Computational Neuroscience. 10. 73 páginas. ISSN 1662-5188. PMC 4943066 . PMID 27468262. doi:10.3389/fncom.2016.00073  
  99. Testolin, Alberto; Stoianov, Ivilin; Zorzi, Marco (setembro de 2017). «Letter perception emerges from unsupervised deep learning and recycling of natural image features». Nature Human Behaviour. 1 (9): 657–664. ISSN 2397-3374. PMID 31024135. doi:10.1038/s41562-017-0186-2 
  100. Buesing, Lars; Bill, Johannes; Nessler, Bernhard; Maass, Wolfgang (3 de novembro de 2011). «Neural Dynamics as Sampling: A Model for Stochastic Computation in Recurrent Networks of Spiking Neurons». PLOS Computational Biology. 7 (11): e1002211. Bibcode:2011PLSCB...7E2211B. ISSN 1553-7358. PMC 3207943 . PMID 22096452. doi:10.1371/journal.pcbi.1002211  
  101. Cash, S.; Yuste, R. (fevereiro de 1999). «Linear summation of excitatory inputs by CA1 pyramidal neurons». Neuron. 22 (2): 383–394. ISSN 0896-6273. PMID 10069343. doi:10.1016/s0896-6273(00)81098-3  
  102. Olshausen, B; Field, D (1 de agosto de 2004). «Sparse coding of sensory inputs». Current Opinion in Neurobiology. 14 (4): 481–487. ISSN 0959-4388. PMID 15321069. doi:10.1016/j.conb.2004.07.007 
  103. Yamins, Daniel L K; DiCarlo, James J (março de 2016). «Using goal-driven deep learning models to understand sensory cortex». Nature Neuroscience. 19 (3): 356–365. ISSN 1546-1726. PMID 26906502. doi:10.1038/nn.4244 
  104. Zorzi, Marco; Testolin, Alberto (19 de fevereiro de 2018). «An emergentist perspective on the origin of number sense». Phil. Trans. R. Soc. B. 373 (1740). 20170043 páginas. ISSN 0962-8436. PMC 5784047 . PMID 29292348. doi:10.1098/rstb.2017.0043 
  105. Güçlü, Umut; van Gerven, Marcel A. J. (8 de julho de 2015). «Deep Neural Networks Reveal a Gradient in the Complexity of Neural Representations across the Ventral Stream». Journal of Neuroscience. 35 (27): 10005–10014. PMC 6605414 . PMID 26157000. arXiv:1411.6422 . doi:10.1523/jneurosci.5023-14.2015 
  106. Metz, C. (12 de dezembro de 2013). «Facebook's 'Deep Learning' Guru Reveals the Future of AI». Wired. Consultado em 26 de agosto de 2017. Cópia arquivada em 28 de março de 2014 
  107. Gibney, Elizabeth (2016). «Google AI algorithm masters ancient game of Go». Nature. 529 (7587): 445–446. Bibcode:2016Natur.529..445G. PMID 26819021. doi:10.1038/529445a  
  108. Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, John; Kalchbrenner, Nal; Sutskever, Ilya; Lillicrap, Timothy; Leach, Madeleine; Kavukcuoglu, Koray; Graepel, Thore; Hassabis, Demis (28 de janeiro de 2016). «Mastering the game of Go with deep neural networks and tree search». Nature. 529 (7587): 484–489. Bibcode:2016Natur.529..484S. ISSN 0028-0836. PMID 26819042. doi:10.1038/nature16961  
  109. «A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go | MIT Technology Review». MIT Technology Review. Consultado em 30 de janeiro de 2016. Arquivado do original em 1 de fevereiro de 2016 
  110. Metz, Cade (6 de novembro de 2017). «A.I. Researchers Leave Elon Musk Lab to Begin Robotics Start-Up». The New York Times. Consultado em 5 de julho de 2019. Cópia arquivada em 7 de julho de 2019 
  111. Bradley Knox, W.; Stone, Peter (2008). «TAMER: Training an Agent Manually via Evaluative Reinforcement». 2008 7th IEEE International Conference on Development and Learning. [S.l.: s.n.] pp. 292–297. ISBN 978-1-4244-2661-4. doi:10.1109/devlrn.2008.4640845 
  112. a b «Army researchers develop new algorithms to train robots». EurekAlert!. Consultado em 29 de agosto de 2018. Cópia arquivada em 28 de agosto de 2018 
  113. «Talk to the Algorithms: AI Becomes a Faster Learner». governmentciomedia.com (em inglês). 16 de maio de 2018. Consultado em 29 de agosto de 2018. Cópia arquivada em 28 de agosto de 2018 
  114. Marcus, Gary (14 de janeiro de 2018). «In defense of skepticism about deep learning». Gary Marcus. Consultado em 11 de outubro de 2018. Cópia arquivada em 12 de outubro de 2018 
  115. Knight, Will (14 de março de 2017). «DARPA is funding projects that will try to open up AI's black boxes». MIT Technology Review. Consultado em 2 de novembro de 2017. Cópia arquivada em 4 de novembro de 2019 
  116. Marcus, Gary (25 de novembro de 2012). «Is "Deep Learning" a Revolution in Artificial Intelligence?». The New Yorker. Consultado em 14 de junho de 2017. Cópia arquivada em 27 de novembro de 2009 
  117. Alexander Mordvintsev; Christopher Olah; Mike Tyka (17 de junho de 2015). «Inceptionism: Going Deeper into Neural Networks». Google Research Blog. Consultado em 20 de junho de 2015. Cópia arquivada em 3 de julho de 2015 
  118. Alex Hern (18 de junho de 2015). «Yes, androids do dream of electric sheep». The Guardian. Consultado em 20 de junho de 2015. Cópia arquivada em 19 de junho de 2015 
  119. a b c Goertzel, Ben (2015). «Are there Deep Reasons Underlying the Pathologies of Today's Deep Learning Algorithms?» (PDF). Consultado em 10 de maio de 2015. Cópia arquivada (PDF) em 13 de maio de 2015 
  120. Nguyen, Anh; Yosinski, Jason; Clune, Jeff (2014). «Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images». arXiv:1412.1897  [cs.CV] 
  121. Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2013). «Intriguing properties of neural networks». arXiv:1312.6199  [cs.CV] 
  122. Zhu, S.C.; Mumford, D. (2006). «A stochastic grammar of images». Found. Trends Comput. Graph. Vis. 2 (4): 259–362. CiteSeerX 10.1.1.681.2190 . doi:10.1561/0600000018 
  123. Miller, G. A., and N. Chomsky. "Pattern conception" (em inglês). Paper for Conference on pattern detection, University of Michigan. 1957.
  124. Eisner, Jason. «Deep Learning of Recursive Structure: Grammar Induction». Consultado em 10 de maio de 2015. Arquivado do original em 30 de dezembro de 2017 
  125. «Hackers Have Already Started to Weaponize Artificial Intelligence». Gizmodo. 11 de setembro de 2017. Consultado em 11 de outubro de 2019. Cópia arquivada em 11 de outubro de 2019 
  126. «How hackers can force AI to make dumb mistakes». The Daily Dot (em inglês). 18 de junho de 2018. Consultado em 11 de outubro de 2019. Cópia arquivada em 11 de outubro de 2019 
  127. a b c d e «AI Is Easy to Fool—Why That Needs to Change». Singularity Hub. 10 de outubro de 2017. Consultado em 11 de outubro de 2017. Cópia arquivada em 11 de outubro de 2017 
  128. Gibney, Elizabeth (2017). «The scientist who spots fake videos». Nature. doi:10.1038/nature.2017.22784. Consultado em 11 de outubro de 2017. Cópia arquivada em 10 de outubro de 2017 
  129. Tubaro, Paola (2020). «Whose intelligence is artificial intelligence?». Global Dialogue (em inglês): 38–39 
  130. a b Mühlhoff, Rainer (6 de novembro de 2019). «Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning». New Media & Society (em inglês). 22 (10): 1868–1884. ISSN 1461-4448. doi:10.1177/1461444819885334  

Leitura adicional

editar
  翻译: