Volume 14 - 2009 Editores: Giovanni Torello e Walmor J. Piccinini |
Dezembro de 2009 - Vol.14 - Nº 12 COLUNA PSIQUIATRIA CONTEMPORÂNEA INTRODUÇÃO AO CONEXIONISMO Fernando Portela Câmara O conexionismo é uma vertente da ciência cognitiva que parte do modelo de redes neurais artificiais (ou simplesmente “redes neurais”) para explicar as funções cognitivas humanas. Redes neurais são processadores que simulam neurônios, interligadas por conexões que modulam o sinal transmitido na rede. As conexões emulam as sinapses e suas forças. Tais redes têm a capacidade de aprender a reconhecer padrões tais como faces, textos, objetos e estrutura de dados, portanto, não funcionam por programação, mas por aprendizagem ou autoprogramação. A informação armazena-se de forma distribuída nas sinapses da rede, formando um padrão, e a ativação desta por inputs completos ou parciais faz emergir desta distribuição a informação procurada. Sendo o fundamento do cognitivismo baseado na aprendizagem mediada por sinapses distribuídas em rede, criou-se o termo conexionismo para caracterizar este marco conceitual. Na psiquiatria, o conexionismo fundamenta um novo pensamento em psicopatologia, servindo de substrato a modelos éticos que possibilitam inferir positivamente na função mental, ante a impossibilidade de experimentar in vivo em humanos (Câmara, 2006). A figura 1 ilustra uma rede neural artificial típica, com uma camada de neurônios de entrada (input), que recebem a informação a ser processada; uma camada de neurônios de saída (output), que fornece a resposta da informação processada; e os neurônios encobertos ou ocultos, que formam uma ou mais camadas entre aquelas (Câmara, 2004). Figura 1. Modelo básico de uma rede neural tipo feedforward. As unidades de processamento (neurônios artificiais) formam camadas, e o fluxo do processamento se dá unicamente na direção: camada de entrada à camada(s) encoberta(s) à camada de saída. Os sinais são modulados por pesos (Wij) entre as conexões i e j que multiplicam a ativação do neurônio i que se dirige ao seguinte, j. Ao ser estimulada externamente, cada unidade de entrada emite um valor de ativação a cada uma das unidades das camadas encobertas à qual está conectada. Cada uma das unidades encoberta calcula seu próprio valor da ativação, dependendo dos valores de ativação recebido das unidades de entrada. Este sinal é então transferido para outras camadas encobertas (se houver) e daí para as unidades de saída, de modo que o sinal das unidades de entrada propaga-se por completo na rede, determinando os valores de ativação em todas as unidades de saída. Redes neurais e aprendizagem A ativação do conjunto da rede é ajustada por “pesos” reguláveis, que representam a força das conexões entre as unidades. Quando a rede aprende uma determinada solução, ela armazena estavelmente o padrão de distribuição de pesos associado àquela resposta, ou seja, ela cria uma memória. A partir daí, a rede identificará o objeto para a qual foi treinada bastando apresentar-lhe uma parte deste (memória associativa). A memória de uma rede, portanto, não está localizada, mas distribuída. Além disso, ela não processa uma informação de modo sequencial (como os computadores comuns), mas paralelamente, pois o sinal se distribui em rede, daí porque este tipo de processamento é chamado de processamento paralelo distribuído. Percebe-se de imediato uma da vantagens do processamento paralelo é que se parte da rede for destruída, não se perde informação significativa, pois o fluxo de processamento não é interrompido totalmente, como ocorre no processamento serial. Os pesos são valores que multiplicam a ativação de uma conexão e podem ser positivos ou negativos. Maior o valor absoluto de um peso, mais fortemente excitatória ou inibitória será a conexão, se os pesos forem positivos ou negativos, respectivamente. O valor da ativação de cada unidade receptora é calculado de acordo com uma função de ativação simples. A função de ativação de cada unidade soma as contribuições recebidas de todas as unidades emissoras, sendo a contribuição de cada unidade emissora definida como o respectivo valor de ativação multiplicado pelo peso da conexão entre ela e a unidade receptora (Figura 2).
Figura 2. Função de ativação do neurônio i (ai), recebendo inputs de três neurônios, cada qual com um sinal definido pelo peso (w) das conexões respectivas pela ativação correspondente (x). A função de ativação integra estes sinais e compara a um valor que determinará o disparo do neurônio receptor, produzindo ou não um output (sinal de saída) y.
Se o neurônio é do tipo tudo-ou-nada, isto é, de ativação binária, esta soma é modificada posteriormente de acordo com a função de Heaviside: - Se a ≥ 1, dispara um sinal de saída, y - Se 0 ≤ a < 1, não dispara (não há sinal de saída) Os conexionistas presumem que as bases do funcionamento cognitivo podem ser explicadas por tais redes. Supondo-se que todas as unidades possuem a mesma função de ativação simples, a cognição humana dependeria primariamente da modulação dos pesos das conexões. Em outras palavras, da facilitação de sinapses em redes cerebrais formando padrões de distribuição. Para que uma rede aprenda a executar uma dada tarefa é necessário ajustar todos os pesos adequadamente. Isto não é uma coisa fácil e para tal existem algoritmos de aprendizagem que ajustam os pesos gradualmente até chegar ao conjunto correto. O algoritmo mais utilizado para tal é o “backprop”, ou de retropropagação, que parte de um conjunto de treinamento para uma dada tarefa. Este conjunto consiste em muitos exemplos de tarefas (entradas) e de suas respectivas soluções (saídas), determinadas por um grupo de especialistas (que formam uma heurística ou soluções de consenso). Por exemplo, se a tarefa é distinguir aviões aliados de aviões inimigos, o conjunto de treinamento pôde conter imagens de diversos tipos de ambos junto com uma indicação do que a nave representa. Uma rede capaz de aprender esta tarefa pode ter duas unidades de saída (indicando as categorias “aliado” e “inimigo”) e muitas unidades de entrada para cada pixel de imagem. Os pesos da rede a ser treinada são inicialmente aleatórios, e então as imagens do conjunto de treinamento são expostas repetidamente à rede. Os pixels de cada imagem são apresentadas às unidades de entrada, e a saída fornecida pela rede é comparada com a resposta desejada a imagem. Se isto não ocorre, um sinal de erro retorna à rede e todos os pesos da rede são ajustados ligeiramente, e a operação é repetida milhares de vezes até que o erro seja o mínimo possível. Por exemplo, quando uma nave aliada é apresentada às unidades de entrada os pesos são ajustados de modo que o valor da unidade de saída “aliado” seja aumentado e o valor da unidade de saída “inimigo” seja diminuído. Após muitas repetições (chamadas ciclos ou épocas) deste processo, a rede aprende a produzir a resposta desejada para cada entrada do conjunto de treinamento. Se o treinamento foi bem conduzido, a rede aprenderá a reconhecer padrões e generalizará esta aprendizagem, identificando naves não apresentadas ou previstas no conjunto treinamento.. O tipo da rede ilustrado na figura 1 (rede feedforward), não é o mais adequado para se explicar a aprendizagem e os processos adaptativos, uma vez que a ativação flui das entradas para as unidades encobertas e daí para as unidades de saída, sempre neste sentido. Modelos mais realistas deveriam supostamente incluir muitas camadas encobertas e conexões recorrentes que retornam os sinais às camadas. Tal recorrência é necessária para explicar elementos cognitivos tais como a memória a curto prazo. Além disso, em uma rede feedforward a repetição da mesma entrada produz sempre a mesma saída, e sabemos que até mesmo os organismos mais simples habituam-se (ou aprendem a ignorar) a repetidas apresentações do mesmo estímulo. Representação no modelo conexionistaQuando pensamos em algo, a representação deste algo não está associada a um neurônio, mas distribuída em uma rede de neurônios que se espalha por grande parte do cérebro. A noção de representação distribuída é um paradigma que decorre do modelo de aprendizagem baseada na formação de sinapses facilitadas, selecionadas através de estímulos repetidos de mesma natureza (lei de Hebb). Além de oferecerem vantagens óbvias sobre as locais, pois, a informação é preservada quando parte da rede é destruída ou sobrecarregada, a distribuição da representação em sinapses da rede, em lugar da formulação de símbolos completos em neurônios individuais, permite relacionar diferentes representações por similaridades e diferenças entre esses padrões. Assim, cada representação conduz informação sobre o que ela é (Clark 1993), o que não é possível se a representação for simbólica. A representação distribuída oferece uma solução ao enigma filosófico do significado. Deste modo, cada neurônio ativo em uma rede não codifica símbolo algum. Suas representações são, portanto, subsimbólicas, ou seja, não é possível deduzir a partir de um deles o símbolo ou representação implicado na rede. A natureza subsimbólica das representações distribuídas acrescenta uma nova concepção do modo como o cérebro processa informação. Suponha que cada neurônio é um código, então a atividade do cérebro é dada por um extenso vetor de códigos, um para cada conexão neuronal. Tanto um input sensorial e seu correspondente output motor podem ser também tratados como vetores do mesmo tipo. A representação subsimbólica tem implicações interessantes para a hipótese clássica de que o cérebro contém representações simbólicas semelhantes a sentenças de uma linguagem, idéia conhecida como “linguagem do pensamento”. Segundo esta idéia, uma representação tal como “Maria almoça todos os dias” contém todos os elementos explícitos da sentença (as palavras), o que não é aceito pelo cognitivistas. Temos aqui dois problemas a considerar. O primeiro deles é o da sistematicidade. Fodor e Pylyshyn (1988) identificaram na inteligência humana um fator que chamaram “sistematicidade” e alegaram que o conexionismo não pode explicá-lo. Este termo refere-se ao fato de que a capacidade de produzir/compreender/pensar algumas sentenças é intrinsecamente conectada à capacidade de produzir/compreender/pensar outras sentenças relacionadas. Fodor e McLaughlin (1990) então argumentaram que o conexionismo não modela a sistematicidade, pois, uma rede treinada para reconhecer a expressão “Maria almoça todos os dias”, não reconhecerá a frase “todos os dias Maria almoça”. Este argumento contudo, é uma falácia (Johnson, 2004), pois, é possível desenvolver modelos de rede neural capazes de processar uma linguagem com sintaxe recursiva, que reage imediatamente à introdução de novos itens no léxico. O segundo problema é o da similaridade semântica. Um dos pontos importantes da representação distribuída nos modelos conexionistas é que eles corroboram a teoria da existência de estados mentais, mais especificamente, da associação entre significado e funcionalidade de estados cerebrais. Semelhanças e diferenças entre padrões de ativação em diferentes dimensões emulam informação semântica, ou seja, a ativação de uma rede neural tem propriedades intrínsecas que se conformam a um significado. Cérebros diferentes podem conter arranjos diferentes de neurônios, não sendo necessário que um mesmo padrão de conexões (ou ativação) deva ser igual para um mesmo significado. Laakso and Cottrell (2000) mostraram que redes com estruturas radicalmente diferentes treinadas na mesma tarefa desenvolviam padrões de ativação muito semelhantes. Por exemplo, o conceito “pai” em dois cérebros diferentes pode ter padrões de ativação não necessariamente semelhantes se a informação sobre seus pais (nome, idade, imagem, caráter, etc) forem bem diferentes. Isto vem sendo uma questão de intensos debates entre filósofos e conexionistas. Nota final O conexionismo é uma abordagem reducionista, porém necessária. De fato, o cérebro é demasiado complexo para que possamos entendê-lo com as ferramentas científicas que possuímos atualmente. O conexionismo é uma abordagem que nos permite, além de insights sobre estrutura e função, estabelecer modelos cognitivos para memória, aprendizagem, raciocínio indutivo, neuromodulação, psicopatologia e outras coisas. As abordagens das funções superiores da atividade cerebral são tradicionalmente a mentalista e a biológica. O conexionismo surge como uma “terceira via” que trata os processos cognitivos como funções emergentes da organização neural. Para uma revisão mais ampliada sobre redes neurais, ver Câmara (2006). Referências · Câmara FP. Métodos informáticos de classificação e modelagem, I – Introdução às redes neurais artificiais. Psiquiatria Hoje, 2004; 26: 8-12. · Câmara FP. Métodos informáticos de classificação e modelagem, III – Redes neurais artificiais e modelagem em psicopatologia. Psiquiatria Hoje, 2005; 27: 8-14. · Câmara FP. Redes Neurais Artificiais Como Metáfora e Modelo em Psicopatologia (ed. p. OZ Prado; I Fortim; L Cosentino), in Psicologia & Informática, São Paulo: Conselho Regional de Psicologia SP, p. 92-105, 2006. · Fodor, J., and McLaughlin, B., “Connectionism and the Problem of Systematicity: Why Smolensky's Solution Doesn't Work,” Cognition 35 (1990): 183-204 · Fodor, J., and Pylyshyn, Z., “Connectionism and Cognitive Architecture: a Critical Analysis,” Cognition, 28 (1988): 3-71 · Johnson, K. “On the Systematicity of Language and Thought,” Journal of Philosophy, 101 (2004): 111-139 · Laakso, A., and Cotrell, G., “Content and Cluster Analysis: Assessing Representational Similarity in Neural Systems,” Philosophical Psychology,13 (2000): 47-76
|