Projecto Floresta Sintá(c)tica (página anterior)

logo temporário da FS

Information in English


Este projecto tem como objectivo criar um "treebank" -- a que chamamos Floresta Sintá(c)tica -- para a língua portuguesa, ou seja, um conjunto de itens sintacticamente analisados, publicamente disponível, que permita que todos os interessados na análise do português possam utilizá-lo tendo em conta diferentes fins/objectivos.

Nota: O nome do projecto tenta reflectir as diferenças entre as variantes brasileira e portuguesa numa forma frequentemente utilizada para codificar árvores (por exemplo no Penn Treebank). A presente página contém também contribuições escritas nas duas normas, devido à nossa preocupação em que este projecto pudesse ser útil a todos os que falam português, sem privilegiar nenhuma variante.


Descrição genérica do projecto

Participantes

O projecto foi lançado, na presente fase inicial, como uma colaboração entre o projecto VISL (Eckhard Bick) e o Projecto Processamento computacional do português (Diana Santos e Renato Haber), ao abrigo da qual foram contratados três investigadores em linguística (Ana Raquel Marchi, Miguel Oliveira e Susana Cavadas Afonso). (Num momento posterior, a equipa foi remodelada pela saída de Miguel Oliveira, a 6 de Fevereiro de 2001. A partir de 1 de Outubro de 2001, altura de término da primeira fase, deixámos de contar com a colaboração de Renato Haber e Ana Raquel Marchi.)

Como fundamentos para iniciar esta colaboração deve ser indicada a existência do analisador sintáctico PALAVRAS, o estabelecimento prévio do projecto AC/DC e a existência de corpora base com os direitos de autor resolvidos pelo projecto Processamento computacional do português.

O analisador sintático PALAVRAS

O PALAVRAS é um analisador automático (tagger-parser) para português que foi desenvolvido por Eckhard Bick no contexto dum projeto de doutoramento (1994-2000) na Universidade de Århus (Dinamarca). O sistema apoia-se num léxico de 50.000 lemas e milhares de regras gramaticais para fornecer uma análise completa, tanto morfológica como sintática, de qualquer texto. O formalismo aplicado integra-se na tradição da Constraint Grammar (CG), introduzido por Fred Karlsson (Universidade de Helsínquia, Finlândia) em 1992. Embora usando um conjunto de etiquetas gramaticais bastante diversificado, o parser alcança um nível de correção de 99% em termos de morfologia (classe de palavras e flexão), e 97-98% em termos de sintaxe. Para trabalhar com o PALAVRAS na rede, visite o sítio do projeto VISL (http://visl.sdu.dk).

Para mais informação, consulte-se

O projeto VISL

O VISL (Visual Interactive Language Learning, http://visl.sdu.dk) foi lançado como um projeto de pesquisa e ensino na Universidade do Sul da Dinamarca em 1996, e está atraindo apoio financeiro de várias fontes externas. Partindo do sistema português PALAVRAS como modelo para outras línguas, a equipe VISL construiu um núcleo de ferramentas e bancos de dados linguísticos para usar através da internete. Trabalha-se hoje com a gramática, e especificamente a sintaxe, de 14 línguas, entre elas 6 com análise automática CG. Áreas mais recentes de atividade são semântica e tradução automática, como também a coleção e etiquetagem de corpora.

Ao lado do sistema aberto, foi estabelecida uma base de orações controladas para todas as línguas VISL, cobrindo vários fenômenos sintáticos de uma maneira mais sistemática. Na interface de ensino, usuários podem escolher entre diversos filtros notacionais, apoiando diferentes paradigmas descritivos da língua. Exemplos são exercícios nos quais as palavras são coloridas para marcar sua classe, e árvores de sintaxe gráficas construídas pelo estudante e controladas pelo computador, com etiquetas de forma e função em cada nó.

O projecto AC/DC

O projecto AC/DC (Acesso a Corpora/Disponibilização de Corpora é uma das actividades a que o projecto Processamento computacional do português se dedica. O seu objectivo principal é facilitar o acesso aos corpora já existentes, criando uma interface única e adicionando informação (estrutural e sintáctica) a esses corpora. O PALAVRAS foi usado para a primeira (e, até agora, única) anotação sintáctica dos corpora. De momento, o serviço AC/DC inclui 50 milhões de palavras anotadas, correspondendo a uma dezena de corpora diferentes, mais os 180 milhões do CETEMPúblico, um corpus de linguagem jornalística com material do jornal diário português PÚBLICO, corpus esse compilado de raiz pelo projecto Processamento computacional do português.

O projecto Processamento computacional do português

O projecto Processamento computacional do português foi um projecto criado pelo Ministério da Ciência e da Tecnologia de Portugal para melhorar o estado desta área, considerada prioritária. Um dos seus principais métodos de actuação é a criação de recursos públicos para a investigação e desenvolvimento na área do processamento computacional da nossa língua, tendo depois dado origem à Linguateca (http://www.linguateca.pt/). O projecto AC/DC e a própria Floresta são projectos realizados no âmbito deste projecto maior.

A equipa

Responsável pela parte linguística: Eckhard Bick. Outros membros da equipa linguística: Susana Afonso, Ana Raquel Marchi, Anabela Barreiro Colasuonno. Responsável pela parte computacional: Diana Santos. Outros membros da equipa computacional: Renato Haber, Alexsandro Santos Soares, Luís Sarmento.

Objectivos do projecto

Pretendemos com esta iniciativa congregar todos os membros da comunidade interessados na análise computacional do português, de forma a que a Floresta Sintá(c)tica possa reflectir um consenso, ou uma escolha informada, entre todas as possibilidades e equipas que trabalham na análise do português.

Uma das esperanças acalentadas pelo presente projecto foi que, além da criação dos próprios objectos (árvores) e da obtenção de documentação que reflicta progresso em sintaxe computacional do português, permitisse também o lançamento da discussão e da cooperação entre os vários actores.

Para esse efeito foi criada uma lista electrónica, a lista floresta, visando reunir todos os interessados na problemática da criação de um treebank para o português, permitindo a sua participação nas tomadas de decisão do projecto, assim como fomentando a discussão de assuntos relacionados.

Mantivemos o arquivo de todas as mensagens enviadas para essa lista.

Apelo! Pedimos a todos os potenciais utilizadores e/ou colaboradores nesta tarefa enorme que comentem e sugiram formatos alternativos, de forma a que o resultado da floresta cubra o melhor possível os desejos da comunidade. Todas as propostas alternativas que forem enviadas para a lista floresta serão alvo de uma resposta nossa sobre a viabilidade (e facilidade) de uma conversão para o formato em questão.

Estatuto do projecto

Este projecto extremamente ambicioso teve uma primeira fase de aproximadamente um ano:

O projecto foi "oficialmente" iniciado no período de 6 a 10 de Dezembro de 2000, através de um encontro em Oslo que reuniu todos os participantes e cujas conclusões principais foram uma definição inicial do processo a seguir e do resultado desejado.

Em Maio de 2001 teve lugar novo encontro, desta vez em Odense, em que várias novas opções foram discutidas e acordadas.

A primeira fase do projecto terminou oficialmente a 4 de Novembro de 2001, num encontro em Oslo para o efeito, mas algum trabalho, sobretudo de documentação e de revisão, foi ainda atribuído para ser efectuado até ao fim de 2001.

Não excluímos que o projecto reabra em novos moldes, dependendo sobretudo do uso do resultado pela comunidade a que era dedicado.

Continuamos a manter, de qualquer forma, um modo de "manutenção" em que vamos corrigindo e melhorando as árvores, assim como os programas que lhe dão acesso.

Resultado

O projecto Floresta Sintáctica até este momento já produziu

Acesso à Floresta Virgem

A Floresta Virgem
  • Documentation of the choices in the treebank project

    Este texto, em constante evolução durante o andamento do projecto, constitui a documentação das várias opções tomadas pela equipa da floresta na construção desta, sendo portanto necessária a sua consulta para uma compreensão cabal das árvores. De facto, ao mesmo tempo que o trabalho de análise individual do material do CETEMPúblico permitiu criar comentários pedagógicos para o módulo de ensino de português do projeto VISL, uma série de opções metodológicas sobre a análise sintáctica do português foi tomando corpo e constituindo-se no esqueleto de uma documentação aprofundada sobre o processo de constituição da floresta.

  • Definição formal do treebank (BNF) Artigos de apresentação do projecto Artigos ou apresentações sobre a Floresta ou usando a Floresta Outra documentação produzida no âmbito do projecto -->

    Material base

    Pensamos que o projecto ganha em ser desenvolvido para todas as variantes do português. Começámos, numa primeira fase, por tratar a variante do português de Portugal, preparando ao mesmo tempo uma possível continuação tratando o português brasileiro.

    Por razões práticas foi decidido empregar o primeiro milhão de palavras do corpus CETEMPúblico para o português de Portugal, contendo texto jornalístico do jornal diário Público.

    Mais tarde iniciámos os nossos trabalhos sobre o CETENFolha, que é um corpus de português brasileiro, contendo texto jornalístico do jornal diário Folha de São Paulo.

    Descrição do processo

    Criação da floresta

    Processo seguido na construção da floresta: Na figura seguinte, apresenta-se uma tentativa de visualização do processo:

    Figura temporária do plano

    Exemplo do processo (simples).

    Exemplo do processo levando à implementação de novas distinções.

    Pré-processamento

    Antes da revisão da análise sintáctica propriamente dita, foi efectuada uma revisão da separação em frases presente no (primeiro milhão do) CETEMPúblico, de acordo com os seguintes critérios: O resultado dessa descrição encontra-se em

    Além disso, foi feita uma revisão lexicográfica de forma a evitar erros de análise automática devido a falhas no dicionário do PALAVRAS.

    Ferramentas

    Ferramenta de edição

    Para facilitar o processo de revisão da análise sintáctica, foi desenvolvida uma ferramenta, descrita em

    Uma versão preliminar, para o editor EMACS, pode ser obtida no endereço floresta.el.

    Ferramenta de procura em árvores

    Visto que o formato texto é difícil de manusear, considerámos como próximo passo deste projecto permitir uma procura mais fácil em todas as árvores. O resultado é o sistema de procura em árvores Águia: interface portuguesa; interface inglesa. As especificações iniciais desta nova ferramenta encontram-se descritas em Procura nas árvores da Floresta Sintá(c)tica.

    Teste inter-anotadores preliminar

    Cem frases correspondendo aos extractos 44-65 do CETEMPúblico foram revistas pelos três anotadores em paralelo.

    Fez-se uma comparação entre os resultados nos níveis morfológico, sintáctico e estrutural, a partir de critérios definidos nesse processo.

    O processo do teste, mais do que os resultados em si, levou a uma reflexão sobre avaliação do projecto e desenho de futuros testes, que consideramos o resultado mais importante desta actividade, cf. o relatório mencionado acima "Na trilha de um Teste Inter-Anotadores".

    Dois anos depois outro teste foi realizado e as suas consequências estudadas:e relatadas em "Avaliação do grau de concordância entre anotadores: análise e discussão dos resultados do processo de re-revisão".


    Última actualização: 8 de Setembro de 2006.
    Comentários, sugestões e perguntas sobre a Floresta Sintá(c)tica