Projecto Floresta Sintá(c)tica

logo temporário da FS

Information in English


A Floresta Sintá(c)tica é um "treebank" para a língua portuguesa, ou seja, um conjunto de itens sintacticamente analisados e publicamente disponível.

É um projecto de colaboração entre a Linguateca e o projecto VISL, com textos portugueses e brasileiros, anotados automaticamente pelo PALAVRAS (Bick 2000).

Atualmente, o Projecto Floresta Sintáctica contém três corpora:

Uma descrição mais detalhada dos corpora está aqui.

Primeira visita? Vá ao Guia Rapidíssimo da Floresta

Para a documentação completa das opções linguísticas subjacentes à Floresta, consulte a Bíblia Florestal

Ferramenta de busca

É possível interrogar a Floresta através

Documentação

A página de documentação contém toda a informação relativa ao Projecto Floresta Sintáctica - artigos, relatórios, apresentações - e a página anterior do Projecto apresenta o historial e descrição detalhada do processo de criação da Floresta.

Formatos

O Bosque está acessível nos seguintes formatos:

formato Parte do
CETEMPúblico
Parte do
CETENFolha
árvores deitadas: não comprimido, comprimido não comprimido, comprimido
árvores deitadas em formato VISL: não comprimido, comprimido não comprimido, comprimido
formato CG (automático) comprimido comprimido
formato CG (v7.4, revista manualmente) comprimido comprimido
formato PennTreebank [*] comprimido comprimido
formato Tiger-XML [*] comprimido comprimido
formato SQL [*] comprimido comprimido
formato SimTreeML [*] comprimido comprimido
formato Perl [*] comprimido comprimido

Até a versão 7.4, os formatos assinalados com asterisco eram disponibilizados pelo pólo de Braga; mais informação sobre os diferentes formatos pode ser encontrada nesta página.

A versão 7.3 do Bosque foi usada na avaliação conjunta CoNLL-X em 2006 de análise sintática dependencial multilingue (ConLL-X shared task on multilingual dependency parsing), veja-se o Bosque-CoNLL que foi usado para essa avaliação (os nossos agradecimentos a Sabine Buchholz por ter preparado os dados).

A parte não revista da Floresta, a que chamamos a Floresta Virgem, é composta pelo primeiro milhão de palavras do CETEMPúblico e do CETENFolha, também é disponibilizada pelo nosso projecto:

Equipa

Coordenadores do Projecto: Diana Santos (até Setembro de 2007) e Eckhard Bick.

Revisão Linguística:
Susana Afonso (Novembro de 2000 a 2005)
Raquel Marchi (Novembro de 2000 a Setembro de 2001; Janeiro de 2003 a 2005)
Anabela Barreiro Colasuonno (Maio-Dezembro de 2002)
Cláudia Freitas (desde Junho de 2007)

Informática:
Renato Haber (Novembro de 2000 a Setembro de 2001)
Luís Sarmento (Novembro-Dezembro de 2002)
Rui Vilela (Agosto de 2004 a 2005)
Paulo Rocha  (desde Junho de 2007)


Versão actual do Bosque: versão 7.6, de 19 de Maio de 2008, 9.437 árvores revistas, correspondendo a 1962 extractos, 215.420 unidades, aprox. 183.619 palavras
Última actualização: 31 de Julho de 2008.
Comentários, sugestões e perguntas sobre a Floresta Sintá(c)tica