Floresta Sintá(c)tica: breve descrição dos corpora

Floresta Virgem

uma floresta (treebank) em estado natural

A Floresta Virgem é composta de cerca de 95.000 frases (cerca de 1.600.000 palavras) retiradas do início dos corpora CETENFolha (parte do corpus NILC/São Carlos, retirado de textos do jornal brasileiro Folha de São Paulo, de 1994) e CETEMPúblico (retirados do diário português PÚBLICO) e anotadas automaticamente com o anotador morfo-sintáctico PALAVRAS (Bick, 2000).

A Floresta Virgem não contém as frases pertences ao Bosque (ver abaixo). Actualmente, por motivos técnicos, apenas cerca de 88% da Floresta Virgem pode ser pesquisada pelo Milhafre, a ferramenta de buscas em árvores sintáticas..

Bosque

uma floresta revisto manualmente

O Bosque é composto por um total de 9.368 frases, retiradas os primeiros 1000 extractos (aprox.) dos corpora CETENFolha e CETEMPúblico. Ao contrário da Floresta Virgem, o Bosque foi sujeito a uma aturada revisão por linguistas.
Toda a documentação das opções linguísticas tomadas durante o processo de revisão está disponível na Bíblia Florestal.

Selva

uma floresta parcialmente revista

A Selva foi criada para contornar as limitações do Bosque e da Floresta Virgem

  1. o tamanho: no caso do Bosque, demasiado pequeno; no caso da Floresta Virgem, grande ao ponto inviabilizar a sua revisão manual
  2. a existência de textos de um único género (jornalístico) e duas únicas fontes (o Público e a Folha de São Paulo)
Para superar essas limitações, a Selva tem um tamanho intermédio (300.000 palavras) e será parcialmente revista.

Os textos da Selva englobam três géneros distintos, cada um cerca de 100.000 palavras, equitativamente distribuídos pelas variantes de português europeu e brasileiro.

  1. textos literários do final do século XIX e do início do século XX (cerca de 10.000 palavras de cada autor), recolhidos na Wikisource
  2. textos científicos, principalmente retirados de teses académicas e de artigos da Wikipédia sobre assuntos relacionados às ciências
  3. textos falados transcritos, nomeadamente debates parlamentares e entrevistas do Museu da Pessoa
Os textos foram escolhidos com base na sua disponibilidade; os textos do Museu da Pessoa foram extraídos dos corpora do projecto AC/DC.

A Selva pretende ser um corpus parcialmente revisto, onde certas carecterísticas são revistas uma a uma, e não frase a frase. O processo de revisão já foi iniciado e está documentado nesta página.


Última actualização: 30 de Junho de 2008