TÈCNIQUES D’ESTADÍSTICA PER A L’ANÀLISI DE DADES DIALECTALS: CLASSIFICACIÓ DELS PARLARS LOCALS DE LA MARINA (II)

19 de juliol de 2006

0 comentaris

TÈCNIQUES D’ESTADÍSTICA PER A L’ANÀLISI DE DADES DIALECTALS: CLASSIFICACIÓ DELS PARLARS LOCALS DE LA MARINA (II)

2.- Tècniques de socioestadística
multivariable: l?anàlisi de conglomerats jeràrquics.

<<<—- punxeu damunt el gràfic per ampliar-lo i visualitzar-lo millor

Existeixen diverses tècniques de
socioestadística multivariable que poden ajudar el dialectòleg a trascendir el
mer marc descriptiu del seu objecte d?estudi, proveint-lo tant d?eines
avançades per a explorar l?estructura de les dades de la variació lingüística
d?allò que pretén analitzar així com per a fornir el seu treball d?explicacions
plausibles. El gran avantatge pràctic d?aquestes tècniques és que permeten
obtenir resums sintètics de les dades dialectals recollides (la qual cosa és
ben útil, si se segueix una estratègia exploratòria), de reduir la
multidimensionalitat d?un corpus de dades considerable alhora que es posen de
relleu factors latents o alhora que es fan evidents relacions entre un número
indeterminat de variables o de casos (la qual cosa aprofitarà per a seguir una
estratègia explicativa).

Per a accedir a una visió de
conjunt, aquestes tècniques han estat classificades de diverses maneres, en
funció de diferents criteris. Un dels esquemes classificatoris més coneguts les
divideix en tècniques en les quals hi ha una o més variables dependents i
tècniques en les quals no hi ha cap variable dependent, perquè es parteix del
supòsit de què les relacions entre variables són d?interdependència (vegeu Figura 1).

Les tècniques que tracten
d?explicar la variació d?una variable dependent podrien emprar-se per a
estudiar allò que els filòlegs anomenen el comportament extern del llenguatge.
En aquest sentit, aportarien un grau de sofisticació metodològica inusitat al
tipus d?estudis ja encetats en la dialectologia social per l?escola de LABOV,
és a dir, aquells estudis que assumeixen que la variació lingüística no és
completament fortuïta ni lliure, sinó que pot dependre, en alguna mesura, de
variables sociològiques. Per una altra banda, les tècniques que eluciden
relacions d?interdependència[1] entre
variables dialectals o entre casos poden ajudar per a obtenir panoràmiques
globals del seu comportament, per a resumir molta informació d?una manera
lògica, no intuïtiva, i per a conformar noves variables sintètiques d?aspectes
lingüístics que es poden contrastar, posteriorment, amb el seu context social,
històric o cultural.

Com a botó de mostra, farem ací
una demostració de com caldria aplicar la tècnica d?anàlisi multivariable
anomenada Cluster analysis. Es tracta
d?una tècnica que originalment fou emprada fa més d?un segle en el camp de la
biologia per a elaborar taxonomies d?animals. Posteriorment ha estat
desenvolupada en els darrers vint anys per al camp de les ciències socials,
fins el punt que hi ha paquets integrats d?informàtica estadística com l?SPSS (Statistical Packet for Social Science) que
l?han incorporada. Dins del món de les ciències socials el Cluster analysis ha estat utilitzat amb èxit per a propòsits i
continguts tan diversos — per citar alguns exemples ? com classificació de les
legislatures en funció de l?ofici dels membres dels diferents parlaments
històrics (GARCÍA FERRANDO: 1989, pàgs. 451-454) o com la taxonomia dels
sistemes polítics de diferents països occidentals segons el grau de legitimació
de llur estat de benestar i segons la percepció del conflicte de classe de
llurs societats (NOYA: 1997, pàgs. 267-295), així com també la construcció de tipologies
de ciutats europees[2].

Explicarem a continuació, per
damunt-damunt, les passes que es segueixen per a dur a terme una anàlisi de
conglomerats jeràrquics o hierarchical
cluster analysis:

a)
En primer lloc,
necessitem començar amb una matriu de variables i casos. En aquest estadi de
l?anàlisi hem de triar dues coses: (1) seleccionar les variables; (2) elegir un
nivell de medició (ordinal, interval, etc.). La selecció de variables és feina
del dialectòleg, el qual en funció dels seus objectius i del seu coneixement
expert de la matèria ha de decidir quines variables mereixen entrar en l?estudi
i quines no. El nivell de medició, en aquest cas, ha de ser necessàriament
mètric, per a la qual cosa transformarem les variables nominals en variables dummy (=fictícies) dicotòmiques. En la
nostra matriu hi haurà tant variables dicotòmiques privatives (en les quals el
valor 1 significa la presència d?una característica determinada en un poble x,
i el valor 0 significa l?absència d?eixa característica), així com variables
dicotòmiques equipolents (en les quals només hi ha dues alternatives: 1, que és
una característica, i 0, que és la característica alternativa), per tal
d?estalviar-nos una acumulació excessiva de variables fictícies que es
correlacionen entre elles.

b)
En segon lloc,
transformem l?anterior matriu de dades en una matriu de similaritats entre
casos, prèvia selecció d?un criteri de similaritat, en la que s?expressaran les
distàncies de cada cas respecte als altres. Hi ha diversos criteris de
similaritat[3]: ací utilitzarem el
criteri de la distància euclídia al quadrat per a mesures dicotòmiques, perquè
és el més comunament acceptat. La distància euclídia al quadrat entre dos casos
es defineix com a la suma de les diferències al quadrat dels valors en cada variable.

c)
En tercer lloc,
obtenim la formació dels diferents grups de casos mitjançant l?aplicació d?un
algoritme de classificació a la matriu de similaritats. En aquest cas recorrem
a l?algoritme o mètode de vinculació inter-grups, que és el més amplament
utilitzat. Aquest mètode combina els conglomerats per a minimitzar la distància
promedi entre totes les parelles d?elements en les que cada membre de la
parella forma part de cadascun dels dos conglomerats.

d)
En quart i últim
lloc, i per tal de facilitar una millor comprensió dels resultats, el procés de
formació de ?oeclusters? o conglomerats es representa de forma gràfica. Ací
utilitzarem la representació gràfica més coneguda: és a dir, el dendograma o
estructuració arborescent de les proximitats entre casos

Per expressar-ho gràficament, en el procés d?anàlisi de
conglomerats es segueix la seqüència de la Figura 2.

Deixa un comentari Cancel·la les respostes

Us ha agradat aquest article? Compartiu-lo!

Anotacions rizomàtiques

L'escriptura proteica front a la cultura quadrangular

TÈCNIQUES D’ESTADÍSTICA PER A L’ANÀLISI DE DADES DIALECTALS: CLASSIFICACIÓ DELS PARLARS LOCALS DE LA MARINA (II)

Deixa un comentari Cancel·la les respostes