El passat 17 de desembre l'Science publicava aquest interessant article:
Google Opens Books to New Cultural Studies
Que fa referència a aquest impressionant article:
Quantitative Analysis of Culture Using Millions of Digitized Books (pdf) (originalment a Science)
Google Opens Books to New Cultural Studies
Que fa referència a aquest impressionant article:
Quantitative Analysis of Culture Using Millions of Digitized Books (pdf) (originalment a Science)
Resumint, aplicant tècniques pròpies de la Biologia evolutiva i amb el minatge de dades (Data Mining) comencem a estar en condicions de quantificar la cultura, cosa que mai abans la humanitat havia pogut fer. Una sèrie d'investigadors han anat a can Google i els han demanat si podien analitzar els llibres de Google Books, uns 15 milions (el 12% dels llibres mai publicats). N'han agafat uns 5,2 milions (el 4% dels llibres mai publicats) i a partir d'aquí han aplicat tècniques matemàtiques d'anàlisi. El corpus resultant té 500.000 milions de paraules (es diu ràpid!).
El resultat?:
The researchers have revealed 500,000 English words missed by all dictionaries, tracked the rise and fall of ideologies and famous people, and, perhaps most provocatively, identified possible cases of political suppression unknown to historians.
o:
We constructed a corpus of digitized texts containing about 4% of all books ever printed. Analysis of this corpus enables us to investigate cultural trends quantitatively. We survey the vast terrain of "culturomics", focusing on linguistic and cultural phenomena that were reflected in the English language between 1800 and 2000. We show how this approach can provide insights about fields as diverse as lexicography, the evolution of grammar, collective memory, the adoption of technology, the pursuit of fame, censorship, and historical epidemiology. "Culturomics" extends the boundaries of rigorous quantitative inquiry to a wide array of new phenomena spanning the social sciences and the humanities.
Això és obrir tot un nou univers de recerca per les humanitats, la lingüística o la sociologia. La base de dades es pot consultar i descarregar a http://www.culturomics.org. La idea dels autors és fer-ho de codi obert en la mesura del possible.
També volen anar més enllà dels llibres. Volen incloure diaris, manuscrits, mapes, dibuixos i altres creacions humanes.
Cultura CatalanaEl resultat?:
The researchers have revealed 500,000 English words missed by all dictionaries, tracked the rise and fall of ideologies and famous people, and, perhaps most provocatively, identified possible cases of political suppression unknown to historians.
o:
We constructed a corpus of digitized texts containing about 4% of all books ever printed. Analysis of this corpus enables us to investigate cultural trends quantitatively. We survey the vast terrain of "culturomics", focusing on linguistic and cultural phenomena that were reflected in the English language between 1800 and 2000. We show how this approach can provide insights about fields as diverse as lexicography, the evolution of grammar, collective memory, the adoption of technology, the pursuit of fame, censorship, and historical epidemiology. "Culturomics" extends the boundaries of rigorous quantitative inquiry to a wide array of new phenomena spanning the social sciences and the humanities.
Això és obrir tot un nou univers de recerca per les humanitats, la lingüística o la sociologia. La base de dades es pot consultar i descarregar a http://www.culturomics.org. La idea dels autors és fer-ho de codi obert en la mesura del possible.
També volen anar més enllà dels llibres. Volen incloure diaris, manuscrits, mapes, dibuixos i altres creacions humanes.
Quan podrem tenir això per a la llengua catalana? Podrem detectar la censura anticatalana d'Espanya? Com afectarà l'ortografia pre-fabriana i la fabriana? Com afectà la dictadura franquista? Quins conceptes propis hem oblidat amb el temps, o ens han fet oblidar? Quines són les persones més famoses de la cultura catalana? La llengua s'està empobrint, o com passa amb l'anglès està creixent? I la gramàtica catalana, com està evolucionant? Quantificarem la influència de l'espanyol sobre el català?
Estic segur que la culturòmica ens permetrà respondre a això, si som capaços de digitalitzar tota la producció cultural catalana. Si ara mateix l'hebreu ho té, no hi ha raons perquè el català també ho tingui.
Exemples
Tenim un cercador on cercar paraules en diverses llengües. Avís: vicia!
Déu va a la baixa
En espanyol el Principat de Catalunya està desapareixent
Corona catalanoaragonesa
Paisos Catalans/Países Catalanes
Barcelona, València, Palma
Pere Calders
Dialecto catalán
Jordi Pujol, Tarradellas
ERC, Esquerra Republicana de Catalunya
Quines troballes heu fet vosaltres?Estic segur que la culturòmica ens permetrà respondre a això, si som capaços de digitalitzar tota la producció cultural catalana. Si ara mateix l'hebreu ho té, no hi ha raons perquè el català també ho tingui.
Exemples
Tenim un cercador on cercar paraules en diverses llengües. Avís: vicia!
Déu va a la baixa
En espanyol el Principat de Catalunya està desapareixent
Corona catalanoaragonesa
Paisos Catalans/Países Catalanes
Barcelona, València, Palma
Pere Calders
Dialecto catalán
Jordi Pujol, Tarradellas
ERC, Esquerra Republicana de Catalunya



