Twitter zaradi prevzema Elona Muska izgublja uporabnike in prešteva kritike strokovnjakov, zaposlenih in tviterašev. Kakšno je razpoloženje na slovenskem delu Twitterja, koliko uporabnikov še tvita v slovenščini, o čem govorijo in kako natančno lahko na podlagi Twitterja napovemo volilne rezultate?
Omrežju Mastodon, ki velja za alternativo Twitterju, se je do sredine novembra pridružilo milijon uporabnikov, število narašča, povprečje dnevnih uporabnikov se povečuje.
Marko Plahuta je programer, ki se ukvarja s strojnim učenjem na področju obdelave jezika. Z raziskovanjem in vizualizacijo se ukvarja v prostem času.
Zapiski:
About the author - Virostatiq
CENTER ZA JEZIKOVNE VIRE IN TEHNOLOGIJE
Filmski pojmovnik – Slovenska kinoteka
Kviz!
Kaj Marko uporablja:
Elastic Search za shranjevanje, iskanje in preproste agregacije
Twitterjev API za zajemanje podatkov s Twitterja
Naučene jezikovne modele, dostopne na HuggingFace, kot osnovo za klasifikatorje in generativne modele
To zgoraj skupaj s knjižnicami TensorFlow/Keras in PyTorch
spaCy, ki je nedavno izšel za slovenščino
Classla, ki je podoben spaCyju, a temelji na Stanfordovi tehnologiji
Starejše jezikovne tehnologije, zbrane v knjižnicah Gensim in Scikit-Learn
UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction — umap 0.5 documentation
GitHub - facebookresearch/faiss: A library for efficient similarity search and clustering of dense vectors.
The hdbscan Clustering Library — hdbscan 0.8.1 documentation
GitHub - eliorc/node2vec: Implementation of the node2vec algorithm.
Zanimivosti iz tehnološkega sveta pošiljava tudi v elektronske nabiralnike. Naročilnica na Odbito pismo je tukaj. Razpravi o odbitih temah se lahko pridružite na Twitterju. Dosegljiva sva tudi na naslovu:
[email protected].
Podkast Odbita do bita je brezplačno na voljo v vseh aplikacijah za podkaste. Naročite se in podkast ocenite.