Exploring Albanian Language Models – Datasets

140
0

Hello everyone,

Let’s talk about creating a language model specifically for Albanian. I started this project because there’s not much out there for our language. Despite my best efforts, I couldn’t find any existing models or datasets. If you have any info on this, please do share!

My journey began with inspiration from Andrej Karpathy’s enlightening video, “Let’s build GPT: from scratch, in code, spelled out.” ( VIDEO LINK ) This led me to attempt replicating his success for the Albanian language.

Creating the Dataset:

My first step was gathering data. I headed to balkanweb.com and started scraping posts. This wasn’t just any scraping, though. After collecting around 500 posts, I had to sift through the data manually. It was crucial to ensure the quality of the text because a lot of what you get from scraping can be junk. So, I labeled each piece of content with a true or false flag indicating its usability. This step was key to ensuring that the model would learn from relevant and clean data.

Once I had a decently clean dataset, I trained a regression model to help automate the cleaning process. This model could predict whether a new piece of text was clean enough for training. With its help, I scraped another 12,000 posts, but this time I only kept the good stuff. All this effort resulted in a robust text file containing over 7 million characters. Almost 7 times bigger then the tinyshakespeare (1 million).

Training the models:

Then, I trained several models of different sizes on this text. The most interesting part was that a model with 12.77 million parameters did really well and fast. It took only 52 minutes to train. But then, I tried a much larger model with 101.11 million parameters, and surprisingly, it didn’t do any better – it just took a lot longer.

So, here’s the main point: why did the bigger model not perform any better than the smaller one? I started with 0.23_M to 1.65_M to 12.77_M and the models improve as the size gets bigger. But when i try to train a model of a size 101.11_M, albeit the time, it did not perform as good as the 12.77_M one. I am not an expert on this but i would love to have someone explain to me.

I also tried to increase dropout for some of the models, but since we did not train for a very long time but just for 5000 steps, the model did not get a chance to show any overfitting signs.

The most interesting part is the models outputs.


0.23_M
Ky as që edhe pas sot nga Shkodë Babi Shkojma, 37, dhe 24 kapye nevojë të rëndësishme se grekë Kreside, qeveria në turim të BE5 “Regna Proditeteve, në kthenj të shtetasit Atantiti All, do të zgjelltuar deputeve të vendit të sektuar për të rëndësishme të marrit vuri i nga ta rrethantohet për për struktur bresme të konsisë së sakolli të Drejmor “Serbei i ferën qevillësi më pasrantuar në 223 1).209 vitje:000: 

1.65_M
Gjatë pisë vjetojnë të shpeshin person. Më zgjedhjet kastrofike, Fier përshëndeti kritjen e shpalllnit dhe besojnë fshacale dhe vogël të fajësisë reagimet për një person në prankollin kriminal.

1.65_M - 0.1 dropout 
Doza e dhura nuk mund të jetoj një shërbim në Vladimin e Partisë së Tiranës dhe lidhur parashikuara e diecit, futisnifikatët për të ndëshkuar njoftim të dhënave,ku koncezioni dhe shpirtatën apo “surmatizimi”,” theksoi Aganini s20 dhe makinë ndaj Kuvendit Ndërkombëtar, një bashkëpunim me 1,59) vitesh.

1.65_M - 0.2 dropout 
Doç duhet të jemi vendosur i tyre, shërbimet e rasteve në vend  këto kush lidhur me helime në videonet, për projektin është strukturuar me të cilën mos ndërgojë kohën edhe psekrative.”.

12.77_M
Gjatë Sigurisë, INSTAT kanë kujdesur për gjithë efektivitetin e Policisë së Shtetit, Jjor Malltezi. 

12.77_M - 0.1 dropout
Në media raportin e emisionet “Venti”, dekagrafi i narkotikëve të interesave për ligjin, e cila vendon shmangen këto çdo barrë dhe të direktit, ku infryerin kundëra e të njëjtateje mbërritën në raport me anëtar të shqiptarëve për bujqësinë të Kosovës, dhe kur atëherë, për 510 vite më parë, kurrë njeriun syhja e drejtë sasistacioneve në qytetarët teknikë, me veçi prej konkretisht. Përmes transperterit janë kryer, është fartuar ku një përgjegjës e kunitetit.

101.11_M
Gjatë kontrollit të tij të tyre, ndërsa e vitit 2023) se kanë veprime përsëri në takim, në Facebook është jashtë presionist që janë të mbrojtura. Unë mazhorazh nuk provon as parkimin, ku 1 halloz, Thura dyje, Jana Tislanane (arregullt te DaniAR-it), të kundërshtojmë shpjegia e domosdoshmërisë dhe Shqipërisë ndërkombëtare e nevojsher e mbështetjes së konave në asnjë force, që ish vetëm e fonde bulevardit.

You can find the dataset here ( LINK ) and the notebook i used to train the models in here ( LINK )

Moreover, I believe we shouldn’t allow the technological development for our language to lag behind by decades compared to other languages. It’s our responsibility to contribute, research, and provide data about our language, our country, and our culture for students, researchers, and companies. I’m eager to connect with fellow Albanians in the tech industry to discuss opportunities that could aid our country’s growth, development, and recognition.

Leave a Reply

Your email address will not be published. Required fields are marked *