Skip to content

Meeting 2020 07 19

Sinan Demirci edited this page Jul 30, 2020 · 22 revisions

Übersicht

Baselines:

  • Google API - done
  • Glove - done
  • Bert - done

Zuesätzlichi Idee:

  • Additional data - done
  • Duplicates us de Trainingsdate lösche - done
  • Rule based
    • PR muess no gmerged werde mitem refactoring, review necessary
    • nachdem report section fertig isch: code ufrume dases das im report repräsentiert
  • Bertweet - done
    • experiments done
    • proposed experiment: done
  • Ensembling - done
  • Bagging
    • experiment müend no gstartet werde, bagging wird für die models gmacht wo au s ensembling gmacht wird
    • BERTweet mit oder oder ohni additional data?

Write-up

  • Abstract, Introduction
    • am schluss wenn alles fertig isch de abstract schribe
    • Introduction mit key contributions am schluss vom paragraph ergänze
  • Related Works
    • Evtl. chan de Jerry da no zügs ergänze, will kein grosse zemehang mit euse resultat
    • meh expande und versueche e connection zu eusem züg mache
    • proofreading
  • Data
    • erwähne das alles uf 90% trainiert worde isch mit fixed 10% validation set
    • additional data wird nur is training set ufgno, nachem 90/10 split
  • Models/Methods
    • Baselines
      • versueche z erkläre wieso die baselines gwählt worde sind
      • investigate ob models vor BERT au pre-training -> fine-tuning scheme gmacht hend
    • Bertweet
      • fine-tuning (pun intended) vom text bruchts no
    • ensembling/bagging
      • zäme i einere section, will s basic concept isch s gliche
      • proofreading notwendig
    • klammere approach
      • wo ane im report? eigentlich kei "method" meh bonus -> entscheid: zerst eigeni section, denn am schluss ihordne im report
  • Experiments/Results
    • nur mean und std dev ufem test set wird reported wo möglich, meh results wo nötig sind chönt in appendix gschobe werde
    • table baselines
    • table mit results vo bert, roberta, bertweet ohni und mit additional data
    • plot mit ensembling results vo BERTweet (mit/ohni bagging, mit/ohni additional data), plot mit 4 lines, inkrementell rs0, rs0 + rs1, usw.
    • allgemein corrections und proofreading nötig
  • Insights
    • klammere approach wird i dere section abghandlet
    • proofreading und corrections
  • Conclusion/Summary
    • isch e summary vode results section inklusive resultat vode insights section
    • nöd allzuviel elaborate, meh kurz und bündig zemefasse
  • Appendix
    • ensemble section fixe
    • proofreading

Anderi TODOs:

  • hyperparameter tuning
    • learning rate tuning - diskutiere was sinn macht zum no ufem leonhard laufe lah
  • guets Readme
    • fokus uf reproducibility, maybe Jerry wos chan update und luege das alles sinn mache
    • machine requirements ufliste, zb. BERT brucht 64 GB memory fürs data loading, RoBERTa 96 GB
    • verwiis uf config files bezüglich hyperparemter choice und generelli usage
    • klammere section finishe
    • shoutout/references zu huggingface
  • results sammle is google sheet (https://docs.google.com/spreadsheets/d/1XA4ngmFqlmX_xVFvuwe7O0c1wtapaCNGwZVt_2GAbJc/edit?usp=sharing)
  • refactoring / ufrume
    • bert-pooled useneh
    • anderi regle vode rules useneh, nur parentheses
    • trenne vom dataloading und em training/testing loop -> done, testing lauft
  • Uf Kaggle de hake bi eusem final candidate setze