Skip to content

Commit

Permalink
Merge branch 'honchar/develop' into honchar/master
Browse files Browse the repository at this point in the history
  • Loading branch information
malakhovks committed Dec 23, 2020
2 parents f241225 + 4ba7888 commit 5189290
Show file tree
Hide file tree
Showing 11 changed files with 707,014 additions and 40 deletions.
12 changes: 12 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,6 +2,10 @@

**docsim/UkrVectōrēs** – An NLU-powered tool for knowledge discovery, classification, diagnostics and prediction.

## Caution/Disclaimer

Project and documentation are in active development! For any technical clarifications and questions contact us via email [malakhovks@nas.gov.ua](mailto:malakhovks@nas.gov.ua) or via Issues.

## Choose your language / Оберіть мову

- **[Українська](#toc-ua)**
Expand All @@ -14,6 +18,10 @@

Сервіс **docsim/UkrVectōrēs** обчислює семантичні відношення між сутностями української мови в рамках обраної дистрибутино-семантичної моделі векторного представлення сутностей.

### Увага

Проєкт та документація знаходяться в активній розробці! За будь-якими технічними роз'ясненнями та питаннями зв'яжіться з нами електронною поштою [malakhovks@nas.gov.ua](mailto:malakhovks@nas.gov.ua) або через розділ Issues.

### Поняття векторного представлення сутностей

Векторне представлення (англ. Word embedding) – це техніка, яка розглядає сутності (слова, терміни, документи та інше) як вектори, відносна схожість між якими корелює з семантичною подібністю. Така техніка є одним із найуспішніших прикладів застосування навчання без учителя (unsupervised learning). Векторні представлення – техніка для опрацювання природної мови, альтернативна до традиційної, яка дозволяє відображати сутності (слова, словосполучення, терміни або документи зі "словника" на вектори дійсних чисел в малому щодо розміру "словника" просторі, а подібність між векторами корелює з семантичною подібністю між сутностями.
Expand All @@ -32,6 +40,10 @@
<a name="toc-en"></a>
## docsim/UkrVectōrēs - An NLU-Powered tool for knowledge discovery, classification, diagnostics and prediction.

### Caution/Disclaimer

Project and documentation are in active development! For any technical clarifications and questions contact us via email [malakhovks@nas.gov.ua](mailto:malakhovks@nas.gov.ua) or via Issues.

### Table of Contents

<!-- - **[Features](#features-en)** -->
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -62,7 +62,7 @@
},
"modelURL": "",
"datasetDescription": "Книга «Серце віддаю дітям»",
"tensorBoardExternalURL": "",
"tensorBoardExternalURL": "https://projector.tensorflow.org/?config=https://gist.githubusercontent.com/malakhovks/10e06a95970819a1f3297d5f2febfb18/raw/971dc56bef69ee5a31431dfe1daeede08c0f8640/suhomlinskyy-serdtse-small-tensorboard-config.json",
"tensorBoardInternalURL": "",
"language": "ua",
"index": 2
Expand Down
27 changes: 27 additions & 0 deletions server/config.models.simple.json
Original file line number Diff line number Diff line change
@@ -0,0 +1,27 @@
{
"models": {
"word2vec": [
{
"description": "Використовується нейронна векторна модель представлення слів «Олесь Гончар» (з використанням набору даних – проблеми поетики творчого доробку Олеся Гончара), алгоритм word2vec word embeddings розмірністю 500d. Сутність - слово, лематизовано, приведено до нижнього регистру. Параметри word2vec: -size 500 -negative 5 -window 5 -threads 24 -min_count 10 -iter 20.",
"name": "honchar.lowercased.lemmatized.word2vec.FINAL.500d",
"link": "",
"language": "ua",
"index": 0
},
{
"description": "Використовується нейронна векторна модель представлення слів «Художня література» (з використанням набору даних – художня література), алгоритм word2vec word embeddings розмірністю 300d. Сутність - слово, лематизовано, приведено до нижнього регистру. Параметри word2vec: -size 300 -negative 7 -window 4 -threads 6 -min_count 10 -iter 5 -alpha 0.030",
"name": "fiction.lowercased.lemmatized.word2vec.300d",
"link": "https://lang.org.ua/static/downloads/models/fiction.lowercased.lemmatized.word2vec.300d.bz2",
"language": "ua",
"index": 1
},
{
"description": "Використовується нейронна векторна модель представлення слів «Cухомлинський» (з використанням набору даних – книга «Серце віддаю дітям»), алгоритм word2vec word embeddings розмірністю 500d. Сутність – слово, лематизовано, приведено до нижнього регистру. Параметри word2vec: -size 500 -negative 7 -window 4 -min_count 10 -iter 10.",
"name": "suhomlinskyy.lowercased.lemmatized.word2vec.500d",
"link": "",
"language": "ua",
"index": 2
}
]
}
}
14,871 changes: 14,871 additions & 0 deletions server/helper-code/dataset/suhomlinskyy-serdtse-2018/konspekt-results/allterms.xml

Large diffs are not rendered by default.

Loading

0 comments on commit 5189290

Please sign in to comment.