XLink

Entity Linking System from KEG

1. XLink Data Update Tool

Generate necessary data for XLink from Wikipedia and Baidu Bake. The process is shown in the Fig below, and for the detailed codes, please check ./datatool/main.py.

通过数据更新工具生成的文件对应的 XLink 项目路径详见 XLink 数据文件汇总 V1。

从 raw_corpus 得到 standard corpus。对于 infobox，需要先从 pre_raw_corpus 得到 raw_corpus.
从 standard corpus 中抽取 mention_anchors 和 out_links.
根据 mention_anchors 构建 mention_anchors.trie，用于计算 freq(m)
用 freq(m) 来 refine 第 2 步得到的 mention_anchors
过滤 mention_anchors，过滤掉 link(m)<2, link_prob<0.0001 的 mentions. 得到新的 mention_anchors.
扩展新得到的 mention_anchors，同时得到 title_entities：将 entity 中去掉括号的 title 作为 mention 在 mention_anchors 中出现过，但是该实体本身并没有在文本中以 title 为 mention 被引用过，则将其加入到 mention_anchors 中。
根据 mention_anchors 计算概率，生成字典树和三个概率文件

2. XLink Predictor

The prediction method of XLink can be found in modules.prob_gm_predictors.xlink.

The basic idea is maximizing $P(e|m, C, N) = P(e|m)*P(e|C) * P(e|N)$, where $P(e|m)$ is counted from Wikipedia corpus, $P(e|C) = \frac{1}{m}\sum_{w_i\in C} cos_sim(e, w_i)$, $C$ is the context of the given mention, $P(e|N) = \frac{1}{n}\sum_{e_i\in N} cos_sim(e, e_i)$, $N$ is the context disambiguous mentions' entities.

Ref

[1]. XLink 数据更新文档 V1

[2]. XLink 数据文件汇总 V1

[3]. The online web service of XLink.

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
TrainJointModel		TrainJointModel
assets		assets
data/jar		data/jar
datatool		datatool
evaluation		evaluation
modules		modules
utils		utils
README.md		README.md
XLink 数据文件汇总.md		XLink 数据文件汇总.md
XLink 数据更新文档.md		XLink 数据更新文档.md
config.json		config.json
config.py		config.py
generate_entity_trie.py		generate_entity_trie.py
generate_mention_trie.py		generate_mention_trie.py
generate_vocab_trie.py		generate_vocab_trie.py
get_in_links.py		get_in_links.py
main.py		main.py
merge_manual_data.py		merge_manual_data.py
models.py		models.py
stats.py		stats.py
test.py		test.py
word2vec.py		word2vec.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

XLink

1. XLink Data Update Tool

2. XLink Predictor

Ref

About

Releases

Packages

Contributors 2

Languages

solitaryzero/XLink

Folders and files

Latest commit

History

Repository files navigation

XLink

1. XLink Data Update Tool

2. XLink Predictor

Ref

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages