Skip to content

Commit

Permalink
Merge branch 'master' of github.com:jsksxs360/AHANLP
Browse files Browse the repository at this point in the history
  • Loading branch information
jsksxs360 committed Aug 4, 2021
2 parents ebc0f17 + 301d25a commit 63f410b
Showing 1 changed file with 21 additions and 12 deletions.
33 changes: 21 additions & 12 deletions github/w2v.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,38 +2,47 @@

下面提供一些训练好的 Word2Vector 模型,供大家使用。

### 202103
### [20210720](https://pan.baidu.com/s/1zECO4re43orEOwdZrO7rUg) (提取码:w86y)

使用 2021 年 7 月 20 日的 Wiki 中文语料训练,使用 Skip-Gram 模型训练,单词维数 300,训练窗口 10。

- 【模型】Google_word2vec_zhwiki210720_300d.bin
- 【语料】zhwiki_210720_preprocessed.simplied.zip

注:语料已经使用 [AHANLP](https://github.com/jsksxs360/AHANLP) 做过分词处理(未去停用词)。

### [202103](https://pan.baidu.com/s/1yPLp3UERXFb-NZ_vGlYZKg) (提取码:gjy2)

使用 2021 年 3 月的 Wiki 中文语料训练,使用 Skip-Gram 模型训练,单词维数 300,训练窗口 10。

- 【模型】[Google_word2vec_zhwiki2103_300d.bin](https://pan.baidu.com/s/1Wtzz0mzhsaAcw6WVOvhgLQ) (提取码:izv2)
- 【语料】[zhwiki_2103_preprocessed.simplied.zip](https://pan.baidu.com/s/1wLlQ8Z5fH2fCkvFJowWQLg) (提取码:eq2k)
- 【模型】Google_word2vec_zhwiki2103_300d.bin
- 【语料】zhwiki_2103_preprocessed.simplied.zip

注:语料已经使用 [AHANLP](https://github.com/jsksxs360/AHANLP) 做过分词处理(未去停用词)。

### 201710
### [201710](https://pan.baidu.com/s/1fGN4vjvYgkEYddEWXhUlHw) (提取码:1b44)

使用 2017 年 10 月的 Wiki 中文语料训练,使用 Skip-Gram 模型训练,单词维数 300,训练窗口 10。

- 【模型】[Google_word2vec_zhwiki1710_300d.bin](http://pan.baidu.com/s/1i4BLryH)
- 【语料】[zhwiki_1710_preprocessed.simplied.zip](http://pan.baidu.com/s/1hsMmRbu)
- 【模型】Google_word2vec_zhwiki1710_300d.bin
- 【语料】zhwiki_1710_preprocessed.simplied.zip

注:语料已经使用 [AHANLP](https://github.com/jsksxs360/AHANLP) 做过分词处理(未去停用词)。

### 201709
### [201709](https://pan.baidu.com/s/1xT9CXg0eMXK1B7dj6hrr8Q) (提取码:rdct)

使用 2017 年 9 月的 Wiki 中文语料训练,使用 Skip-Gram 模型训练,单词维数 300,训练窗口 5。

- 【模型】[Google_word2vec_zhwiki1709_300d.bin](https://pan.baidu.com/s/1o8zEuYA)
- 【语料】[zhwiki_1709_preprocessed.simplied.zip](https://pan.baidu.com/s/1nuXWdUL)
- 【模型】Google_word2vec_zhwiki1709_300d.bin
- 【语料】zhwiki_1709_preprocessed.simplied.zip

注:语料已经使用 [AHANLP](https://github.com/jsksxs360/AHANLP) 做过分词和去停用词处理。

### 旧版
### [旧版](https://pan.baidu.com/s/1s8SO8MOHEFDBo2qVaFiEZA) (提取码:w1p5)

单词维数 200。

- 【模型】[wiki_chinese_word2vec(Google).model](https://pan.baidu.com/s/1kUD0jzh)
- 【语料】[wiki_chinese_preprocessed.simplied.txt.tar.gz](https://pan.baidu.com/s/1dFgIbTZ)
- 【模型】wiki_chinese_word2vec(Google).model
- 【语料】wiki_chinese_preprocessed.simplied.txt.tar.gz

注:语料已做过预处理。

0 comments on commit 63f410b

Please sign in to comment.