POS_Tagger

Python 2025-07-27

POS_Tagger

设计,实现和训练您选择的(tokenize和)标记具有正确词性词性标签的给定句子的神经序列模型(RNN,LSTM,GRU等)。例如,给定输入

example玛丽有一个小羔羊

您的模型应输出

玛丽名词

有动词

det

小调节

羔羊名词

请注意,言论一部分标签通过选项卡 t字符与每个单词分开。

数据集

使用通用依赖项数据集,可在此处下载。我们建议位于UD-TreeBanks-V2.11/ud_english-atis/en_atis-ud- {train,dev,test} .conllu上的文件。仅使用第一,第二和第四列(单词索引,小写字和pos标签)。 UD数据集不包括标点符号。您可以在标记之前过滤输入句子以删除标点符号。请注意,许多语言的数据可从此资源下载。我们希望至少对英语数据进行培训的模型,但是您还可以自由培训其他语言。

下载源码

通过命令行克隆项目:

git clone https://github.com/tanalpha-aditya/POS_Tagger.git