关于这个项目
Kaggle竞争以预测哪些推文是关于真正灾难的,哪些不是
数据集
来自此存储库的数据集可以在Kaggle中找到
方法
- 数据探索
- 预处理
- 模型培训
- tf-idf(选择K-test)
- 带有n-gram(字符和单词)的TF-IDF
- 二进制矢量器(带有selectkest)
- Word2Vec(带有手套的Twitter Word vectors)
- 二进制矢量器和Word2Vec的组合
- 神经网络与Pytorch
- 卷积神经网络(带有W2V嵌入)
结果
最佳F1分数为.8。 tf_idf vectorizer和二进制矢量器的性能优于其他方法
| 。 | 精确 | 记起 | F1得分 | 支持 |
|---|---|---|---|---|
| 0 | 0.82 | 0.85 | 0.84 | 1762年 |
| 1 | 0.79 | 0.75 | 0.7 | 1284 |
| 准确性 | _ | _ | 0.81 | 3046 |
| 宏观公平 | 0.81 | 0.80 | 0.80 | 3046 |
| 加权平均 | 0.81 | 0.81 | 0.81 | 3046 |
下载源码
通过命令行克隆项目:
git clone https://github.com/khuyentran1401/Real-or-Not.git