Real or Not

Python 2025-07-26

关于这个项目

Kaggle竞争以预测哪些推文是关于真正灾难的,哪些不是

数据集

来自此存储库的数据集可以在Kaggle中找到

方法

  • 数据探索
  • 预处理
  • 模型培训
    • tf-idf(选择K-test)
    • 带有n-gram(字符和单词)的TF-IDF
    • 二进制矢量器(带有selectkest)
    • Word2Vec(带有手套的Twitter Word vectors)
    • 二进制矢量器和Word2Vec的组合
    • 神经网络与Pytorch
    • 卷积神经网络(带有W2V嵌入)

结果

最佳F1分数为.8。 tf_idf vectorizer和二进制矢量器的性能优于其他方法

精确记起F1得分支持
0 0.82 0.85 0.84 1762年
1 0.79 0.75 0.7 1284
准确性_ _ 0.81 3046
宏观公平0.81 0.80 0.80 3046
加权平均0.81 0.81 0.81 3046
下载源码

通过命令行克隆项目:

git clone https://github.com/khuyentran1401/Real-or-Not.git