weibo rmdt

Python 2025-07-26

微博谣言检测

一个小型项目,可以在新南微博中自动爬网,并尝试检测指定的博客是否是谣言。

环境

  • Python> = 3.7
  • 火炬> = 1.6.0
  • 需求.txt

数据集

该项目中使用的数据集与一些小集合合并。所有这些都在文件夹data/dataset/raw/下载到此仓库中

使用Extractraw.py生成trainvalideval数据集。

预审计的矢量

通过此链接从repo:中文 - 媒介从repo下载原始预告片的矢量

在此项目中,为避免巨大的内存职业,将原始向量处理到二进制数据文件pretrain_wv.vec.dat和index文件pretrain_wv.index.json ,并使用dataSet.py中的类PretrainedVector来加载它。 PROTRAIN_WV.INDEXPRAIN_WV.INDEX您可以从发布页面下载pretrain_wv.vec.dat

火车

有关详细信息,请参见train.py。

训练后,它将自动对Eval数据集进行评估。

模型

有关详细信息,请参见Model.py。

在此项目中,它只是使用固定参数来训练模型,以下输出中显示了最终上传的RMDT.PT.PT模型的参数。

 RumorDetectModel (
  ( origin_bilstm ): LSTM ( 300 , 32 , batch_first = True , bidirectional = True )
  ( comment_lstm ): LSTM ( 300 , 64 , batch_first = True )
  ( comment_dropout ): Dropout ( p = 0.5 , inplace = False )
  ( attn_U ): Linear ( in_features = 64 , out_features = 32 , bias = False )
  ( attn_W ): Linear ( in_features = 64 , out_features = 32 , bias = False )
  ( attn_v ): Linear ( in_features = 32 , out_features = 1 , bias = False )
  ( linear_dropout ): Dropout ( p = 0.5 , inplace = False )
  ( linear ): Linear ( in_features = 128 , out_features = 2 , bias = True )
)

用法

有关详细信息,请参见Main..py和rmdt.py。

一个简单的示例是main.py和main.ipynb。

已知问题

由于模型限制,输入数据必须同时具有原始博客文本和至少一个注释文本,否则可能会引发异常。


如果您认为这个项目对您有帮助,请播放它,让更多的人看到它。 :)

下载源码

通过命令行克隆项目:

git clone https://github.com/ww-rm/weibo-rmdt.git