2021年4月第4期Vol. 42 No. 4 2021
小型微型计算机系统Journal  of  Chinese  Computer  Systems
基于多层局部信息融合的在线论坛用户心理危机识别
刘德喜鲍力平⑺,万常选"2,刘喜平1,2,廖国琼1,2
'(江西财经大学信息管理学院,南昌330013)
2(江西财经大学数据与知识工程江西省髙校重点实验室,南昌330013)
E-mail  :dexi. liu@ 163. com
摘要:心理健康问题已经成为当今社会关注的焦点,它严重威胁着家庭和睦与社会稳定.有心理危机的用户经常通过特定的
社区论坛或者社交媒体来求助或倾述,这为用户心理危机识别开辟了 一个新的途径.论坛枯子长短不一,但判断心理危机的核 心信息往往体现在局部内容上,基于此特点,本文构建了一个结合分层长短记忆网络和卷积神经网络的多层局部信息融合模型 (Multi-layer  Partial  Information  Fusion  model,MPIF),利用论坛用户发布的枯子,检测用户的心理危机严重程度.模型的特点在
于:1)利用预训练语言模型BERT 对用户枯子中的句子进行向量化表示,充分考虑词语在不同语境中的不同含义表达;2)分别 从词、短语、以及句子层面挖掘反映用户心理危机状态的信息,采用深度分层LSTM 网络和注意力机制相结合的方式来获取待
分类枯子中词语层面以及句子层面的局部信息,利用CNN 网络中多种大小不同的卷积核来提取帖子中短语层面的局部信息;
3)采用注意力机制和最大池化层,使得模型不仅能够有效地利用局部信息给出心理危机程度的判断,同时可以将这些局部信
息展示给心理专家,辅助专家更快了解患者.基于CLPsych2019 Shared  Task 评测任务的实验结果显示,与评测时排名第一的模
型相比,MPIF 模型的官方评测指标AU-F1值(自杀风险程度a,b,c,d  4个类别的Fl 值取平均)高出3.9% .经消融实验发现, 去除LSTM 词语层、CNN 短语层.LSTM 句子层.A11-F1分别下降4%、4. 3%、2.4% .
关键词:在线论坛用户;心理危机识别;MPIF 模型;注意力机制
中图分类号:TP391 文献标识码:A  文章编号= 1000-1220(2021)04-0690-10
Multi-layer  Partial  Information  Fusion  Model  for  Psychological  Crisis  Identification  of  Online  Forum  Users
LIU  De-xi 1'2 ,BAO  Li-ping''2 ,WAN  Chang-xuan''2 ,LIU  Xi-ping " , LIAO  Guo-qiong 1'2
1 ( School  of  Information  Management ,Jiangxi  University  of  Finance  and  Economics ,Nanchang  330013 .China)
2 (Jiangxi  Key  Laboratory  of  Data  and  Knowledge  Engineering , Jiangxi  University  of  Finance  and  Economics , Nanchang  330013, China )
Abstract : Mental  health  problems  have  become  the  focus  of  social  concern , which  seriously  threaten  family  harmony  and  social  stabili ­
ty. Users  with  mental  crisis  often  ask  for  help  through  specific  community  forums  or  social  media , which  opens  up  a  new  way  to  iden ­
tify  mental  crisis  problem. The  forum  posts  vary  in  length , but  the  core  information  of  mental  crisis  is  reflected  in  the  local  content. Hereby , this  dissertation  constructs  a  Multi-layer  Partial  Information  Fusion  model  MPIF  combining  hierarchical  long  short  memory  network  and  convo
lutional  neural  network. The  model  uses  the  forum  users' posts  to  detect  the  severity  of  users' mental  crisis. MPIF
has  the  following  features. 1) Using  the  pre-trained  language  model  BERT  to  express  the  vectorization  of  sentences  in  users' posts , fully  considering  the  different  meanings  of  words  in  different  contexts  ; 2 ) Mining  information  reflecting  users' mental  crisis  from
words , phrases , and  sentences  level. Through  the  combination  of  deep  layered  LSTM  network  and  attention  mechanism , the  local  infor ­mation  at  the  word  level  and  sentence  level  is  obtained. Using  convolution  kernels  of  different  sizes  in  CNN  network  to  extract  the  lo ­cal  information  of  phrase  level  in  posts ;3) Using  attention  mechanism  and  maximum  pooling  layer ,the  model  can  not  only  effectively
use  local  information  to  judge  the  degree  of  psychological  crisis , but  also  show  the  local  information  to  psychological  experts  to  help
them  understand  patients  more  quickly. The  experiments  based  on  the  CLPsych2019 Shared  Task  evaluation  show  that  MPIF  model's  All-Fl  (The  Fl  of  suicide  risk  degree  a,b,c,d  is  taken  as  the  average  value )is  3.9% higher  than  the  top  ranked  team. After  ablation  experime
nt , we  found  that  removing  LSTM  word  layer ,CNN  phrase  layer  and  LSTM  sentence  layer, All-Fl  decreased  by  4% ,4. 3% and  2.4% .
Key  words : online  forum  users ; mental  crisis  identification  ; MPIF  model  ; attention  mechanism
收稿日期:20204)9-25收修改稿日期:2020-10-13基金项目:国家自然科学基金项目(61762042,61972184)资助;江西省教育厅科学技术 研究项@(GJJ180252,GJJ180198)资助.作者简介:刘德喜,男,1975年生,博士,教授,CCF 高级会员,研究方向为社会媒体处理、信息检索、自 然语言处理;鲍力平,男,1997年生,硕士研究生,研究方向为社会媒体处理;万常选,男,1962年生,博士,教授,CCF 高级会员,研究方向为Web  数据管理、情感分析、信息检索;刘喜平,男,1981年生,博士,教授,CCF 会员,研究方向为信息检索、大数据分析;廖国琼,男,1969年生,博士,教 授,CCF 高级会员,研究方向为社交网络推荐、数据挖掘.
4期刘德喜等:基于多层局部信息融合的在线论坛用户心理危机识别691
1引言
心理健康问题一直是社会关注的焦点,它严重威胁着家庭和睦与社会稳定⑴刘.据报道有超过2/3的自杀
事件是由心理疾病导致的⑶.及时发现有抑郁、焦虑、自杀等有心理危机问题的个体,有助于对其进行心理干预及,因此心理危机识别对后期干预起着关键作用⑷•
传统的心理危机识别主要采用填写自评量表的方式"间,但这种侵入型的方法会由于受试者的抵触而增加误报率.同时,这种方法适时性不高,且难以大规模并持续地开展.研究机构We Are Social在最新发布的《2020年4月全球数字报告》|上指出,全球使用社交媒体的用户已突破38亿大关,预计到2020年年底,世界一半以上的人口将使用社交媒体.已有研究表明,利用Reddit、微博等社交媒体数据已经成为发现心理危机用户的新手段⑺列.这些研究成果有利于将心理危机的干预时机提前,并增强干预的主动性,具有重要的社会意义.
本文以CLPsych2019shared task评测任务为研究内容,针对论坛中用户心理危机识别问题,构建了基于多层局部信息融合的在线论坛用户心理危机风险识别模型Multi-layer Partial Information Fusion Model(MPIF).CLPsych2019Shared Task评测任务是根据输入的用户帖子判断该发帖用户的心理危机程度,其中,每个用户的心理危机严重程度从轻到重依次分为4个等级a:无风险(No Risk),b:低风险(Low Risk), c:中度风险(Moderate Risk),d:高危风险(Severe Risk).示例1给出一个心理危机等级被标注为“d”的用户帖子
示例1.(用户ID1307)Help.Why should I Hve if my Ac・nes so bad,if the girl I asked to homecoming
said no,if I get made fun of so much,if I'm not smart and my mom says I won't go to college or do anything in my life like my sister,if all my friends have stopped asking me to hang out,if all I do is look in the mirror and cry,if I never smile anymore or laugh or have a good time with my friends or family.Why should I live if I can't find happiness no matter where I look・Why should I live if I have no talents,or anything special about me.Why should I live if I haven't lived up to my own expectations.Any・body's expectations.
通过对数据的观察发现,用户帖子中经常出现较长的唠叨、叙述等与心理危机关联不大的信息,且情感表达较隐晦,而能够反映心理危机的信息往住出现在某些局部的词、短语和句子上.例如示例1中的"cry","never smile"以及"Why should I live if I can't find happiness no matter where I look”等反映出该用户有非常高的心理危机等级.MPIF模型正是基于“有利于判断心理危机的核心信息往往体现在局部内容上”这一观察,使用深度分层LSTM网络,将句子层面的LSTM 网络和词语层面的LSTM网络相结合,挖掘帖子中句子层面和词语层面的特征.同时,使用CNN网络并结合多种大小不同的卷积核来提取帖子中短语层面的局部信息•本文提出了多层局部信息融合模型MPIF分别从词、短语和句子3个层面提取帖子中的局部特征,从而使模型达到更加准确的判断.
本文主要贡献在于:
1)提出基于多层局部信息融合的心理危机识别模型MPIF,该模型分别从词层面(使用词层LSTM网络)、短语层面(使用CNN网络)、句子层面(使用句子层LSTM网络)来对帖子进行特征提取,并通过词语层LSTM中的注意力、句子层LSTM中的注意力、以及CNN中的最大池化层提取帖子中的重要局部信息,并将其融合用于户心理危机程度识别.
2)使用BERT对用户帖子中的句子进行向量化表达.与传统的词向量方法相比,它充分考虑了句子中词语的之间的相互关系,以及词语在其上下文中的语义,使得语义表达更准确.
3)采用注意力机制和最大池化层,使得MPIF不仅能够有效利用局部信息,同时具有较强的可解释性.该模型不仅可以给出心理危机程度的判断,同时可以将这些局部信息展示给心理咨询专家,辅助心理咨询专家更快了解患者.
4)与CLPsych2019shared task的参赛方法相比,本文提出的模型具有较强的竞争力.相比排名第1的模型,MPIF的官方评测指标A11-F1值(心理危机程度a,b,c,d4个类别的F1值取平均)和准确度Accuracy高出了3.9%和11.2%.
2相关工作
心理危机识别是依据心理学的理论和方法对人的心理品质及水平所做的一种鉴定,在应用心理学中经
常用心理诊断的概念,指对人的心理活动和人格特征做出实质性的判断.在本文中,心理危机识别是利用机器学习、深度学习、自然语言处理等技术对人的抑郁、自杀意念、焦虑及与心理状态有密切关系的人格障碍、情绪困扰等心理问题和现象状态的鉴定和识别.
在利用社交媒体数据进行心理危机识别的早期研究中,大多是基于传统的机器学习方法.这类方法在对数据统计分析的基础上提取和选择有利于区分类别的特征,特征工程的效果直接影响分类结果.已有的研究表明⑼,通过选择合适的特征以及对多种特征组合,可以提高性能.Bridianne等人“5通过对Twitter的数据分析处理,利用词频-逆文档频率(TF-IDF)特征,使用SVM分类器来识别Twitter用户是否有自杀倾向.针对相同的任务.Braithwaite等人皿〕提取数据集中的用户属性特征与LIWC情感词典的特征,分别采用多个分类模型进行评估,最后得出结论,决策树模型的分类效果最好.Tsugawa等人利用词袋特征、LDA主题模型特征、情感词典特征以及用户属性特征相结合,并使用SVM分类器对Twitter论坛用户是否有抑郁倾向进行评估.Li等人使用用户属性特征、SCLIWC词典特征以及TextMind工具来分析新浪微博用户是否有自杀倾向.Malmasi等人〔⑷考虑了N-grams特征、句法特征、LIWC词典特征、上下文特征,并用逻辑回归模型分析用户的心理危机严重程度.Ji等人利用LIWC情感词典特征丄DA主题模型特征、词性特征、TF-IDF 特征以及Word2Vec词嵌入特征等多种特征相结合,最后使用XGBoost以及随机森林分类器分别对Reddit论坛和Twit-
wearesocial/blog/2020/04/23/digital-around-the-world-in-april-2020
692小型微型计算机系统2021 年
ter 中有自杀倾向的用户进行识别,取得了不错的效果.随着深度神经网络在其他领域取得了重大突破,近年来,
有学者将深度神经网络模型用于心理危机识别中.与传统机
器学习分类模型相比,使用词嵌入的深度学习方法十分便捷, 即使没有复杂的特征工程通常也能获得较好的结果.卷积神
经网络CNN 作为深度学习中最常用的网络结构,在心理危机 识别领域应用较多.Orabi 等人3为了预测Twitter 论坛中有
抑郁心理状态的用户,预训练了 Word2Vec 的词嵌入模型,送 入卷积神经网络中进行分类预测.Lin 等人使用特征工程
与卷积神经网络相结合的方法,利用LIWC 情感词典特征、图 像特征以及用户属性特征再送入卷积神经网络预测新浪以及
腾讯微博有心理压力的用户.Yates 等人〔⑻使用卷积神经网
络,对Reddit 和ReachOut 论坛用户进行抑郁和自我伤害倾向 检测,从而避免了繁琐的特征构建工作.
其他一些经常使用的深度神经网络架构是长短时记忆网
络(LSTM)模型,它对噪声的鲁棒性强,并且能够较好地捕捉
序列中的长期依赖关系.Sawhney 等人何在Twitter 自杀用户 数据集中,通过实验发现LSTM 能够获得了最高的召回率; Ambalavanan 等人使用了 BERT 方法作为向量表示,并使
用LSTM 网络,对有自杀倾向的网络用户进行预测;Gui 等 人0〕使用Word2Vec 进行向量表示,并使用双向LSTM 网络
对Twitter 论坛中的抑郁用户进行预测.Orabi 等人为了比 较CNN 以及LSTM 的效果,在Word2Vec 词嵌入基础上构建 了 4个神经网络模型:最大池化层的CNN 、多通道CNN 、多通 道池化CNN 、带有注意力机制的双向LSTM,在两个不同数
据集上的实验表明,基于CNN 的模型性能优于基于RNN 的 模型.Mohannadi 等人㈣将CNN 与LSTM 网络相结合预测
Reddit 论坛中有自杀倾向的用户,分别选用GloVe 和ELMo
方法作为帖子的文本表示,并将其输入CNN 、Bi-RNN 、Bi- LSTM 、Bi-GRU 等4个经典的神经网络模型中提取特征,最
后通过SVM 进行分类预测,该模型在CLPsych  2019共享任
务中获得排名第一的结果.
词向量在训练的过程中能够获取语义和句法信息,在自 然语言处理任务至关重要⑴).目前,基于深度学习的社交媒
体用户心理危机识别已有方法中,词向量大都采用
Word2Vec 、ELMo,近期的研究工作开始采用BERT. Word2Vec 是经典的词向量表示方法,其缺点在于同一个单
词在不同的上下文语境具有相同的词向量表示.针对该问题, Peters  等人""提出了 ELMo( Embeddings  from  Language  Mod ­els) ,该模型运用两层双向的LSTM 结构,将上下文无关的静
态向量变成上下文相关的动态向量.此外,Radford 等人3)提
出 了 GPT  ( Generative  Pre-Training )模型,GPT  使用 Trans ­former  编码结构,舍弃了 LSTM 的循环式网络结构,完全基于
自注意力(self-attention)机制,其主要思想是计算句子中的每
个词对于其他词的相互关系,从而调整每个词的重要性来获
取上下文相关的词向量.由于自注意力机制可以实现计算资
源的并行化,使得GPT 模型更高效.Devlin 等人〔勿在GPT 模 型的基础上,提出BERT 模型,采用双向Transformer 编码结 构,以掩码单词预测和下一句预测作为训练目标,捕获文本中
词级别和句子级别的语义表示.
日g  -
[ax
phrase-level
CNN
日 日
一一 S H E
Convolution  layer
Post
BERT
'I
'I
output  layer  :
BERT  semantic!] extraction  layer ;'
9 A
广
叫J
%
%畑
图1多层局部信息融合模型网络框架
Fig. 1 Architecture  of  multi-layer  partial  information  fusion  model
3多层局部信息融合模型MPIF
CLPsych2019Shared  Task 评测任务定义如下:给定用户
一定时间范围内在论坛中所发的N 个帖子构成的帖子序列P
=IPi  —
— ,其中帖子由IP : I 个句子构成,
P :=匕」A*,…,…,S,切},句子几丿由丨Sj 个词构成,
Sy  = 1 ,w “2,…,I  •心理危机识别任务是根据用
户发布的帖子判断用户的心理危机程度.其中,每个用户的心
理危机程度由轻到重依次分为4个等级(a :无风险,b :低风
险,c :中度风险,d :高危风险).由于本文的工作利用了用户在
一定时间范围内发布的全部帖子内容,且未在帖子粒度上对 内容进行区分,即不区分句子所属的帖子,因此,将用户发布
4期刘德喜等:基于多层局部信息融合的在线论坛用户心理危机识别693
的帖子序列表ZK为P=冶,S2,S3,■■-,5IP|I,其中IPI为帖子序列中句子的总数,且按其所在帖子的发布时间先后及其在帖子中的位置前后依次排列,形成句子序列.句子s,={w“,
,其中Is」为句子S,•中的单词个数.为了方便表达,在不引起混淆的情况下,我们也可以将某一用户的帖子序列集合简单看成词的序列,P={W],W2,W3,…,w”},n表示该用户帖子集合中单词数.
多层局部信息融合模型MPIF如图1所示,主要由5个部分组成.
1)词语语义提取层BERT
MPIF利用BERT对用户的帖子序列进行语义提取,充分考虑句子中每个词在不同上下文中对其他词的影响,以及同一词在不同上下文中的不同语义.考虑到后续模块对帖子语义的使用方式不同,MPIF分别以帖子序列P和句子s两种粒度作为BERT层的输入.以帖子序列P为输入粒度,是将某一用户的帖子序列集合P={w”W2,W3,…,w”}送人BERT预训练语言模型,得到该用户的帖子序列集合的语义表示矩阵P B=[x x,x2)x3,-x…],其中P*eRf为词向量的维数.以句子s为输入粒度,是将用户帖子的各个句子分别送入BERT预训练语言模型,得到各个句子的语义表示矩阵.对于第i个句子s,={w.i'W",…,w,.,两},得到sj=[和,和,…, %岬],其中护e用5•最后将语义表示矩阵P B和(/=1,…,"I),分别作为短语层CNN网络和词语层LSTM网络的输入.
2)短语层局部特征提取模块
短语层局部特征提取模块采用CNN网络,主要分为卷积操作和池化操作两部分,卷积操作主要是捕获文本特征中的局部信息,池化操作则完成局部重要特征的提取W在自然语言处理任务中,CNN无需对文本进行大量的预处理工作,有效减轻了特征工程的工作量•
本文将BERT预训练模型得到的帖子序列集合的语义表示矩阵PB=[X”X2,X3,“・,X”]作为卷积神经网络的输入矩阵.使用长度为m的卷积核对向量做卷积操作,滑动的步长设为1,对文本矩阵进行上下滑动,则P6可以分成P;= [九”內,”+"“・样”_”+1,”],其中,%表示向量齐到巧的所有向量组成的矩阵.利用第I个卷积核对中的每一个分量兀”执行卷积操作,得到向量c'e R"^',如式(1)所示:
c'=[c;,c;,“・,c:_”+|](1)其中C;是对分量兀“”“执行卷积操作后得到的值,称为一个局部特征映射,计算公式如式(2)所示:
c;二/仙舌“”“+勺)(2)其中,W,是卷积核的权重,按照均匀分布随机初始化,并在模型训练过程中不断学习,b,eR是偏置变量.
接着对卷积捕获的文本特征映射向量c'进行最大池化操作,提取每一个特征向量c‘的重要特征信息,即*=max\c'\.
考虑到短语的长短不同,本文采用长度不同的多个卷积核.对于9个卷积核得到的结果如下:
(3)
3)词语层局部特征提取模块
词语层局部特征提取模块采用BiLSTM网络.循环神经网络RNN已广泛应用于处理变长序列输入的NLP问题中,它能动态地捕获序列中的特征信息,将信息更新保存在循环隐藏向量中.由于过于依赖前一个隐藏向量,在算法的实现上容易出现梯度消失问题.为了能够缓解该问题,Hochreiter等人凶提出了LSTM模型,增加了记忆单元和控制门的机制,在此基础上Graves等人进行了改良与推广,使模型更高效.双向LSTM(BiLSTM)通过在两个方向上处理序列,一个按正向处理输入序列,另一个按反向处理输入序列,利用了正向和反向的上下文,生成两个独立的LSTM输出向量序列.每个时间步长的输出是两个方向上输出向量的串联.本文采用的BiLSTM模型与Graves等人的方法相似.词语层面的BiLSTM网络主要分为词编码器以及词级别的attention机制.LSTM接收一个以词语为单位的句子作为网络的序列化输人给定一个句子S={W],W2,…,w“J,其BERT预训练结果为sB=[如,巧,七,…內“],当前时刻LSTM单元的输入为第r个单词的向量以及r-1时刻的隐藏向量时刻各状态和门控信号更新方式如公式(4)-公式(8)所示:
i,=<7g,+W»+血“+仇)(4)
/;=0-(W^x.+W v h,_t+W^,.,+b f)(5)
c,=爪_\+i,tanh{+W^h,^+»)(6)
q=b(W*x,+W打+Wg“+切(7)
h,=o,tanh(c,)(8)其中LSTM主要由3个门结构来控制模型,分别是输入门,遗忘门力、输出门。,工,为r时刻记忆单元的状态,o•为sigmoid函数,巾必为双曲正切函数,W为的权重,b为偏置值.
我们使用双向LSTM得到单词的双向序列表示,其中双向LSTM包含前向LSTM读取顺序由勺到鬥”,以及后向LSTM读取顺序由s到%,,将双向LSTM两个方向上的隐藏向量进行拼接,得到隐藏层的输出,具体公式如式(9)-式(11)所示:
~h,=LSTM{x,}(9)
^=LSTM(x,),te[Isl,1](10)
h,(11)经过词语层面的LSTM网络之后,获得各个词的新的向量编码序列人,它包含了单词w,周围两个方向的信息.
词级别注意力机制的目的是要把句子中对判断心理危机更有帮助的词赋予更大的权重•本文通过将h,输入到一个单层的感知机(MLP)中得到的结果u,作为h,的隐含表示.单词的重要性用u,和一个随机初
始化的上下文向量"”的相似度来表示,然后经过softmax操作获得归一化的attention权重矩阵%,代表句子s中单词叱的权重•最后将句子向量o看作组成句子s中词向量的加权求和.具体公式如式(12)■式(14)所示:
u,=tanh(W w h,+瓦)
=呦(叮%)
'丫严(叮%)
°=X ah
小型论坛模板
4)句子层局部特征提取匾块
(12)
(13)
(14)
694小型微型计算机系统2021年
通过词语层局部特征提取模块,得到帖子中各个句子的句子向量,将这些句子向量送入句子层BiLSTM网络,并使用句子级别的注意力机制,使得模型区别对待不同句子在判断心理危机上的作用.设帖子的第i个句子si的句子向量为,使用类似词语层BiLSTM网络模型,获得隐藏层的输出向量,如式(15)-式(17)所示.
丘=面帝(q),iw[l,IPI](15)
h i=LSTM(o i'),ie[\P\,1](16)
",=匸㊉匸(17)同理,使用类似词语层BiLSTM网络模型中的注意力机制,得到帖子的向量表示0,如式(18)-式(20)所示.
u,=tanh(W s h i+b s)(18)
exp(叮叫)
OLi-—(19)
'exp(吗u,)
=X%(20)
5)输出层
将短语层CNN网络的序列化输出和句子层LSTM的序列化输出进行拼接,构成新的序列化特征,通过一层全连接层和softmax层将帖子P分类到心理危机的4个不同程度(类别)上•计算方法如式(21)、式(22)所示:
v=6®6(21)
y=softmax(W m v+b y)(22)其中<5为句子层局部特征提取模块的输出向量,©为短语层局部特征提取模块的输出向量,㊉为拼接操作,W”为权重矩阵,E为偏置值.最后,用负对数似然函数(Negative Log Likelihood)作为训练损失,如式(23)所示:
L=-X y^ogy k(23)
k
其中%和久分别表示第R个用户的人工标签与预测结果.
与已有的心理危机识别模型相比较,本文提出的多层局部信息融合模型MPIF具有以下特点:
1)输入层的语义表示更准确.由于BERT预训练语言模型在大规模语料上学习所得,它充分考虑了句子中每一个词语对上下文中其他词语的影响,以及同一个词语在不同语境中的不同含义表达.
2)强化局部信息在心理危机识别中的作用.由于在用户发布的帖子集合中,反映用户心理危机状态的信息通常局限在特定的句子、短语以及词语上,MPIF模型从这3个层面抽取局部信息.带注意力机制的词语层LSTM网络不仅能有效表示整个句子的语义,还能挖掘句子中的词语层面上的局部特征.带注意力机制的句子层LSTM网络不仅能有效表示全部帖子内容的语义,还能挖掘帖子中的重要句子.在一些用户帖子中,某些句子长度较短或情感表达较隐晦,仅利用词语层面的LSTM网络难以获取足够的特征信息来对帖子进行判断,但同一帖子中不同句子之间却有密切的情感联系.所以,MPIF模型将句子层面的LSTM网络和词语层面的LSTM 网络相结合,通过词语层面的LSTM获取句子内部的语义信息,通过句子层面的LSTM网络挖掘整个帖子中句子之间的情感联系.同时,使用短语层面的CNN网络,通过多种大小不同的卷积核,挖掘帖子中词组和短语的语义信息,以弥补词层面和句子层面在刻画帖子内容时粒度过小和过大的问题.
表1人工标注示例
Table1Manual annotation examples
用户发帖内容标签标注说明
I lost a good friend today She
There was no evi-was40years old.My heart
breaks when I think about
No dence that this person them,and I can't understand
Risk(a)was at risk of sui-how she could just leave.
cide.
Can I please talk with some-There may be some
one?I*m feeling slightly sui-
Low
Risk(b)
factors that suggest cidal,but mostly just ideations.risk,but this person
I feel just really really really is at much of a risk off.of suicide.
I need help…1'm going
There are some indi-
cations that this per-through some difficult times Moderate
son may be at real and need some help.I am very Risk(c)
depressed and lonely.
risk of attempting
suicidet.
I have a specific suicide plan The author believe and the means to carry it out.V
Severe
this person is at high ve told some close friends and
Risk(d)
risk of attempting my therapist knows V m plan-suicide in the near fu-ning to kill myself.ture.
3)具有更强的可解释性.采用注意力机制和最大池化层,使得MPIF模型不仅能够有效利用局部信息,同时具有较强的可解释性.该模型不仅可以给出心理危机程度的判断,还可以将这些局部信息展示给心理咨询专家,辅助心理咨询专家更快了解患者.
4实验与结果分析
4.1数据描述与评测指标
实验使用CLPsych2019Shared Task中的子任务A,即通过用户在特定论坛版块上发布的帖子,识别用户的自杀风险等级.数据集来源于Reddit论坛SuicideWatch2板块中用户2015年发表的帖子集合,包括帖子id、匿名用户id、发帖时间、论坛名称、帖子标题以及帖子内容等信息.数据集包括训练集以及测试集,训练集中人工标注了496个用户(共发布了919条帖子)的心理危机程度;测试集中人工标注了125名用户(共发布了186条帖子)的心理危机程度.人工标注的心理危机程度共分4个等级,用a、b、c、d表示,分别表示帖子作者
2https://ddit/r/SucideWatch/