ZIMUHOME
直面内心,勇于自目。专注亚文化领域!

D/s关系中的sub惩罚

2022-06-18

惩罚是指用来减少、减慢、移除不想要的行为,这类技巧叫做行为减少器(behavior decelerator),注意被惩罚的是某种行为而不是被惩罚者本身(这一点我在《管教:规训的作用》中有详细说明)。

正向惩罚,又称第一型惩罚,实验者在环境中增加令人厌恶的刺激,以对行为进行惩罚。例如在某个行为之后,以sp作为刺激,造成该行为出现频率减少。

负向惩罚,又称第二型惩罚,也叫做omission,是将环境中的正向强化减少。例如在sub进行某个行为之后,以拿走sub经常搂着睡觉的毛绒玩具作为刺激,造成sub进行该行为频率的减少。

与强化一样,辨认一个惩罚不需要经常提到它的正向或负向。区分两种惩罚可以根据是否引入一个新的事物(第一型惩罚),如责骂、sp,或移除已有的东西事物(第二型惩罚),如拿走sub的小熊。另外,惩罚只是一个“短暂的压抑”(temporary suppression),某些行为心理学家认为惩罚是一个“初级过程”,也就是完全独立的学习现象,与强化有所区别。

关于负向强化和负向惩罚的区别,举一个例子,brat想通过皮来获得Dom的板子,负向强化就是不理她,随便皮,Dom会忍耐她的小脾气,此刻brat就会因得不到惩罚而出现厌恶的刺激。而负性惩罚则是,皮的时候反而无缘无故的对她好(想要挨板子这种正强化逐渐减少),这两种方法都会降低brat皮的行为频率。

惩罚的缺点
在行为改变上,虽然惩罚与强化一样有效,但是惩罚可能带来不少副作用:

首先会令到目标在情绪上表现的恐惧、生气,让其变得焦虑不堪。

惩罚除了控制特定行为,也一并影响其他行为。例如,Dom因为sub没按规定的时间睡觉,决定对她进行sp惩罚,在惩罚的过程中sub得到了教训和疼痛。虽然Dom最初只想加强sub的时间观念,但是sp这种惩罚所带来的疼痛感,可能会影响到sub整个的心理状态。

比起强化,惩罚需要经常去监视目标行为。举一个日常的例子,小朋友因为帮忙做家务受到奖励,他会主动去做家务。而且他会主动让家长知道,换来父母给予想要的奖励。若他因为不帮忙做家务而受到惩罚的话,家长就需要经常去检查这个小朋友,因为小孩不会主动告诉父母自己没有家务 (concealment) 而想受罚(这种行为对brat不成立)。

惩罚令到目标感到更加暴力。也易令惩罚使用者误用权力(在DS中表现为对Dom质量,包括品质、道德感、知识水平要求很高)。

因为惩罚习惯化而通常使用强度也要越来越大(存在阈值问题)。

代替惩罚
避免反应(Response Blocking):改变环境令到目标不能作出反应。

消弱(extinction):复杂行为的发生有时候是因为有正向强化物支持而导致的。例如在为什么有些小朋友喜欢调皮的研究中发现,他们作出行为失当是因为想得到家长的关注。只要父母关心小孩(withdraw reinforcer)就可以减少上述问题。这种行为很像brat刻意调皮以获得Dom的关注和惩罚。在另一个研究中,比较老师如何训斥调皮学生的方法,发现老师如果偷偷细声地骂会比公开大声地斥责学生讨厌的行为,学生反而减少一半他们的不好行为。换言之,责骂其实是一种强化物。在其他研究治疗一些残慕行为也发现病患不断重复伤害自己身体是因为怕失去了照顾者的倍伴。

差别性强化(Differential Reinforcement):只对个别目标行为强化。好处是让目标知道他们除了不应做什么,也同时教导他们什么可以或应该去做。

不相容行为的差别性强化(DRI):在没有惩罚的情况下强化特殊的不相容行为,这种方法用来减少已经频繁出现的行为,例如奖励sub安静地坐一旁读书而减少其独自发呆胡思乱想的行为。

其他行为的差别性强化(DRO):强化欲消除行为之外的任何其他行为,例如想减少sub钻牛角尖的行为则可改为增加她去做其他的事情的鼓励(转换心态)。

交替行为的差别性强化(DRA):将强化物用在较为认可的行为,而不是欲消除的行为上。通常Dom想减少不想要行为,告诉sub什么不可以去做,但很少会教他们什么是可以做。DRA就是透过奖励目标一些其他好的行为,让更多好的行为去代替不好的。

无条件强化(Noncontingent reinforcement):不用要求要先做什么都能得到回报。例如Dom不必特意强调先后顺序和规则性,只要能最终做到就可以。

暂停(Time-out/In-school suspension):类似负向惩罚,当目标出现不想要的行为,将其带离原本愉快的环境。例如摸sub的头会让她处在满足、幸福的状态,这时她出现了一个你不喜欢的行为,比如看了一眼手机,暂停的意思就是需要Dom停下抚摸行为。

强化程序
现在我们再次回到“强化”:

当sub所处环境中足够多的变因被减少或是被控制时,他们在强化后的行为型态将明显的能够被预测。甚至当强化的速率适应于特定方法时,非常复杂的行为也能够被预测。强化程序是用来测定被强化的反应。有两种极端情况,一种是连续强化,指强化所有反应;另一种没有反应被强化。

变动比率强化(Variable ratio schedule,VR):在不同的反应次数强化,有一个大约的平均值,例如玩老虎机不知道什么时候会中奖。
固定比率强化(Fixed ratio schedule, FR):每固定次数反应都被强化,比如sub做了10件让Dom非常开心的事情(记在本子上)就可以得到一个比较大的奖励。

变动时距强化(Variable interval schedule,VI):在经过一段不固定的时间之后强化,有一个大约的平均值,并假设在这段期间至少有一次反应。例如sub知道自己会被Dom打一次sp,但她不知道自己具体何时会被打,因为无法预测,所以会产生一个稳定的检查行为。

固定时距强化(Fixed interval schedule,FI):从训练开始或先前一个强化之后经过特定时间长度之后强化,比如:sub在Dom的控制下养成了某个需要长时间培养的好习惯,像阅读、健身。

D/s关系中的sub惩罚
各种强化项目的不同反应行为比率,以支线标示各个特定强化物。

由上图我们可以看出,比率强化能够比间隔强化产生更高的反应频率。变化强化也比固定强化产生更高的反应频率。变化比率强化产生最高的反应频率,且对消弱有较大的抵抗力,赌博心态是变化比率强化最有代表性的例子。在固定比率强化中,强化之后会有一段反应暂停时间,称之为后强化暂停,在图表上呈阶梯状。固定间隔强化也有后强化暂停,但是在图表上呈现的是扇型。在已消逝的时间没有强化刺激,因此对象学会了平缓的速率反应。如果sub是一个被固定比率强化的对象,会有一个为获得强化行为次数的瞬间增加,然后sub会被观察到在强化来到之前有一段周期性的暂停。这种现象被称为比率弯曲,对照在图形上的顺序为后强化暂停、比率上升、强化。

间歇性强化
比起每做一个行为就有奖励,与持续性强化(continous reinforcement)不同的是,间歇性强化(intermittent)指每一个反应都不一定有后果。与赌徒上瘾的逻辑相同,因为不能确定何时有回报,这种心态反而会鼓励赌徒,使该行为更难消失 (resistant to extinction)。目标习惯了有时会没有奖励,但不是永远没有机会得到奖励。

换言之,持续性强化的效果虽然快,但是来的快去的也快,所习得的行为也很快。

影响强化程序因素
某些因子的增加和减少,能够改变强化和惩罚刺激的效果,例如:

强化物的质与量:一般越多越容易强化某行为。给予1000人民币与1元去要求别人做事,正常来说前者会吸引人(重赏之下必有勇夫)。其实改变效果的因子大多有生物学上的理由。生物个体体内恒定可以用来解释满足感,例如生物个体需要补充糖类的时候,则糖的甜味会成为一个强化刺激,当生物体内的血糖浓度升高,甜味的刺激效果就会降低,甚至产生厌恶感。而不同的强化物对不同目标亦有不同的效果,只有投其所好[11]才能令强化效果更显著。另外,对于控心型的Dom而言,不建议予一些实质的强化物,透过一些非物质(nontangible)的强化物会更好。

附带性:如果一个刺激并非总是伴随在行为之后,则刺激的效果将减少;如果一个刺激附带在每一次行为之后,刺激的效果较大。例如sub习惯偷懒,而对于偷懒的处罚是偶然性的,并非每次偷懒都会处罚,则处罚的效果不如每次偷懒都处罚的效果。而加强目标反应则需要明确清楚做每件事情所带来的结果(explicit),例如Dom应说“你要安静地坐爸爸旁边”而不应该说“你要乖些”Dom应该说“这次考试你要考到超过70分”而不是“你要努力学习”。

强化延迟:个体进行一个行为过后,刺激回馈的立即性,会影响刺激的效果。行为与刺激的间隔愈短,效果愈大。比如sub做了让你讨厌的事情,过了一周你再对她惩罚,那效果肯定是不好的。这些叫做continous reinforcement,即指每当观察到目标有想要的行为,就要尽快立即给予相应的后果。

行为惯性(Behavioral momentum):当sub表现的很乖她会习惯的得到摸头顺毛这种回馈,当某一次即使她很乖内有得到Dom的顺毛,仍会较大机率继续乖下去。
规则化:事先的指示会影响人们如何回应。

强化历史:有过去经验而对比到未来会如何(behavioural contrast)。

满足感/厌腻感:个体对刺激的欲望愈大,刺激的效果也愈大;sub已经对某个刺激感到满足或是厌腻,那么该刺激将不再有效果。

其中强调即可性和附带性能够用神经化学来解释,当生物个体受到强化刺激时,大脑中的多巴胺通道将被活化,这些通道组成的网络释放短暂的多巴胺脉冲到许多树突,造成刚被活化的的突触对输出讯号的感应加强,因此造成强化刺激行为的出现概率也会增加。在统计学上显示对行为的强化刺激成功。

强化物的类型与作用
类型:

初级强化物 (primary reinforcer):以天生固有 (inherited) 的强化,作为一个刺激或状态,通常具有生物学上的理由(如爱,食物,睡眠)。
实质强化物(concrete reinforcer):一种看得见摸得着的物件,如零食、玩具等。对较年幼的小朋友很有效。
社交强化物(social reinforcer):透过一些手势或动作来回应目标行为。例如Dom给sub一个温和的表情、更多的关注或者称赞[18][19]。
活动强化物(activity reinforcer):指目标有机会做他们想做的事。详见普墨克原则(Premack Principle)。
内在强化物(intrinsic reinforcer):指目标不需靠外在的鼓励,而是由心选择自己想做的某些行为。
作用:

这些强化物主要用来:

增加强化价值,使sub更渴求该奖赏而加强强化效果。
提供讯息,让sub知道某些回应是他们应该去做的。
标记(marking),突出回应的意义,例如给sub写:XX所有。
连结(bridging),让回应与奖励连结起来,让指令与行为结合起来。
塑型
塑型(Shaping)可以说是Dom对sub的最终影响,是强化和惩罚的共同作用,也是Dom精心雕刻的最终完成品。sub会改掉很多自身的缺点,变的更加优秀,更加适合自己的Dom。

本文引用自网络,原文作者:Takaki 文章内容不代表本站观点