这些由 Jamie DeCoster 编写,部分来自西北大学 Alice Eagly 教授的元分析课程。 如果您希望引用本文档的内容,它们的 APA 参考文献是 DeCoster, J. (2009)。 元分析笔记。 从 http://www.stat-help.com/notes.html 检索<您下载此文件的月、日和年>
- 元分析的定义(来自 Glass,1976):为了整合结果而对大量分析结果进行的统计分析。
- 荟萃分析的基本目的是为我们从实验研究中要求的文献综述提供相同的方法论严谨性。
- 我们将人类或动物数据的直接调查称为“初级研究”。“使用统计方法和分析对初级研究的总结称为“定量综合”或“元分析”。”使用传统文学方法对初级研究的总结是称为叙述性综述。”
- Meta 分析通常集中在一个解释变量和一个响应变量之间的关系上。这种关系,X 对 Y 的影响,”定义了分析。
- Meta 分析提供了在综述中共享主观性而非真正客观性的机会。元分析的作者有时必须根据自己的判断做出决定,例如在定义分析的边界或准确决定如何对调节变量进行编码时。 然而,元分析要求将这些决定公之于众,以便接受其他学者的批评。
- 在叙述性综述中检查的研究样本是基于作者的心血来潮,而不是公开共享的标准。
- 叙述性综述依赖于评估和比较研究的统计显着性。 显着性取决于样本大小,因此只需添加更多参与者,就可以使弱效应看起来更重要。
- 叙述性综述缺乏关于如何从个别研究的结果中概括以形成关于整个文献的结论的系统规则。
- 叙述性综述不太适合分析调节变量的影响。 叙述性综述的作者很少就方法论的变化如何影响效果的强度得出明确的结论。 在寻找调节变量的影响时,他们通常也没有报告他们用来对研究进行分类的规则。
- 许多研究文献已经变得太大,如果没有统计推断的帮助,人们无法准确的综合这些文献所做出的贡献。
- 到目前为止,荟萃分析最常见的用途是在定量文献综述中。 在这些评论文章中,作者选择了在大量不同情况下在初级研究中进行过调查的研究发现或“结果”。然后他们使用元分析来帮助他们描述研究的整体优势。 效果,以及在什么情况下它会变强和变弱。
- 最近,随着元分析技术知识的普及,研究人员开始在主要研究论文中使用元分析摘要。 在这种情况下,荟萃分析用于提供支持特定理论陈述的信息,通常是关于正在进行的研究中关系的整体强度或一致性。 正如预期的那样,计算元分析摘要通常比执行完整的定量文献回顾要简单得多
- 定义所感兴趣的对象之间的理论关系。
- 收集提供这种关系数据的研究。
- 对研究进行编码并计算效应大小。
- 检查效应大小的分布并分析调节变量的影响。
- 解释和报告结果。
- 荟萃分析将苹果和橙子加在一起。 文献综述的目的是概括初级研究中的差异。 在叙述性评论中和在元分析中一样容易出现过度概括。
- Meta 分析忽略了研究之间的定性差异。 荟萃分析不会忽略这些差异,而是将它们编码为调节变量。 这样,它们的影响就可以得到实证检验。
- Meta分析是一个垃圾进,垃圾出的过程。 这是真的。 然而,由于元分析的具体内容总是被呈现出来,因此检测不良的元分析应该比检测不良的叙述性评论更容易。
- Meta 分析忽略了研究质量。 学习质量的影响通常被编码为调节器,因此我们可以看到好与坏的学习之间是否存在任何差异。 如果确实存在差异,则可以从分析中删除低质量的研究。
- Meta 分析无法得出有效结论,因为仅发表了显着的结果。 与叙述性评论相比,元分析实际上受这种偏见的影响要小,因为一个好的元分析会积极寻找未发表的结果。 叙事评论很少基于对文献的详尽搜索。
- Meta 分析只涉及主要影响。 相互作用的影响是通过调节分析来检查的。
- 元分析被其支持者认为是客观的,但实际上是主观的。 元分析依赖于共同的主观性而不是客观性。 虽然每项分析都需要某些主观决定,但这些决定总是明确说明,以便接受批评。
- 在为荟萃分析选择假设时,您应该考虑几件事情。
- 应该有大量的可用文献,并且应该是可量化的。
- 假设不应该需要对大量研究进行分析。
- 话题应该是别人感兴趣的。
- 应该从分析中获得一些特定的知识。 进行荟萃分析的一些原因是为了
-
确定效应的存在
-
确定效应的大小。
-
解决文献中的差异。
-
确定影响的重要调节因素。
-
在进行元分析总结时,您经常将兴趣限制在确定效应的存在和估计其大小上。 然而,定量文献综述通常应该超越这一点,并确定哪些研究特征可以调节效应的强度。
-
定义你的研究问题的第一步是决定你将使用哪些理论结构作为你的结果的解释和响应变量。
-
你需要决定你将使用的effect size。 如果解释变量通常表示为分类变量,则您可能应该使用
$g$ 。 如果解释变量通常表示为连续变量,则您可能应该使用$r$ 。 -
如果你决定使用效果尺寸
$g$ ,您需要精确定义您将构成效果尺寸基础的对比度。 对于简单的设计,这可能是(实验组 - 对照组)。定义对比也指定了你的效果大小的方向性(即符号的含义)。 -
如果您决定使用效果大小 r,则需要定义要相关的变量的方向性。有时在不同的研究中以不同的方式测量双极结构。 例如,一项研究可以使用外向性测量,而另一项研究可以使用内向性测量。 这两个测量相同的双极结构,但具有相反的含义。 一旦您指定了构成相关性的变量的方向性,相关性符号的解释就会自动定义。
- 一旦确定了要检查的效果,就必须确定要检查的人群。 如果您正在执行元分析总结,您通常会为您的总体选择非常实用的边界,例如特定论文中报告的实验。然而,定量文献评论的总体应该在更抽象的理论水平上进行定义。 在后一种情况下,您建立一组特定的纳入和排除标准,研究必须满足这些标准才能纳入分析。
- 此阶段的目标是定义一个合理的合成目标群体。 您希望您的限制足够窄,以便纳入的研究都在研究相同的基本现象,但又要足够广泛,以便通过综合获得一些无法通过查看单个研究轻松获得的东西。
- 您必须具备的第一个标准是研究需要测量定义您的效应的解释变量和响应变量,并提供对它们之间关系的估计。 没有这些信息,您就无法通过元分析进行研究。
- 您可能还想排除尚未正式撰写的研究。 如果论文中没有提供详细信息,则很难对研究进行适当的编码。 您无需撰写即可获得数据的研究也不太可能是所有未发表研究的真正随机样本——通常这些数据最常从您认识的研究人员那里获得。 这可能会使您的分析结果产生偏差。
- 你用来定义荟萃分析总体的每一个附加标准都应该写下来。 在可能的情况下,您应该提供标准包含或排除的研究示例,以帮助阐明规则。
- 您应该预料到您的纳入和排除标准列表会在您的分析过程中发生变化。 随着您更多地参与综合,您对文献的看法将得到更好的了解,并且您可能会发现您的初始标准要么删减了您想要包括的部分文献,要么不够严格以排除某些研究 你认为与你想分析的那些根本不同。 您应该随时修改您的标准,只要您认为有必要,但是如果您在开始编码后这样做,您必须记住重新检查您已经完成的研究。
-
一旦你确定了你的荟萃分析的界限,你需要找到所有不在这些界限内的研究。 在进行元分析总结时,您有时会在一开始就确切地知道要包括哪些研究。 对于其他摘要和所有定量文献综述,您需要进行详细搜索,以找到在您定义的人群中检验过相关效应的所有研究。
-
全面文献检索的步骤是:
- 使用相当开放的指南检索文献以找到可能的分析候选对象。 您应该尝试找到所有真正符合您标准的研究,即使您的搜索还包括大量不相关的研究。 更具体的细节将在第 3.2 节中提供。
- 编制一份完整的候选人名单。 许多研究会在您的多次搜索中出现,因此您需要将结果合并到一个列表中,其中每个研究只出现一次。 EndNote、ProCite 或 Reference Manager 等参考软件在此处可能会有所帮助,因为它们将允许您在组合来自多个搜索引擎的结果时自动丢弃重复的研究。
- 检查候选人名单中每项研究的标题和摘要。 排除任何明显与您的荟萃分析无关的研究。 如果您根据标题和摘要不确定一项研究是否符合您的纳入标准,请不要排除它。 通过这次初步测试的研究是您的候选名单。
- 检查缩减候选列表中每项研究的电子或纸质副本,以确定它们是否符合您纳入荟萃分析的标准。 如果您需要更多信息来做出决定,您应该首先阅读标题和摘要,然后继续阅读方法和结果部分。 通过这最后过去的研究是您的最终候选名单。
-
您希望确保您的完整候选人名单包括您可能感兴趣的所有研究,即使这也意味着包括许多您不使用的研究。 从初始列表中丢弃 90% 以上的研究并不少见。
-
在确定是否包含在荟萃分析中时,应根据来源(例如期刊或书名)对缩减后的候选列表进行排序。 通过这种方式,您可以同时检查来自同一来源的所有研究,省去一些多余的步骤。
-
您将需要使用不同的方法来获取在您缩减的候选名单中找到的研究。 有些可以通过电子方式获得,有些研究可以在您的图书馆获得,有些必须通过馆际互借获得,有些则必须直接向作者索取。很多时候,大学会收取一定的费用来为您提供论文的副本。 为避免这种情况,您可以尝试联系作者,看看他们是否会向您提供文档的副本。
-
您不需要保存完整候选列表或缩减候选列表中的研究副本,但您应该获取最终候选列表中每项研究的电子或纸质副本。 如果有电子副本,则最好使用电子副本。
-
对文献进行全面搜索需要处理大量信息。 建议您使用电子表格或数据库程序来帮助您完成此任务。 对于缩减候选列表中的每项研究,您应该记录
- 对该研究的简要参考(例如期刊名称、卷号和起始页码)
- 期刊或书籍索取号(如果您的图书馆通过致电来组织其材料) 编号)
- 在哪里可以找到该研究或其当前检索状态(向作者索取、通过馆际互借索取等)
- 该研究是否被纳入分析或排除在分析之外
- 使用什么标准作为基础排除(如果研究被排除在荟萃分析之外)
为完整的候选列表创建数据库通常没有用。 没有通过初始测试的研究很少有机会被纳入研究,因此提供有关它们的详细文档将是浪费您的时间。 您所需要的只是一些文件,说明在第一次通过期间包括或排除了哪些研究。
- 如果您想提供对影响的准确估计,找到未发表的文章进行分析很重要。 许多研究表明,已发表的文章通常更偏向于显着的研究结果而不是非显着的研究结果,这会偏向于仅基于已发表研究的分析结果。
- 您应该在分析中包括外国研究,除非您预计跨文化差异会影响结果,并且您缺乏足够的外国研究来测试这种差异。 Babelfish 翻译网站 (http://babelfish.yahoo.com/) 在尝试阅读外国文件时非常有用。
- 有时,在您的边界内的研究数量太多,您无法全部分析。 在这种情况下,您仍然应该对文献进行详尽的搜索。 之后,您选择您发现的研究的随机样本进行编码和分析。
-
将索引电子化:许多数据库都可以通过 CD-ROM 或 Internet 获得。 这些将允许您使用关键字来定位与您的分析相关的文章。
-
为您的搜索选择关键字非常重要。 首先,您应该确定搜索中所需内容的基本结构。 例如,假设您想要查找将与“启动”相关的术语与与“印象形成”相关的术语配对的研究。
-
您接下来应该确定将用于数据库中这些术语的同义词。例如,一些研究人员将启动效应称为内隐记忆效应。 同样,研究人员有时将印象形成任务称为个人判断任务。 因此,您可能希望检索使用“启动”或“印象形成”与“印象形成”或“人物判断”配对的研究。 许多索引,例如 PsycInfo,发布的同义词应该可以更容易地找到同义词。 如果索引已经预先定义了主题词,你应该确保你的同义词列表包括所有相关的主题词。
-
大多数索引支持使用通配符,您应该自由使用。 为了在 PsycInfo 中定位关于启动的研究,我们可能会使用搜索词 *PRIM **,它会找到使用术语 PRIMING、PRIMES、PRIMED 和其他以 PRIM 开头的词的研究。
-
然后您应该将您的搜索输入到数据库中。 每个结构将由一个由 OR 连接的同义词列表表示。 结构本身将通过 AND 连接。 在上面的例子中,我们可能会尝试(prim* OR 内隐记忆)AND(印象形成 OR 人的判断)。请务必使用括号以确保计算机以您想要的方式链接您的术语。 例如,搜索 (A OR B) AND C 会得到与 A OR (B AND C) 截然不同的结果。
-
如果您的初始搜索产生了大量与单个主题相关的不相关研究,您可以通过在搜索中引入 NOT 术语来尝试将它们排除在进一步搜索之外。 这将排除文档中具有指定术语的所有记录。 例如,如果我们的启动搜索产生了大量与我们想要排除的广告无关的研究,我们可能会将我们的搜索修改为(prim* OR 内隐记忆)AND(印象形成或个人判断)NOT(ads OR Advertising )。
-
某些搜索引擎会根据预先指定的规则自动更改您的搜索词。例如,如果您在 PubMed 中搜索带引号的术语,如果它没有在其数据库中找到完整术语的任何示例,它将自动删除引号。 其他数据库会自动将查找包含三个或更多单词的引用短语的搜索更改为仅将单词彼此靠近的搜索。 如果您在进行搜索并且数据库给您的点击次数比您预期的要多,您应该检查数据库遵循的规则,看看它是否以不适当的方式改变了您的搜索。
-
无论何时进行计算机检索,都应记录数据库名称、检索时数据库涵盖的年份以及您使用的检索词。 您需要在文章中报告所有这些。
-
心理学家最常用的数据库是:
-
PsycInfo
-
ERIC(教育资源信息中心)
-
Dissertation Abstracts Online
-
ABI/Inform(全球商业管理和金融数据库)
-
Sociological Abstracts(社会学文献)
-
PubMed/MEDLINE(包括健康在内的生物医学文献) 护理、临床心理学、老年学等)
-
心理健康文摘
您应该搜索每个可能与您的主题相关的研究的计算机化索引。不要害怕向外看。 但是,您应该记住,不同的索引使用不同的术语,因此在使用不同的数据库时,您可能必须以不同的方式定义您的搜索。
-
-
-
后代搜索。 如果您可以找到早期进行的少量重要研究,您可以使用 SSCI(社会科学引文索引)或 SCI(科学引文索引)来查找在参考文献中引用它们的后续文章。 这是对计算机索引的标准搜索的一个很好的补充。
-
祖先搜索。 您应该始终检查您决定包含在分析中的文章的参考文献,以查看它们是否包含您不知道的任何相关研究。
-
研究注册。 研究登记册是积极维护的以共同主题为中心的研究清单。 目前可用于心理学研究的研究登记册很少,但这可能会随着技术的传播而改变。
-
综述文章参考列表。 以前的综述,无论是否包含荟萃分析,通常都是寻找相关研究的富有成果的地方。
-
手动搜索重要期刊。 如果你发现你的许多文章来自一个特定的期刊,那么你应该回去通读该期刊的目录,这些年来一直有关于你的主题的积极研究。 您可以使用 Current Contents,这是一种包含其他期刊目录列表的期刊。
-
专业会议。 这是查找未发表文章的特别好方法,因为与期刊文章相比,在会议上发表的论文通常受到较少限制的审查(因此对重要发现的偏见较少)。 心理学界最重要的两个会议可能是 APA(美国心理学会)和 APS(美国心理学会)的年会。
-
给活跃研究人员的信。 写信给您决定包含在分析中的每篇文章的第一作者,看看他们是否有与您的主题相关的任何未发表的研究,这是一个很好的策略。
-
收集研究样本后,您需要将其特征量化为调节变量并计算影响大小。
-
一个好的量化步骤是
- 决定你要量化哪些特征。
- 准确决定如何衡量每个特征。 如果您决定使用连续比例,请指定单位。 如果您决定使用类别,请指定您将使用的组。
- 在变量记录中写下你的量化方案的细节。 变量记录应包含有关如何对每个特征进行量化的明确说明,包括必要时的特定示例。
- 试点量化方案并进行试错,您可能应该在试错过程中编写 2-4 项研究。
- 一旦有了稳定的量化方案,就可以对研究进行量化,研究员之间应独立工作,仅偶尔召开会议以纠正计划中的歧义。
- 计算方案中每个项目的量化可靠性。 您不应将用于试错的研究包括在可靠性计算中。
-
在进行荟萃分析时,您应该始终有第二位研究员。 这不仅可以让您报告主要作者量化的可靠性,而且还可以检查您的量化方案和效果大小计算。
-
您应该更喜欢“低推理”量化程度,其中量化程度基于研究中直接报告的信息,而“高推理”量化程度则研究人员必须沿着某个维度对研究进行评估或评分。 高推理代码通常具有低得多的可靠性。 通常,一个高推理代码可以分解为多个低推理代码。
-
有时您需要的信息不会在研究中报告。 因此,您应该有一个值来指示特定问题的信息不可用。 您可以尝试联系作者获取信息,但这通常无法为您带来任何好处。
-
编码差异通常是由编码方案中的歧义引起的。 因此,在试点您的方案时,您应该专注于制定清晰详细的编码规则。
-
可靠性是衡量你的编码方案的一致性。 如果您的编码可靠性低,那么您使用的特定方案会给您的测量增加很多可变性。 它实际上是一个特定的数学概念,即
- 由于测量分数的分布区间 =(真实分数的分布区间)+(测量误差),因此可靠性将始终介于 0 和 1 之间。在报告编码的可靠性时,您应该使用符合此定义的统计量。 一些示例是(对于连续变量)类内相关性、Cronbach's alpha 和(对于分类变量)Cohen's kappa。
- 什么是可接受的量化程度将取决于正在量化的内容。 理想情况下,您希望所有的可靠性都达到 0.80 或更高,但这可能是不可能的。 您可能需要为任何可靠性低于 0.70 的调节器解释或证明编码方案的合理性。
- 如果主要作者的可靠性很差,可以让编码员开会讨论他们做了什么,修改编码方案,然后重新编码研究是合理的。 只要编码人员在此意义期间不谈论用于训练的特定研究之外的特定研究,第二次编码不应过度偏向结果。
- 计算机化的数据库可以通过多种方式辅助编码。 您不仅可以将信息存储在数据库中,还可以创建表单来辅助数据输入、使用邮件合并文档联系作者、打印带注释的数据副本以供参考,并生成输出文件以供分析使用 程式。
- 研究ID。 您应该为分析中包含的每项研究分配一个唯一编号。 你应该在研究的复印件以及任何编码或计算表上写下这个数字。
- 长引用和短引用。 您应该记录完整的(APA 风格)参考,以及在您的笔记中参考研究时使用的简短引文。
- 实际尺寸。 这应该在您将用于分析的度量中报告,即使您最初必须使用不同的效果大小来计算它。
- 样本量。 如果您正在处理相关性,那么您只需要报告总体样本量。 如果您正在处理均值差异,您应该分别记录两组的样本大小。
- 主持人变量。 您应该记录所有主持人变量的代码。 第 4.3 节详细讨论了您可能希望考虑的不同类型的主持人。
- 学习质量的特点。 然后,您可以将这些用作调节变量或作为排除的基础。 提高代码质量的一种好方法是通读有效性威胁列表(例如来自 Cook & Campbell,1979 年),并考虑每个威胁是否可能对您的分析产生影响。
- 计算问题。 您当然希望详细说明如何计算效应大小。 有关这方面的更多信息将在第 7.3 节中介绍。 此外,您可能希望创建代码以指示您必须根据不完美信息计算效应大小的任何时间。 一些例子是:
- 假设效应大小为 0,因为它被报告为不显着且没有其他可用信息。
- 根据 p 值而不是更精确的统计量计算效应大小。
- 从图表中估计平均值。
您可能想要确定排除这些更有问题的计算的结果是否与包含它们的结果不同。 如果它们没有明显不同,那么您将希望在分析中留下有问题的计算。 如果是这样,则您必须更仔细地检查差异,以了解哪一组分析更适合报告。
-
有时您希望在综合中检查的研究之间存在差异。 如果您对重要的研究特征进行编码,您可以检查您的效果的强度是否受到这些变量的影响。 这称为调节器分析。 ² 在荟萃分析中,您主要需要编写三种不同类型的主持人。
- 主要方法差异。 您的基本效果可能已经使用不同的程序、不同的操作或不同的响应措施进行了检查。 使用某些方法发现的效果可能比其他方法更强。
- 理论构建。 大多数文献都会附带理论,说明在某些条件下该效应是强还是弱。 为了解决这些理论解释文献中发现的结果的能力,有必要将您的每项研究编码为理论上重要的变量。
- 基本学习特点。 有许多调节变量通常在任何荟萃分析中进行编码。 这些包括研究质量、作者特征、研究参与者特征和出版年份的衡量标准。 通常,您不希望这些变量影响您的效果的强度,但您应该始终检查它们以排除它们是混杂变量的可能性。 ² 调解人分析的力量取决于该变量在您的样本中的分布。 当每个级别的研究数量为偶数时,您将拥有更大的权力,而当数字不平衡时,您的权力就会减弱。 如果您的几乎所有研究对主持人的值都相同,则对该变量的测试可能不会提供信息。 因此,您应该尝试选择在您的研究样本中具有可变性的主持人。