语言支持
SafeAssign 使用的算法会确定已提交文本的原创性。这些算法会考虑字词频率、句子结构和其他语言特征。SafeAssign 的决策复杂度和支持因语言而异,而且每种语言的 Blackboard 搜索内容量也不同。
SafeAssign 对日语的支持是有限的。
Blackboard 根据以下工具细分语言处理复杂度:
- 用于确定语言原创性的搜索数据源。
- 维基百科数据
- 其他网站数据
- 机构提交数据
- 全球提交数据
- Proquest 全文数据
- 停用词筛选:SafeAssign 在上述数据源中搜索匹配文本之前,会删除句子中的停用词。 停用词是常用字词,如“as a”、“it”、“the”和“on”。
- 语言分析:SafeAssign 会将所有字词设为小写,并将它们剥离到词根。例如,“Trees”将变为“tree”。SafeAssign 使用语言分析器来增加以下情况的匹配数:根据字词的词根来看,与原始文本具有相似的意思,但是匹配文本使用不同的字词。
下表详细列出了 SafeAssign 的搜索过程中对每种语言使用的工具。
为获得最佳效果,我们建议尽可能使用英文版 SafeAssign。其他语言可能由于要比较的数据量较少或语言复杂性而导致提供的结果不太精确。