语言支持
SafeAssign 使用的算法会确定已提交文本的原创性。这些算法会考虑字词频率、句子结构和其他语言特征。SafeAssign 的决策复杂度因语言而异,而且每种语言的 Blackboard 搜索内容量也不同。
Blackboard 根据以下工具细分语言处理复杂度:
- 用于确定语言原创性的搜索数据源。
- 维基百科数据
- 其他网站数据
- 机构提交数据
- 全球提交数据
- Proquest 全文数据
- 停用词筛选:SafeAssign 在上述数据源中搜索匹配文本之前,会删除句子中的停用词。 停用词是常用字词,如“as a”、“it”、“the”和“on”。
- 语言分析:SafeAssign 会将所有字词设为小写,并将它们剥离到词根。例如,“Trees”将变为“tree”。SafeAssign 使用语言分析器来增加以下情况的匹配数:根据字词的词根来看,与原始文本具有相似的意思,但是匹配文本使用不同的字词。
下表详细列出了 SafeAssign 的搜索过程中对每种语言使用的工具。
语言 | 机构数据库 | 全局数据库 | 维基百科页面 | 其他语言的网站 | Proquest 数据库 | 停用词筛选 | 语言分析 |
---|---|---|---|---|---|---|---|
阿拉伯语 (ar_SA) | ![]() |
![]() |
![]() |
![]() |
![]() |
Beta 版 | |
中文 (zh_CN) | ![]() |
![]() |
![]() |
![]() |
![]() |
Beta 版 | |
捷克语(cs_CZ) | ![]() |
![]() |
![]() |
![]() |
![]() |
||
丹麦语 (da_DK) | ![]() |
![]() |
![]() |
![]() |
|||
荷兰语 (nl_NL) | ![]() |
![]() |
![]() |
![]() |
![]() |
||
英国英语 (en_GB) | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
美国英语 (en_US) | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
芬兰语 (fi) | ![]() |
![]() |
![]() |
![]() |
Beta 版 | ||
法语 (fr_FR) | ![]() |
![]() |
![]() |
![]() |
![]() |
Beta 版 | |
德语 (de_DE) | ![]() |
![]() |
![]() |
![]() |
![]() |
Beta 版 | |
意大利语 (it_IT) | ![]() |
![]() |
![]() |
![]() |
![]() |
Beta 版 | |
日语 (ja_JP) | ![]() |
![]() |
![]() |
![]() |
![]() |
Beta 版 | |
韩语 (ko_KO) | ![]() |
![]() |
![]() |
![]() |
|||
马来语 (ms_MY) | ![]() |
![]() |
![]() |
![]() |
|||
挪威语 (nn_NO) | ![]() |
![]() |
![]() |
||||
波兰语 (pl_PL) | ![]() |
![]() |
![]() |
![]() |
![]() |
||
巴西葡萄牙语 (pt_BR) | ![]() |
![]() |
![]() |
![]() |
![]() |
Beta 版 | |
俄语 (ru_RU) | ![]() |
![]() |
![]() |
![]() |
![]() |
||
西班牙语 (es_ES) | ![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
瑞典语 (sv_SE) | ![]() |
![]() |
![]() |
![]() |
|||
泰语 (th_TH) | ![]() |
![]() |
![]() |
![]() |
|||
土耳其语 (tr_TR) | ![]() |
![]() |
![]() |
![]() |
![]() |
||
威尔士语 (cy_GB) | ![]() |
![]() |
![]() |
![]() |