Skip to main content

同形字检测器 从不同Unicode脚本中检测外观相似的字符(同形字)。

同形字检测器 illustration
📝

同形字检测器

从不同Unicode脚本中检测外观相似的字符(同形字)。

1

粘贴文本

输入可能包含来自外语脚本的类似字符的文本。

2

查看结果

看到检测到的同形字及其 Unicode 编码点和它们的外观。

3

获取归一化文本

复制用 ASCII 等效字符替换同形字的归一化文本。

Loading tool...

What Is 同形字检测器?

同形字检测器可以识别出视觉上与ASCII字符相似的字符,但实际上这些字符来自不同的Unicode脚本(主要是西里尔语、希腊语和其他字母表)。例如,西里尔语的"а"(U+0430)看起来与拉丁语的"a"(U+0061)完全相同,但它们其实是两个完全不同的字符。这些相似的字符(同形字)可以被用于钓鱼URL、假域名和文本欺骗攻击。这款工具扫描文本以检测出这样的字符,并提供一个清理后的版本,将所有同形字替换为其对应的ASCII等价字符。

Why Use 同形字检测器?

  • 检测来自西里尔、希腊等脚本的类似ASCII字符
  • 显示每个同形字的确切 Unicode 编码点和视觉等效
  • 提供用同形字替换的归一化文本
  • 对于安全分析和钓鱼检测至关重要
  • 帮助防止 IDN 同形字攻击

Common Use Cases

钓鱼检测

检查 URL 和域名是否包含伪装成拉丁字母的西里尔或希腊字符。

内容安全

验证用户生成的内容不包含欺骗性的类似字符。

数据验证

确保数据库条目使用一致的字符集而无混用脚本同形字。

身份验证

检查用户名和标识符是否包含可能导致冒充的混合脚本字符。

Technical Guide

该检测器维护着已知可混淆的Unicode字符与其ASCII等价字符之间的映射关系。它使用反查Map将每个字符与此映射进行比较。被检测出的同形字会记录下其位置、原始字符、其Unicode代码点(U+XXXX格式)以及它相似的ASCII字符。规范化输出用ASCII等价字符替换每个同形字。此映射涵盖了类似拉丁字母的西里尔语字符(а→a,с→c,е→e,о→o,р→p)、常见的希腊混淆字符以及可能被与基本ASCII混淆的带重音的拉丁变体。

Tips & Best Practices

  • 1
    西里尔 'а' 和拉丁 'a' 看起来相同但具有不同的 Unicode 字符
  • 2
    IDN 同形字攻击使用域名中的类似字符(如 аpple.com 与 apple.com)
  • 3
    始终检查可疑 URL 中的混合脚本字符
  • 4
    看起来正常的文本可能包含来自外语来源复制粘贴的同形字
  • 5
    一些文本编辑器具有 "显示 Unicode" 模式,可以揭示这些字符

Related Tools

Frequently Asked Questions

Q 什么是同形字?
同形字是一种来自一个脚本的字符,它在视觉上类似于另一个脚本中的字符。拉丁 'a' 和西里尔 'а' 看起来相同,但具有不同的 Unicode 编码点。
Q 同形字如何用于钓鱼?
攻击者使用类似拉丁字母的西里尔字符(如 "аpple.com" 中的西里尔 'а')注册域名,这些域名看起来与合法域名相同。
Q 我可以看到同形字之间的区别吗?
通常不能视觉上区分。检测器通过检查 Unicode 编码点来识别它们,即使外观相同,也会有所不同。
Q 它能检测所有可能的同形字吗?
它涵盖了最常见的拉丁/西里尔/希腊混淆字符。完整的 Unicode 混淆列表包含成千上万对字符。
Q 什么是 IDN 同形字攻击?
国际化域名使用不同脚本中的类似字符来创建看起来合法但实际上用于钓鱼的 URL 的攻击。

About This Tool

同形字检测器 is a free online tool by FreeToolkit.ai. All processing happens directly in your browser — your data never leaves your device. No registration or installation required.