Aion-Format/lib/Aion/Format/Html.pm
package Aion::Format::Html;
use common::sense;
use Exporter qw/import/;
our @EXPORT = our @EXPORT_OK = grep {
*{$Aion::Format::Html::{$_}}{CODE} && !/^(_|(NaN|import)\z)/n
} keys %Aion::Format::Html::;
# Экранирует символы html
my %HTML_SIM = qw/< < > > & & \' ' " "/;
sub to_html (@) {
local $_ = join "", @_;
s/[<>&\'\"]/$HTML_SIM{$&}/ge;
$_
}
our %ENTITIES = (
#
# Управляющие символы C0 и основная латиница
# U+0000—U+007F
# Данный диапазон Юникода полностью соответствует стандарту ASCII за исключением соглашения о наложении литер через возврат на шаг.[3]
# Символ Назначение Мнемоника HTML Код
#
# U+0000—U+001F — управляющие символы C0
# табуляция — HT (ANSI), ГТ (ГОСТ) 	 5.0 U+0009 	
Tab => 9,
# перевод строки — LF (ANSI), ПС (ГОСТ) 
 5.0 U+000A
NewLine => 10,
#
# U+0032—U+007E — основная латиница
#
# пробел U+0020  
# ! восклицательный знак ! 5.0 U+0021 !
excl => 33,
# " двойная кавычка[4] " 5.0 U+0022 " " 2.0
quot => 34,
QUOT => 34,
# # знак номера («решётка» или «диез») # 5.0 U+0023 #
num => 35,
# $ знак доллара $ 5.0 U+0024 $
dollar => 36,
# % знак процента % 5.0 U+0025 %
percnt => 37,
# & амперсанд & 5.0 U+0026 & & 1.0/2.0
amp => 38,
AMP => 38,
# ' одинарная кавычка (занимающий позицию апостроф)[5] ' 5.0 U+0027 '
apos => 39,
# ( левая круглая скобка ( 5.0 U+0028 (
lpar => 40,
# ) правая круглая скобка ) 5.0 U+0029 )
rpar => 41,
# * звёздочка (может быть как высоко, так и среднерасположенной)[6][7] * 5.0 U+002A * *
ast => 42,
midast => 42,
# + знак плюс + 5.0 U+002B +
plus => 43,
# , запятая[8] , 5.0 U+002C ,
comma => 44,
# - чёрточка-минус (не рекомендован к использованию)[9][10] U+002D -
# . точка[11] . 5.0 U+002E .
period => 46,
# / косая черта (солидус)[12][13] / 5.0 U+002F /
sol => 47,
#
#
# U+0030—U+0039 — цифры 0—9[14]
#
# : двоеточие : 5.0 U+003A :
colon => 58,
# ; точка с запятой ; 5.0 U+003B ;
semi => 59,
# < знак меньше < 5.0 U+003C < < 1.0/2.0
LT => 60,
lt => 60,
# = знак равенства = 5.0 U+003D =
equals => 61,
# > знак больше > 5.0 U+003E > > 1.0/2.0
GT => 62,
gt => 62,
# ? знак вопроса ? 5.0 U+003F ?
quest => 63,
# @ коммерческий «эт» @ 5.0 U+0040 @
commat => 64,
#
#
# U+0041—U+005A — заглавные латинские буквы A—Z[15]
#
# [ левая квадратная скобка [ 5.0 U+005B [ [
lbrack => 91,
lsqb => 91,
# \ обратная косая черта[16] \ 5.0 U+005C \
bsol => 92,
# ] правая квадратная скобка ] 5.0 U+005D ] ]
rsqb => 93,
rbrack => 93,
# ^ карет — (может быть как высоко, так и среднерасположенным)[17][18] ^ 5.0 U+005E ^
Hat => 94,
# _ занимающее позицию подчёркивание (должно стыковаться по горизонтали)[19] _ 5.0 U+005F _ _
lowbar => 95,
UnderBar => 95,
# ` занимающий позицию обратный апостроф (грейв)[20] ` 5.0 U+0060 ` `
grave => 96,
DiacriticalGrave => 96,
#
# U+0061—U+007A — строчные латинские буквы a—z[21]
# { левая фигурная скобка { 5.0 U+007B { {
lcub => 123,
lbrace => 123,
# | вертикальная черта[22] | 5.0 U+007C | | |
verbar => 124,
vert => 124,
VerticalLine => 124,
# } правая фигурная скобка } 5.0 U+007D } }
rcub => 125,
rbrace => 125,
# ~ занимающая позицию тильда (может быть как высоко, так и среднерасположенной, не рекомендуется к использованию)[23][24] U+007E ~
#
# U+007F — управляющие символы C0
# Управляющие символы C1 и дополнение из Latin-1
# U+0080—U+00FF
# Исторически в диапазон U+00A0—U+00FF («Дополнение из Latin‑1») переносились литеры из соответствующих позиций Latin‑1 (ISO 8859‑1), пока не стало объявлено, что стандарт Latin‑1 включён в Юникод полностью — как ASCII (U+0000—U+007F), так и данный диапазон (U+0080—U+00FF), за исключением соглашения о наложении литер через возврат на шаг.
# Символ Назначение Мнемоника HTML Код
# U+0080—U+009F — управляющие символы C1
# U+00A0—U+00FF — дополнение из Latin‑1
#
# неразрывный пробел   5.0 U+00A0   3.2
NonBreakingSpace => 160,
nbsp => 160,
# ¡ перевёрнутый восклицательный знак ¡ 3.2 U+00A1 ¡
iexcl => 161,
# ¢ символ цента ¢ 3.2 U+00A2 ¢
cent => 162,
# £ символ фунта £ 3.2 U+00A3 £
pound => 163,
# ¤ знак валюты ¤ 3.2 U+00A4 ¤
curren => 164,
# ¥ символ иены и юаня ¥ 3.2 U+00A5 ¥
yen => 165,
# ¦ разорванная вертикальная черта &brkbar; нестандарт U+00A6 ¦
brkbar => 166,
# ¦ 3.2
brvbar => 166,
# § знак параграфа § 3.2 U+00A7 §
sect => 167,
# ¨ диерезис, трема умлаут (все занимают позицию) ¨ 5.0 U+00A8 ¨ ¨ 5.0 ¨ 5.0 ¨ 3.2
die => 168,
Dot => 168,
DoubleDot => 168,
uml => 168,
# © знак охраны авторского права © 5.0 U+00A9 © © 3.2
COPY => 169,
copy => 169,
# ª порядковый индикатор (женский род) ª 3.2 U+00AA ª
ordf => 170,
# « направленная влево двойная угловая кавычка « 3.2 U+00AB «
laquo => 171,
# ¬ знак «отрицание» ¬ 3.2 U+00AC ¬
not => 172,
# мягкий перенос (обозначает место возможного переноса: при отсутствии переноса невидим, при наличии — виден как дефис перед разрывом строки). В примере, по отсутствию переноса, невидим. ­ 3.2 U+00AD ­
shy => 173,
# ® знак правовой охраны товарного знака ® 5.0 U+00AE ® ® 5.0 ® 3.2
REG => 174,
circledR => 174,
reg => 174,
# ¯ занимающий позицию макрон &hibar; нестандарт U+00AF ¯ ¯on; нестандарт ¯ 5.0 ¯ 3.2
hibar => 175,
macron => 175,
strns => 175,
macr => 175,
# ° занимающий позицию знак градуса °ree; нестандарт U+00B0 ° ° 3.2
degree => 176,
deg => 176,
# ± плюс-минус ± 5.0 U+00B1 ± ± 5.0 ± 3.2
pm => 177,
PlusMinus => 177,
plusmn => 177,
# ² верхний индекс «2» ² 3.2 U+00B2 ²
sup2 => 178,
# ³ верхний индекс «3» ³ 3.2 U+00B3 ³
sup3 => 179,
# ´ занимающий позицию акут ´ 5.0 U+00B4 ´ ´ 3.2
DiacriticalAcute => 180,
acute => 180,
# µ дольный префикс микро микрон — устаревшее обозначение микрометра µ 3.2 U+00B5 µ
micro => 181,
# ¶ знак абзаца ¶ 3.2 U+00B6 ¶
para => 182,
# · интерпункт · 5.0 U+00B7 · · 5.0 · 3.2
middot => 183,
CenterDot => 183,
centerdot => 183,
# ¸ занимающая позицию седиль ¸ 5.0 U+00B8 ¸ ¸ 3.2
Cedilla => 184,
cedil => 184,
# ¹ верхний индекс «1» ¹ 3.2 U+00B9 ¹
sup1 => 185,
# º порядковый индикатор (мужской род) º 3.2 U+00BA º
ordm => 186,
# » направленная вправо двойная угловая кавычка » 3.2 U+00BB »
raquo => 187,
# ¼ простая дробь «одна четвёртая» ¼ 3.2 U+00BC ¼
frac14 => 188,
# ½ простая дробь «одна вторая» ½ 5.0 U+00BD ½ ½ 3.2
half => 189,
frac12 => 189,
# ¾ простая дробь «три четверти» ¾ 3.2 U+00BE ¾
frac34 => 190,
# ¿ перевёрнутый знак вопроса ¿ 3.2 U+00BF ¿
iquest => 191,
# À латинская заглавная A с грависом («тупым ударением») À 2.0 U+00C0 À
Agrave => 192,
# Á латинская заглавная A с акутом («острым ударением») Á 2.0 U+00C1 Á
Aacute => 193,
# Â латинская заглавная A с циркумфлексом Â 2.0 U+00C2 Â
Acirc => 194,
# Ã латинская заглавная A с тильдой Ã 2.0 U+00C3 Ã
Atilde => 195,
# Ä латинская заглавная A с тремой Ä 2.0 U+00C4 Ä
Auml => 196,
# Å латинская заглавная A с кружком сверху Å 2.0 U+00C5 Å
Aring => 197,
# Æ латинская заглавная лигатура AE Æ 2.0 U+00C6 Æ
AElig => 198,
# Ç латинская заглавная C с седилью Ç 2.0 U+00C7 Ç
Ccedil => 199,
# È латинская заглавная E с грависом È 2.0 U+00C8 È
Egrave => 200,
# É латинская заглавная E с акутом É 2.0 U+00C9 É
Eacute => 201,
# Ê латинская заглавная E с циркумфлексом Ê 2.0 U+00CA Ê
Ecirc => 202,
# Ë латинская заглавная E с тремой Ë 2.0 U+00CB Ë
Euml => 203,
# Ì латинская заглавная I с грависом Ì 2.0 U+00CC Ì
Igrave => 204,
# Í латинская заглавная I с акутом Í 2.0 U+00CD Í
Iacute => 205,
# Î латинская заглавная I с циркумфлексом Î 2.0 U+00CE Î
Icirc => 206,
# Ï латинская заглавная I с тремой Ï 2.0 U+00CF Ï
Iuml => 207,
# Ð латинская заглавная буква «eth» Ð 2.0 U+00D0 Ð
ETH => 208,
# Ñ латинская заглавная N с тильдой Ñ 2.0 U+00D1 Ñ
Ntilde => 209,
# Ò латинская заглавная O с грависом Ò 2.0 U+00D2 Ò
Ograve => 210,
# Ó латинская заглавная O с акутом Ó 2.0 U+00D3 Ó
Oacute => 211,
# Ô латинская заглавная O с циркумфлексом Ô 2.0 U+00D4 Ô
Ocirc => 212,
# Õ латинская заглавная O с тильдой Õ 2.0 U+00D5 Õ
Otilde => 213,
# Ö латинская заглавная O с тремой Ö 2.0 U+00D6 Ö
Ouml => 214,
# × знак умножения × 3.2 U+00D7 ×
times => 215,
# Ø латинская заглавная O диагонально перечёркнутая Ø 2.0 U+00D8 Ø
Oslash => 216,
# Ù латинская заглавная U с грависом Ù 2.0 U+00D9 Ù
Ugrave => 217,
# Ú латинская заглавная U с акутом Ú 2.0 U+00DA Ú
Uacute => 218,
# Û латинская заглавная U с циркумфлексом Û 2.0 U+00DB Û
Ucirc => 219,
# Ü латинская заглавная U с тремой Ü 2.0 U+00DC Ü
Uuml => 220,
# Ý латинская заглавная Y с акутом Ý 2.0 U+00DD Ý
Yacute => 221,
# Þ латинская заглавная буква Торн (THORN) Þ 2.0 U+00DE Þ
THORN => 222,
# ß латинская строчная эсцет ß 2.0 U+00DF ß
szlig => 223,
# à латинская строчная «a» с грависом à 2.0 U+00E0 à
agrave => 224,
# á латинская строчная «a» с акутом á 2.0 U+00E1 á
aacute => 225,
# â латинская строчная «a» с циркумфлексом â 2.0 U+00E2 â
acirc => 226,
# ã латинская строчная «a» с тильдой ã 2.0 U+00E3 ã
atilde => 227,
# ä латинская строчная «a» с тремой ä 2.0 U+00E4 ä
auml => 228,
# å латинская строчная «a» с кружком сверху å 2.0 U+00E5 å
aring => 229,
# æ латинская строчная лигатура «ae» æ 2.0 U+00E6 æ
aelig => 230,
# ç латинская строчная «c» с седилью ç 2.0 U+00E7 ç
ccedil => 231,
# è латинская строчная «e» с грависом è 2.0 U+00E8 è
egrave => 232,
# é латинская строчная «e» с акутом é 2.0 U+00E9 é
eacute => 233,
# ê латинская строчная «e» с циркумфлексом ê 2.0 U+00EA ê
ecirc => 234,
# ë латинская строчная «e» с тремой ë 2.0 U+00EB ë
euml => 235,
# ì латинская строчная «i» с грависом ì 2.0 U+00EC ì
igrave => 236,
# í латинская строчная «i» с акутом í 2.0 U+00ED í
iacute => 237,
# î латинская строчная «i» с циркумфлексом î 2.0 U+00EE î
icirc => 238,
# ï латинская строчная «i» с тремой ï 2.0 U+00EF ï
iuml => 239,
# ð латинская строчная «eth» ð 2.0 U+00F0 ð
eth => 240,
# ñ латинская строчная «n» с тильдой ñ 2.0 U+00F1 ñ
ntilde => 241,
# ò латинская строчная «o» с грависом ò 2.0 U+00F2 ò
ograve => 242,
# ó латинская строчная «o» с акутом ó 2.0 U+00F3 ó
oacute => 243,
# ô латинская строчная «o» с циркумфлексом ô 2.0 U+00F4 ô
ocirc => 244,
# õ латинская строчная «o» с тильдой õ 2.0 U+00F5 õ
otilde => 245,
# ö латинская строчная «o» с тремой ö 2.0 U+00F6 ö
ouml => 246,
# ÷ знак деления ÷ 5.0 (?) U+00F7 ÷ ÷ 3.2
div => 247,
divide => 247,
# ø латинская строчная «o» диагонально перечёркнутая ø 2.0 U+00F8 ø
oslash => 248,
# ù латинская строчная «u» с грависом ù 2.0 U+00F9 ù
ugrave => 249,
# ú латинская строчная «u» с акутом ú 2.0 U+00FA ú
uacute => 250,
# û латинская строчная «u» с циркумфлексом û 2.0 U+00FB û
ucirc => 251,
# ü латинская строчная «u» с тремой ü 2.0 U+00FC ü
uuml => 252,
# ý латинская строчная «y» с акутом ý 2.0 U+00FD ý
yacute => 253,
# þ латинская строчная «торн» (thorn) þ 2.0 U+00FE þ
thorn => 254,
# ÿ латинская строчная «y» с тремой ÿ 2.0 U+00FF ÿ
yuml => 255,
#
#
# Расширение латиницы — A
# U+0100—U+017F
# Символ Назначение Мнемоника HTML Код
#
# Ā латинская заглавная «A» с макроном Ā 5.0 U+0100 Ā
Amacr => 256,
# ā латинская строчная «a» с макроном ā 5.0 U+0101 ā
amacr => 257,
# Ă латинская заглавная «A» с бреве Ă 5.0 U+0102 Ă
Abreve => 258,
# ă латинская строчная «a» с бреве ă 5.0 U+0103 ă
abreve => 259,
# Ą латинская заглавная «A» с огонэком Ą 5.0 U+0104 Ą
Aogon => 260,
# ą латинская строчная «a» с огонэком ą 5.0 U+0105 ą
aogon => 261,
# Ć латинская заглавная «C» с акутом Ć 5.0 U+0106 Ć
Cacute => 262,
# ć латинская строчная «c» с акутом ć 5.0 U+0107 ć
cacute => 263,
# Ĉ латинская заглавная «C» с циркумфлексом Ĉ 5.0 U+0108 Ĉ
Ccirc => 264,
# ĉ латинская строчная «c» с циркумфлексом ĉ 5.0 U+0109 ĉ
ccirc => 265,
# Ċ латинская заглавная «C» с точкой сверху Ċ 5.0 U+010A Ċ
Cdot => 266,
# ċ латинская строчная «c» с точкой сверху ċ 5.0 U+010B ċ
cdot => 267,
# Č латинская заглавная «C» с птичкой Č 5.0 U+010C Č
Ccaron => 268,
# č латинская строчная «c» с птичкой č 5.0 U+010D č
ccaron => 269,
# Ď латинская заглавная «D» с птичкой Ď 5.0 U+010E Ď
Dcaron => 270,
# ď латинская строчная «d» с птичкой (в шрифтах предпочтителен вариант с апострофом) ď 5.0 U+010F ď
dcaron => 271,
# Đ латинская заглавная «D» с горизонтальным штрихом. На вид может не отличаться от Eth (Ð, U+00D0, Ð) Đ 5.0 U+0110 Đ
Dstrok => 272,
ETH => 272,
# đ латинская строчная «d» с горизонтальным штрихом. На вид может не отличаться от eth (ð, U+00F0, ð) đ 5.0 U+0111 đ
dstrok => 273,
eth => 273,
# Ē латинская заглавная «E» с макроном Ē 5.0 U+0112 Ē
Emacr => 274,
# ē латинская строчная «e» с макроном ē 5.0 U+0113 ē
emacr => 275,
# Ĕ латинская заглавная «E» с бреве U+0114 Ĕ
# ĕ латинская строчная «e» с бреве U+0115 ĕ
# Ė латинская заглавная «E» с точкой сверху Ė 5.0 U+0116 Ė
Edot => 278,
# ė латинская строчная «e» с точкой сверху ė 5.0 U+0117 ė
edot => 279,
# Ę латинская заглавная «E» с огонэком Ę 5.0 U+0118 Ę
Eogon => 280,
# ę латинская строчная «e» с огонэком ę 5.0 U+0119 ę
eogon => 281,
# Ě латинская заглавная «E» с птичкой Ě 5.0 U+011A Ě
Ecaron => 282,
# ě латинская строчная «e» с птичкой ě 5.0 U+011B ě
ecaron => 283,
# Ĝ латинская заглавная «G» с циркумфлексом Ĝ 5.0 U+011C Ĝ
Gcirc => 284,
# ĝ латинская строчная «g» с циркумфлексом ĝ 5.0 U+011D ĝ
gcirc => 285,
# Ğ латинская заглавная «G» с бреве Ğ 5.0 U+011E Ğ
Gbreve => 286,
# ğ латинская строчная «g» с бреве ğ 5.0 U+011F ğ
gbreve => 287,
# Ġ латинская заглавная «G» с точкой сверху Ġ 5.0 U+0120 Ġ
Gdot => 288,
# ġ латинская строчная «g» с точкой сверху ġ 5.0 U+0121 ġ
gdot => 289,
# Ģ латинская заглавная «G» с цедилью Ģ 5.0 U+0122 Ģ
Gcedil => 290,
# ģ латинская строчная «g» с цедилью U+0123 ģ
# Ĥ латинская заглавная «H» с циркумфлексом Ĥ 5.0 U+0124 Ĥ
Hcirc => 292,
# ĥ латинская строчная «h» с циркумфлексом ĥ 5.0 U+0125 ĥ
hcirc => 293,
# Ħ латинская заглавная «H» с горизонтальным штрихом Ħ 5.0 U+0126 Ħ
Hstrok => 294,
# ħ латинская строчная «h» с горизонтальным штрихом ħ 5.0 U+0127 ħ
hstrok => 295,
# Ĩ латинская заглавная «I» с тильдой Ĩ 5.0 U+0128 Ĩ
Itilde => 296,
# ĩ латинская строчная «i» с тильдой ĩ 5.0 U+0129 ĩ
itilde => 297,
# Ī латинская заглавная «I» с макроном Ī 5.0 U+012A Ī
Imacr => 298,
# ī латинская строчная «i» с макроном ī 5.0 U+012B ī
imacr => 299,
# Ĭ латинская заглавная «I» с бреве U+012C Ĭ
# ĭ латинская строчная «i» с бреве U+012D ĭ
# Į латинская заглавная «I» с огонэком Į 5.0 U+012E Į
Iogon => 302,
# į латинская строчная «i» с огонэком į 5.0 U+012F į
iogon => 303,
# İ латинская заглавная «I» с точкой сверху İ 5.0 U+0130 İ
Idot => 304,
# ı латинская строчная «i» без точки сверху ı 5.0 U+0131 ı ı
imath => 305,
inodot => 305,
# IJ латинская заглавная лигатура «IJ» IJ 5.0 U+0132 IJ
IJlig => 306,
# ij латинская строчная лигатура «ij» ij 5.0 U+0133 ij
ijlig => 307,
# Ĵ латинская заглавная «J» с циркумфлексом Ĵ 5.0 U+0134 Ĵ
Jcirc => 308,
# ĵ латинская строчная «j» с циркумфлексом ĵ 5.0 U+0135 ĵ
jcirc => 309,
# Ķ латинская заглавная «K» с цедилью Ķ 5.0 U+0136 Ķ
Kcedil => 310,
# ķ латинская строчная «k» с цедилью ķ 5.0 U+0137 ķ
kcedil => 311,
# ĸ латинская строчная «kra» (гренландское «к») ĸ 5.0 U+0138 ĸ
kgreen => 312,
# Ĺ латинская заглавная «L» с акутом Ĺ 5.0 U+0139 Ĺ
Lacute => 313,
# ĺ латинская строчная «l» с акутом ĺ 5.0 U+013A ĺ
lacute => 314,
# Ļ латинская заглавная «L» с цедилью Ļ 5.0 U+013B Ļ
Lcedil => 315,
# ļ латинская строчная «l» с цедилью ļ 5.0 U+013C ļ
lcedil => 316,
# Ľ латинская заглавная «L» с птичкой (в шрифтах предпочтителен вариант с апострофом) Ľ 5.0 U+013D Ľ
Lcaron => 317,
# ľ латинская строчная «l» с птичкой (в шрифтах предпочтителен вариант с апострофом) ľ 5.0 U+013E ľ
lcaron => 318,
# Ŀ латинская заглавная «L» с точкой посередине Ŀ 5.0 U+013F Ŀ
Lmidot => 319,
# ŀ латинская строчная «l» с точкой посередине ŀ 5.0 U+0140 ŀ
lmidot => 320,
# Ł латинская заглавная «L» с горизонтальным штрихом Ł 5.0 U+0141 Ł
Lstrok => 321,
# ł латинская строчная «l» с горизонтальным штрихом ł 5.0 U+0142 ł
lstrok => 322,
# Ń латинская заглавная «N» с акутом Ń 5.0 U+0143 Ń
Nacute => 323,
# ń латинская строчная «n» с акутом ń 5.0 U+0144 ń
nacute => 324,
# Ņ латинская заглавная «N» с цедилью Ņ 5.0 U+0145 Ņ
Ncedil => 325,
# ņ латинская строчная «n» с цедилью ņ 5.0 U+0146 ņ
ncedil => 326,
# Ň латинская заглавная «N» с птичкой Ň 5.0 U+0147 Ň
Ncaron => 327,
# ň латинская строчная «n» с птичкой ň 5.0 U+0148 ň
ncaron => 328,
# ʼn латинская строчная «n» предшествуемая апострофом ʼn 5.0 U+0149 ʼn
napos => 329,
# Ŋ латинская заглавная «ENG» Ŋ 5.0 U+014A Ŋ
ENG => 330,
# ŋ латинская строчная «eng» ŋ 5.0 U+014B ŋ
eng => 331,
# Ō латинская заглавная «O» с макроном Ō 5.0 U+014C Ō
Omacr => 332,
# ō латинская строчная «o» с макроном ō 5.0 U+014D ō
omacr => 333,
# Ŏ латинская заглавная «O» с бреве U+014E Ŏ
# ŏ латинская строчная «o» с бреве U+014F ŏ
# Ő латинская заглавная «O» с двойным акутом Ő 5.0 U+0150 Ő
Odblac => 336,
# ő латинская строчная «o» с двойным акутом ő 5.0 U+0151 ő
odblac => 337,
# Œ латинская заглавная лигатура «OE» Œ 4.0 U+0152 Œ
OElig => 338,
# œ латинская строчная лигатура «oe» œ 4.0 U+0153 œ
oelig => 339,
# Ŕ латинская заглавная «R» с акутом Ŕ 5.0 U+0154 Ŕ
Racute => 340,
# ŕ латинская строчная «r» с акутом ŕ 5.0 U+0155 ŕ
racute => 341,
# Ŗ латинская заглавная «R» с цедилью Ŗ 5.0 U+0156 Ŗ
Rcedil => 342,
# ŗ латинская строчная «r» с цедилью ŗ 5.0 U+0157 ŗ
rcedil => 343,
# Ř латинская заглавная «R» с птичкой Ř 5.0 U+0158 Ř
Rcaron => 344,
# ř латинская строчная «r» с птичкой ř 5.0 U+0159 ř
rcaron => 345,
# Ś латинская заглавная «S» с акутом Ś 5.0 U+015A Ś
Sacute => 346,
# ś латинская строчная «s» с акутом ś 5.0 U+015B ś
sacute => 347,
# Ŝ латинская заглавная «S» с циркумфлексом Ŝ 5.0 U+015C Ŝ
Scirc => 348,
# ŝ латинская строчная «s» с циркумфлексом ŝ 5.0 U+015D ŝ
scirc => 349,
# Ş латинская заглавная «S» с цедилью Ş 5.0 U+015E Ş
Scedil => 350,
# ş латинская строчная «s» с цедилью ş 5.0 U+015F ş
scedil => 351,
# Š латинская заглавная «S» с птичкой Š 4.0 U+0160 Š
Scaron => 352,
# š латинская строчная «s» с птичкой š 4.0 U+0161 š
scaron => 353,
# Ţ латинская заглавная «T» с цедилью Ţ 5.0 U+0162 Ţ
Tcedil => 354,
# ţ латинская строчная «t» с цедилью ţ 5.0 U+0163 ţ
tcedil => 355,
# Ť латинская заглавная «T» с птичкой Ť 5.0 U+0164 Ť
Tcaron => 356,
# ť латинская строчная «t» с птичкой (в шрифтах предпочтителен вариант с апострофом) ť 5.0 U+0165 ť
tcaron => 357,
# Ŧ латинская заглавная «T» с горизонтальным штрихом Ŧ 5.0 U+0166 Ŧ
Tstrok => 358,
# ŧ латинская строчная «t» с горизонтальным штрихом ŧ 5.0 U+0167 ŧ
tstrok => 359,
# Ũ латинская заглавная «U» с тильдой Ũ 5.0 U+0168 Ũ
Utilde => 360,
# ũ латинская строчная «u» с тильдой ũ 5.0 U+0169 ũ
utilde => 361,
# Ū латинская заглавная «U» с макроном Ū 5.0 U+016A Ū
Umacr => 362,
# ū латинская строчная «u» с макроном ū 5.0 U+016B ū
umacr => 363,
# Ŭ латинская заглавная «U» с бреве Ŭ 5.0 U+016C Ŭ
Ubreve => 364,
# ŭ латинская строчная «u» с бреве ŭ 5.0 U+016D ŭ
ubreve => 365,
# Ů латинская заглавная «U» с кольцом сверху Ů 5.0 U+016E Ů
Uring => 366,
# ů латинская строчная «u» с кольцом сверху ů 5.0 U+016F ů
uring => 367,
# Ű латинская заглавная «U» с двойным акутом Ű 5.0 U+0170 Ű
Udblac => 368,
# ű латинская строчная «u» с двойным акутом ű 5.0 U+0171 ű
udblac => 369,
# Ų латинская заглавная «U» с огонэком Ų 5.0 U+0172 Ų
Uogon => 370,
# ų латинская строчная «u» с огонэком ų 5.0 U+0173 ų
uogon => 371,
# Ŵ латинская заглавная «W» с циркумфлексом Ŵ 5.0 U+0174 Ŵ
Wcirc => 372,
# ŵ латинская строчная «w» с циркумфлексом ŵ 5.0 U+0175 ŵ
wcirc => 373,
# Ŷ латинская заглавная «Y» с циркумфлексом Ŷ 5.0 U+0176 Ŷ
Ycirc => 374,
# ŷ латинская строчная «y» с циркумфлексом ŷ 5.0 U+0177 ŷ
ycirc => 375,
# Ÿ латинская заглавная «Y» с тремой Ÿ 4.0 U+0178 Ÿ
Yuml => 376,
# Ź латинская заглавная «Z» с акутом Ź 5.0 U+0179 Ź
Zacute => 377,
# ź латинская строчная «z» с акутом ź 5.0 U+017A ź
zacute => 378,
# Ż латинская заглавная «Z» с точкой сверху Ż 5.0 U+017B Ż
Zdot => 379,
# ż латинская строчная «z» с точкой сверху ż 5.0 U+017C ż
zdot => 380,
# Ž латинская заглавная «Z» с птичкой Ž 5.0 U+017D Ž
Zcaron => 381,
# ž латинская строчная «z» с птичкой ž 5.0 U+017E ž
zcaron => 382,
# ſ латинская строчная «долгая s» U+017F ſ
#
#
# Расширение латиницы — B
# U+0180—U+024F
# Символ Назначение Мнемоника HTML Код
#
# ƒ • латинская строчная f с хвостиком снизу (иногда называется рукописной f, на самом деле прямая или курсив)
# • знак флорина
# • символ функции
# • это не регулярная курсивная латинская f (𝑓, U+1D453), хотя, в зависимости от шрифта, может выглядеть очень похоже ƒ 4.0 U+0192 ƒ
fnof => 402,
# Ƶ латинская заглавная «Z» с горизонтальным штрихом Ƶ 5.0 U+01B5 Ƶ
imped => 437,
# ǵ латинская строчная «g» с акутом ǵ 5.0 U+01F5 ǵ
gacute => 501,
# ȷ латинская строчная «j» без точки сверху ȷ 5.0 U+0237 ȷ
jmath => 567,
#
#
# Занимающие позицию модификаторы букв
# U+02B0—U+02FF
# Символ Назначение Мнемоника HTML Код
#
# ˆ занимающий позицию акцент перевёрнутая птичка/circumflex accent ˆ 4.0 U+02C6 ˆ
circ => 710,
# ˇ занимающий позицию акцент птичка (гачек) ˇ 5.0 U+02C7 ˇ ˇ
caron => 711,
Hacek => 711,
# ˘ занимающий позицию бреве ˘ 5.0 U+02D8 ˘ ˘
Breve => 728,
breve => 728,
# ˙ занимающая позицию точка сверху ˙ 5.0 U+02D9 ˙ ˙
dot => 729,
DiacriticalDot => 729,
# ˚ занимающий позицию кружок сверху ˚ 5.0 U+02DA ˚
ring => 730,
# ˛ занимающий позицию огонэк ˛ 5.0 U+02DB ˛
ogon => 731,
# ˜ занимающая позицию малая тильда ˜ 5.0 U+02DC ˜ ˜ 4.0
DiacriticalTilde => 732,
tilde => 732,
# ˝ занимающий позицию двойной акут ˝ 5.0 U+02DD ˝ ˝
DiacriticalDoubleAcute => 733,
dblac => 733,
#
#
# Комбинируемые диакритические знаки
# U+0300—U+036F
# Символ Назначение Мнемоника HTML Код
#
# ́ комбинируемый знак ударения (аку́т — ставится непосредственно после буквы, над которой должен изображаться) U+0301 ́
# ̑ комбинируемый перевёрнутый бре́вис (ставится непосредственно после буквы, над которой должен изображаться) ̑ 5.0 U+0311 ̑
DownBreve => 785,
#
#
# Греческие и коптские символы
# U+0370 — U+03FF
# Включает Греческий алфавит.
#
# Символ Назначение Мнемоника HTML Код
#
# Α греческая заглавная альфа Α 4.0 U+0391 Α
Alpha => 913,
# Β греческая заглавная бета Β 4.0 U+0392 Β
Beta => 914,
# Γ греческая заглавная гамма Γ 4.0 U+0393 Γ
Gamma => 915,
# Δ греческая заглавная дельта Δ 4.0 U+0394 Δ
Delta => 916,
# Ε греческая заглавная эпсилон Ε 4.0 U+0395 Ε
Epsilon => 917,
# Ζ греческая заглавная дзета Ζ 4.0 U+0396 Ζ
Zeta => 918,
# Η греческая заглавная эта Η 4.0 U+0397 Η
Eta => 919,
# Θ греческая заглавная тета Θ 4.0 U+0398 Θ
Theta => 920,
# Ι греческая заглавная йота Ι 4.0 U+0399 Ι
Iota => 921,
# Κ греческая заглавная каппа Κ 4.0 U+039A Κ
Kappa => 922,
# Λ греческая заглавная лямбда Λ 4.0 U+039B Λ
Lambda => 923,
# Μ греческая заглавная мю Μ 4.0 U+039C Μ
Mu => 924,
# Ν греческая заглавная ню Ν 4.0 U+039D Ν
Nu => 925,
# Ξ греческая заглавная кси Ξ 4.0 U+039E Ξ
Xi => 926,
# Ο греческая заглавная омикрон Ο 4.0 U+039F Ο
Omicron => 927,
# Π греческая заглавная пи Π 4.0 U+03A0 Π
Pi => 928,
# Ρ греческая заглавная ро Ρ 4.0 U+03A1 Ρ
Rho => 929,
# Σ греческая заглавная сигма Σ 4.0 U+03A3 Σ
Sigma => 931,
# Τ греческая заглавная тау Τ 4.0 U+03A4 Τ
Tau => 932,
# Υ греческая заглавная ипсилон Υ 4.0 U+03A5 Υ
Upsilon => 933,
# Φ греческая заглавная фи Φ 4.0 U+03A6 Φ
Phi => 934,
# Χ греческая заглавная хи Χ 4.0 U+03A7 Χ
Chi => 935,
# Ψ греческая заглавная пси Ψ 4.0 U+03A8 Ψ
Psi => 936,
# Ω • греческая заглавная омега
# • Ом (единица электрического сопротивления) — рекомендуется вместо ранее введённого специального символа «Ом» U+2126 (Ω, Ω) Ω 5.0 U+03A9 Ω Ω 4.0
ohm => 937,
Omega => 937,
# α греческая строчная альфа α 4.0 U+03B1 α
alpha => 945,
# β греческая строчная бета β 4.0 U+03B2 β
beta => 946,
# γ греческая строчная гамма γ 4.0 U+03B3 γ
gamma => 947,
# δ греческая строчная дельта δ 4.0 U+03B4 δ
delta => 948,
# ε греческая строчная эпсилон ε 5.0 U+03B5 ε ε 4.0
epsi => 949,
epsilon => 949,
# ζ греческая строчная дзета ζ 4.0 U+03B6 ζ
zeta => 950,
# η греческая строчная эта η 4.0 U+03B7 η
eta => 951,
# θ греческая строчная тета θ 4.0 U+03B8 θ
theta => 952,
# ι греческая строчная йота ι 4.0 U+03B9 ι
iota => 953,
# κ греческая строчная каппа κ 4.0 U+03BA κ
kappa => 954,
# λ греческая строчная лямбда λ 4.0 U+03BB λ
lambda => 955,
# μ греческая строчная мю μ 4.0 U+03BC μ
mu => 956,
# ν греческая строчная ню ν 4.0 U+03BD ν
nu => 957,
# ξ греческая строчная кси ξ 4.0 U+03BE ξ
xi => 958,
# ο греческая строчная омикрон ο 4.0 U+03BF ο
omicron => 959,
# π греческая строчная пи π 4.0 U+03C0 π
pi => 960,
# ρ греческая строчная ро ρ 4.0 U+03C1 ρ
rho => 961,
# ς греческая строчная сигма конечная ς 5.0 U+03C2 ς ς 5.0 ς 4.0
sigmav => 962,
varsigma => 962,
sigmaf => 962,
# σ греческая строчная сигма σ 4.0 U+03C3 σ
sigma => 963,
# τ греческая строчная тау τ 4.0 U+03C4 τ
tau => 964,
# υ греческая строчная ипсилон υ 5.0 U+03C5 υ υ 4.0
upsi => 965,
upsilon => 965,
# φ греческая строчная фи φ 4.0 U+03C6 φ
phi => 966,
# χ греческая строчная хи χ 4.0 U+03C7 χ
chi => 967,
# ψ греческая строчная пси ψ 4.0 U+03C8 ψ
psi => 968,
# ω греческая строчная омега ω 4.0 U+03C9 ω
omega => 969,
# ϑ греческая символьная тета ϑ 5.0 U+03D1 ϑ ϑ 5.0 ϑ 4.0
thetav => 977,
vartheta => 977,
thetasym => 977,
# ϒ греческий ипсилон с хвостиком ϒ 5.0 U+03D2 ϒ ϒ 4.0
Upsi => 978,
upsih => 978,
# ϕ греческая символьная фи ϕ 5.0 U+03D5 ϕ ϕ 5.0 ϕ 5.0
straightphi => 981,
varphi => 981,
phiv => 981,
# ϖ греческая символьная пи ϖ 5.0 U+03D6 ϖ ϖ 4.0
varpi => 982,
piv => 982,
# Ϝ греческая заглавная дигамма Ϝ 5.0 U+03DC Ϝ
Gammad => 988,
# ϝ греческая строчная дигамма ϝ 5.0 U+03DD ϝ ϝ 5.0
gammad => 989,
digamma => 989,
# ϰ греческая символьная каппа ϰ 5.0 U+03F0 ϰ ϰ 5.0
varkappa => 1008,
kappav => 1008,
# ϱ греческая символьная ро ϱ 5.0 U+03F1 ϱ ϱ 5.0
varrho => 1009,
rhov => 1009,
# ϵ греческая символьный эпсилон (прямой эпсилон, лунный эпсилон) ϵ 5.0 U+03F5 ϵ ϵ 5.0 ϵ 5.0
straightepsilon => 1013,
varepsilon => 1013,
epsiv => 1013,
# ϶ греческая обратный эпсилон (обращённый лунный эпсилон) ϶ 5.0 U+03F6 ϶ ϶ 5.0
backepsilon => 1014,
bepsi => 1014,
#
#
# Общая пунктуация
# Символ Назначение Мнемоника Код
#
# пробел длины N (длинный пробел, примерно с короткое тире)    
ensp => 8194,
# пробел длины M (очень длинный пробел, примерно с длинное тире)    
emsp => 8195,
# узкий пробел    
thinsp => 8201,
# zero width non-joiner — запрет склейки (лигатуры) соседних символов ‌ ‌
zwnj => 8204,
# zero width joiner — запрос на склейку (лигатуру) соседних символов ‍ ‍
zwj => 8205,
# left-to-right mark — признак начала текста, читаемого слева‑направо ‎ ‎
lrm => 8206,
# right-to-left mark — признак начала текста, читаемого справа‑налево ‏ ‏
rlm => 8207,
# ‑ неразрывный (неразделяемый) дефис / non-breaking hyphen ‑
# – короткое тире (тире длины N) – –
ndash => 8211,
# — длинное тире (тире длины M) — —
mdash => 8212,
# ‘ одинарная кавычка типа «верхняя перевёрнутая девятка» ‘ ‘
lsquo => 8216,
# ’ одинарная кавычка типа «верхняя девятка» ’ ’
rsquo => 8217,
# ‚ одинарная кавычка типа «нижняя девятка» ‚ ‚
sbquo => 8218,
# ‛ одинарная кавычка типа «верхняя обращённая девятка» ‛
# “ двойная кавычка типа «верхняя перевёрнутая девятка» “ “
ldquo => 8220,
# ” двойная кавычка типа «верхняя девятка» ” ”
rdquo => 8221,
# „ двойная кавычка типа «нижняя девятка» „ „
bdquo => 8222,
# ‟ двойная кавычка типа «верхняя обращённая девятка» ‟
# † типографский крестик † †
dagger => 8224,
# ‡ двойной типографский крестик ‡ ‡
Dagger => 8225,
# • маркер списка (буллит) • •
bull => 8226,
# … горизонтальное многоточие … …
hellip => 8230,
# ‰ проми́лле ‰ ‰
permil => 8240,
# ′ штрих ′ ′
prime => 8242,
# ″ двойной штрих ″ ″
Prime => 8243,
# ‹ направленная влево одинарная угловая кавычка (предложена, но ещё не стандартизирована ISO, практически всюду есть) ‹ ‹
lsaquo => 8249,
# › направленная вправо одинарная угловая кавычка (предложена, но ещё не стандартизирована ISO, практически всюду есть) › ›
rsaquo => 8250,
# ‾ занимающее позицию надчёркивание ‾ ‾
oline => 8254,
# ⁄ комбинируемый символ «дробь-черта» (1⁄2 → ½, 3⁄4 → ¾, 12⁄23 → 12⁄23, при необходимости последовательность цифр ограничивается пробелом нулевой длины (​) или неразрывным пробелом нулевой длины (⁠): 12​34⁄56 → 1234⁄56, 2⁠99⁄100 → 299⁄100) ⁄ ⁄
frasl => 8260,
#
#
# Знаки валют
# Символ Назначение Мнемоника Код
#
# € евро € €
euro => 8364,
# ₽ рубль ₽
#
#
# Буквоподобные символы
# Символ Назначение Мнемоника Код
#
# ℑ готическая заглавная I (регулярная латинская готическая буква) = мнимая часть ℑ ℑ
image => 8465,
# № Знак номера № (HTML 5.0) №
numero => 8470,
# ℘ эллиптическая функция Вейерштрасса или множество всех подмножеств. Отдельный символ, >не рукописная заглавная P (𝒫, 𝒫) ℘ ℘
weierp => 8472,
# ℜ готическая заглавная R (регулярная латинская готическая буква) = вещественная часть ℜ ℜ
real => 8476,
# ™ товарный знак ™ — есть не всюду ™ ™
TRADE => 8482,
trade => 8482,
# ℵ математическая буква Алеф = бесконечный кардинал — в отличие от еврейской буквы Алеф (א, א) читается слева направо ℵ ℵ
alefsym => 8501,
#
#
# Формы чисел
# Символ Назначение Мнемоника Код
#
# ⅓ простая дробь «одна треть» ⅓ (HTML 5.0) ⅓
frac13 => 8531,
#
#
# Стрелки
# Символ Назначение Мнемоника Код
#
# ← влево ← ←
larr => 8592,
# ↑ вверх ↑ ↑
uarr => 8593,
# → вправо → →
rarr => 8594,
# ↓ вниз ↓ ↓
darr => 8595,
# ↔ влево-вправо ↔ ↔
harr => 8596,
# ↵ вниз с углом вправо = возврат каретки ↵ ↵
crarr => 8629,
# ⇐ двойная стрелка влево ⇐ ⇐
lArr => 8656,
# ⇑ двойная вверх ⇑ ⇑
uArr => 8657,
# ⇒ двойная вправо ⇒ ⇒
rArr => 8658,
# ⇓ двойная вниз ⇓ ⇓
dArr => 8659,
# ⇔ двойная влево-вправо ⇔ ⇔
hArr => 8660,
# ◄ влево ◄
# ▲ вверх ▲
# ► вправо ►
# ▼ вниз ▼
#
#
# Математические операции
# Символ Назначение Мнемоника Код
#
# ∀ квантор всеобщности (для всех…) ∀ ∀
forall => 8704,
# ∂ частная производная ∂ ∂
part => 8706,
# ∃ квантор существования (существует…) ∃ ∃
exist => 8707,
# ∅ пустое множество (диаметр) ∅ ∅
empty => 8709,
# ∇ набла ∇ ∇
nabla => 8711,
# ∈ принадлежит ∈ ∈
isin => 8712,
# ∉ не принадлежит ∉ ∉
notin => 8713,
# ∋ содержит ∋ ∋
ni => 8715,
# ∏ произведение по множеству ∏ ∏
prod => 8719,
# ∑ сумма по множеству ∑ ∑
sum => 8721,
# − минус — не чёрточка-минус из ASCII, имеет те же размеры и такое же расположение горизонтального штриха, что и «+» − −
minus => 8722,
# ∕ деление (не косая черта из ASCII) ∕
# ∖ разность множеств (не обратная косая черта из ASCII) ∖ (HTML 5.0)
setmn => 34598,
# ∖ (HTML 5.0)
setminus => 34598,
# ∖ (HTML 5.0)
Backslash => 8726,
# ∖ (HTML 5.0)
ssetmn => 8726,
# ∖ (HTML 5.0) ∖
smallsetminus => 8726,
# ∗ звёздочка (гарантированно не приподнятая над строкой) ∗ ∗
lowast => 8727,
# √ квадратный корень = знак радикала √ √
radic => 8730,
# ∝ пропорционально к ∝ ∝
prop => 8733,
# ∞ бесконечность ∞ ∞
infin => 8734,
# ∠ угол ∠ ∠
ang => 8736,
# ∧ конъюнкция (логическое И) = wedge ∧ ∧
and => 8743,
# ∨ дизъюнкция (логическое ИЛИ) = vee ∨ ∨
or => 8744,
# ∩ пересечение = cap ∩ ∩
cap => 8745,
# ∪ объединение = cup ∪ ∪
cup => 8746,
# ∫ интеграл ∫ ∫
int => 8747,
# ∴ следовательно, тем самым = therefore ∴ ∴
there4 => 8756,
# ∼ эквивалентно (для бесконечно малых/больших) = similar to ∼ ∼
sim => 8764,
# ≅ конгруэнтно = is approximately equal (congruent) to ≅ ≅
cong => 8773,
# ≈ примерно равно = is almost equal (asymptotic) to ≈ ≈
asymp => 8776,
# ≠ не равно = is not equal to ≠ ≠
ne => 8800,
# ≡ тождественно равно, логически эквивалентно = is equivalent to ≡ ≡
equiv => 8801,
# ≤ меньше или равно = is less or equal to ≤ ≤
le => 8804,
# ≥ больше или равно = is greater or equal to ≥ ≥
ge => 8805,
# ⊂ подмножество = is subset of ⊂ ⊂
sub => 8834,
# ⊃ включает в себя = is superset of ⊃ ⊃
sup => 8835,
# ⊄ не является подмножеством = is not subset of ⊄ ⊄
nsub => 8836,
# ⊆ подмножество или эквивалентно = is subset of or equivalent to ⊆ ⊆
sube => 8838,
# ⊇ включает в себя или эквивалентно = is superset of or equivalent to ⊇ ⊇
supe => 8839,
# ⊕ плюс в круге = прямая сумма ⊕ ⊕
oplus => 8853,
# ⊗ умножение [косым] крестом в круге = тензорное произведение ⊗ ⊗
otimes => 8855,
# ⊥ up tack = ортогонально к = перпендикулярно ⊥ ⊥
perp => 8869,
# ⋅ умножение точкой = скалярное произведение ⋅ ⋅
sdot => 8901,
#
#
# Технические символы
# Символ Назначение Мнемоника Код
#
# ⌈ левая скобка округления вверх = apl upstile ⌈ ⌈
lceil => 8968,
# ⌉ правая скобка округления вверх ⌉ ⌉
rceil => 8969,
# ⌊ левая скобка округления вниз = apl downstile ⌊ ⌊
lfloor => 8970,
# ⌋ правая скобка округления вниз ⌋ ⌋
rfloor => 8971,
# ⟨ угловая скобка влево = бра ⟨ 〈
lang => 9001,
# ⟩ угловая скобка вправо = кет ⟩ 〉
rang => 9002,
#
#
# Геометрические фигуры
# Символ Назначение Мнемоника Код
#
# ◊ ромб ◊ ◊
loz => 9674,
#
#
# Различные символы
# Символ Назначение Мнемоника Код
#
# ♠ «пики» (карточная масть) ♠ ♠
spades => 9824,
# ♣ «трефы» (карточная масть) ♣ ♣
clubs => 9827,
# ♥ «червы» (карточная масть) ♥ ♥
hearts => 9829,
# ♦ «бубны» (карточная масть) ♦ ♦
diams => 9830,
);
sub _set(@) { +{ map { $_ => 1 } @_ } }
# Теги не имеющие закрывающего тега
our %SINGLE_TAG = %{ _set qw/area base br col embed hr img input link meta param source track wbr/ };
# <li> закрывается, если приходит </ol> или </ul>
our %TOP_CLOSE_TAG = (
li => _set(qw/ol ul/),
caption => _set(qw/table/),
thead => _set(qw/table/),
tbody => _set(qw/table/),
tfoot => _set(qw/table/),
tr => _set(qw/table thead tbody tfoot caption/),
td => _set(qw/table thead tbody tfoot caption/),
th => _set(qw/table thead tbody tfoot caption/),
dt => _set(qw/dl/),
dd => _set(qw/dl/),
rt => _set(qw/ruby/),
rp => _set(qw/ruby/),
option => _set(qw/optgroup select/),
optgroup => _set(qw/select/),
);
# <tr> закрывает открытые <td> и <th> и <tr>
our %TOP_NEW_TAG = (
head => _set(qw/body/),
tr => _set(qw/tr thead tbody tfoot/),
td => _set(qw/tr thead tbody tfoot td th/),
th => _set(qw/tr thead tbody tfoot td th/),
col => _set(qw/tr thead tbody tfoot td th colgroup/),
colgroup => _set(qw/thead tbody tfoot caption colgroup/),
caption => _set(qw/thead tbody tfoot caption/),
thead => _set(qw/thead tbody tfoot caption/),
tbody => _set(qw/thead tbody tfoot caption/),
tfoot => _set(qw/thead tbody tfoot caption/),
li => _set(qw/li/),
dt => _set(qw/dt dd/),
dd => _set(qw/dt dd/),
rt => _set(qw/rt rp/),
rp => _set(qw/rt rp/),
option => _set(qw/option optgroup/),
optgroup => _set(qw/optgroup/),
);
# Проверяет, что тег – одиночный
sub is_single_tag(;$) {
exists $SINGLE_TAG{$_[0] // $_}
}
# Забрасывает тег в стек и возвращает закрытые
sub in_tag(\@$$) {
my ($S, $tag, $atag) = @_;
# Выбрасываем из стека предыдущий тег
my @ret;
push @ret, pop @$S while @$S and
($TOP_NEW_TAG{ $S->[$#$S][0] })->{$tag};
push @$S, [$tag, $atag] unless exists $SINGLE_TAG{$tag};
@ret
}
# Выбрасывает тег из стека. Возвращает выдавленные им и выбрасывает исключение, если такого в стеке нет
sub out_tag(\@$) {
my ($S, $tag) = @_;
# Это одиночный тег - он не может быть закрывающим
die "</$tag> is a single tag - it cannot be a closing tag" if exists $SINGLE_TAG{$tag};
# закрываем предыдущий, если нужно
my @ret;
push @ret, pop @$S while @$S and
($TOP_CLOSE_TAG{$S->[$#$S][0]})->{$tag};
die "</$tag>, but stack is empty!" unless @$S;
# тег равен закрывающему
die "<$S->[$#$S][0]> in stack ne </$tag>!" if $S->[$#$S][0] ne $tag;
push @ret, pop @$S;
@ret
}
=pod
Разбивает текст на страницы с учётом html-тегов
1. html-тег должен быть так же разнесён на страницы.
=cut
sub split_on_pages(@) {
my ($html, $symbols_on_page, $by) = @_;
# На какое расстояние страница может быть больше
$by //= $symbols_on_page / 3 < 1000 ? int($symbols_on_page / 3): 1000;
my $max = $symbols_on_page + $by;
my @pages; # массив страниц
my @page; # массив элементов текста и тегов текущей страницы
my $c = 0; # количество символов в текущей странице
my $i_page = 0; # индекс элемента @page который привысил размер страницы
my $c_page = 0; # количество символов @page по $i_page
my $is_proposal = 0; # В конце текущей страницы обнаружен конец предложения
my $re_proposal = qr/[.?!…]/;
my @S; # массив открывающих тегов [tag, '<tag ...>']
# Функция фиксирует страницу и сбрасывает счётчики
my $make_page = sub {
push @pages, join "", @page, map { "</$_->[0]>" } reverse @S;
$i_page = $c = $is_proposal = 0;
@page = map $_->[1], @S;
};
for(grep length, split m{(
<[a-z] [^<>]* >
| </ \s* [a-z]\w* \s* >
| &(?: [a-z]\w* | \# \d+ | \#x[0-9a-f]+ ) ;?
| \n # Абзац
| $re_proposal+ # Предложение
| \b # Слово
)}xiu, $html) {
if(/^&/) {$c++} # html-символ
elsif(/^<\/\s*([a-z]\w*)/) { # закрывающий тег
my $tag = lc $1;
eval { out_tag @S, $tag };
next if $@;
# </p> превращаем в <p></p>
$_ = "<p></p>" if $tag eq "p";
}
elsif(/^<([a-z]\w*)/) { in_tag @S, lc $1, $_ } # тег
else {$c += length} # текст
push @page, $_; # накапливаем символы в массиве @page
next if $c < $symbols_on_page; # страницу не набрали - тогда на next
$c_page = $c, $i_page = @page if !$i_page;
# Просматриваем вперёд пока не найдём границу или не достигнем ограничения
if(/^\n/) { $make_page->() } # Абзац
elsif(!$is_proposal && /^$re_proposal/) { $i_page = @page; $c_page = $c; $is_proposal = 1 }
elsif($c >= $max) {
# Если следующий за предложением или словом элемент - пробелы, то добавляем их к странице
$c_page -= length $page[$i_page++] if $page[$i_page] =~ /^\s/;
my @x = splice @page, $i_page;
$make_page->();
push @page, @x;
$c -= $c_page;
}
}
$make_page->() if @page;
# Если размер последней страницы меньше чем 2/3, то добавляем её к предпоследней
$pages[$#pages - 1] .= pop @pages if @pages > 1 and length($pages[$#pages]) < $symbols_on_page * 2 / 3;
#my $len = 0; $len += length for @pages;
#die "Суммарный размер страниц не изменился: " . length($html) . " == $len pages=" . @pages . " ->\n\n$html" if $len == length $html;
my ($end1) = $html =~ m!([^<>\s]{1,13})\s*(</?\w[^<>]*>\s*)*$!a;
my ($end2) = $pages[$#pages] =~ m!([^<>\s]{1,13})\s*(</?\w[^<>]*>\s*)*$!a;
die "Концы текста и последней страницы не сходятся! `$end1` <> `$end2`" if $end1 ne $end2;
return @pages;
}
our %TAG2SPACE = (
"br" => "\n",
"dd" => "\n ",
"table" => "\n",
"tr" => "\n| ",
"td" => "\t| ",
"th" => "\t| ",
"ol" => "\n",
"ul" => "\n",
"li" => "\n* ",
"img" => " ",
"p" => "\n",
"div" => "\n",
);
our %CLOSE_TAG2SPACE = (
"div" => "\n",
"p" => "\n",
"table" => "\n",
"ol" => "\n",
"ul" => "\n",
);
our %WITH_CLOSE_TAG2SPACE = (
"p" => "\n",
"br" => "\n",
"img" => " ",
);
# переводит html в text
sub from_html {
local ($_) = @_;
# 1. Убираем энтитиес:
my $ent = sub {
exists $+{word}? (exists $ENTITIES{$+{word}}? chr $ENTITIES{$+{word}}: $&):
exists $+{num}? chr $+{num}:
exists $+{hex}? chr hex $+{hex}: ""
};
s{&(
(?<word>\w+)
|\#(?<num>\d+)
|\#x(?<hex>[a-f\d]+)
);?
}{$ent->()}genix;
my $pre;
my $to = sub {
my $s1 = $pre? $+{s1}: ($+{s1} eq ""? "": " ");
my $x =
exists $+{space}? ($pre? $+{space}: " "):
exists $+{nbsp}? " ":
exists $+{xhr}? $+{xhr}:
exists $+{tag}? do {
my $tag = lc $+{tag};
$pre = 1 if $tag eq "pre";
exists $+{close}? $WITH_CLOSE_TAG2SPACE{$tag}: $TAG2SPACE{$tag}
}:
exists $+{ctag}? do {
my $tag = lc $+{ctag};
$pre = 0 if $tag eq "pre";
$CLOSE_TAG2SPACE{$tag}
}:
"";
my $s2 = $pre? $+{s2}: ($+{s2} eq "" || $s1? "": " ");
$x =~ /\n/ ? $x: join "", $s1, $x, $s2
};
s{
(?<s1> \s*) (
<(script|style|template)\b [^<>]*> .*? </ \g1 \s* >
| <xhr \b [^<>]*> (?<xhr> .*? ) </xhr \s* >
| < (?<tag> [a-z]\w* ) [^<>]*? (?<close> / )? \s*>
| </ (?<ctag> [a-z]\w* ) \s*>
| <!--.*?-->
) (?<s2> \s*)
| (?<space> [\ \t\n\r\f]+)
| (?<nbsp> \xa0)
}{$to->()}genisx;
$_
}
# Все, кроме запрещённых:
# applet, script, style, embed, object, param,
# video, audio, source, track, frame, frameset, iframe, comment
# html, head, body, title, meta, base, basefont, bgsound, link
# form, keygen, output, textarea, select, option, optgroup, legend, label, input
# plaintext, xmp
# А так же удаляет атрибуты начинающиеся на "on", name, for, formaction и др..
my %SAFE_TAG = map {$_=>1} qw/
a
abbr
acronym
address
area
article
aside
b
bdi
bdo
blockquote
big
blink
br
button
canvas
caption
center
cite
code
col
colgroup
command
datalist
dd
del
details
dfn
dir
div
dl
dt
em
figcaption
figure
font
footer
h1
h2
h3
h4
h5
h6
header
hgroup
hr
i
img
ins
isindex
kbd
keygen
li
main
map
marquee
mark
menu
meter
nav
nobr
noembed
noframes
noscript
ol
p
pre
progress
q
rp
rt
ruby
s
samp
section
small
span
strike
strong
sub
summary
sup
table
tbody
td
tfoot
th
thead
time
tr
tt
u
ul
var
wbr
/;
my %SAFE_ATTR = map {$_=>1} qw/
pubdate datetime
open optimum
dir lang language style tabindex title high low hreflang icon
max min
href media ping rel rev name type
class
src
alt crossorigin decoding height width importance intrinsicsize loading sizes srcset
align border hspace vspace longdesc axis char charoff summary
colspan rowspan
border cite bgcolor color
coords
/;
# срезает у html-я опасные, а так же неведомые теги
sub safe_html($;$) {
(local $_, my $link) = @_;
my $f = sub {
return "" if !exists $SAFE_TAG{lc $2};
return "</$2>" if $1 ne "";
my $tag = $2;
my $x = $3;
my @attrs;
while($x =~ /
\b (?<attr> [a-z][a-z\d]*) ( \s*=\s* ( (?<quot> ") (?<val> [^"]*)" | (?<quot> ') (?<val> [^']*)' | (?<val> \S*) ) )?
/gixn) {
push @attrs, $+{val} eq ""? " $+{attr}"
: join "", " ", $+{attr}, "=", $+{quot},
lc $+{attr} ~~ [qw/src href/]
? Aion::Format::Url::normalize_url($+{val}, $link)
: $+{val},
$+{quot}
if exists $SAFE_ATTR{lc $+{attr}};
}
push @attrs, " target=_blank" if lc $tag eq "a";
"<$tag@attrs>"
};
s{<(/\s*)?([a-z][a-z\d:-]*)([^<>]*)>|<!--(?:.*?)-->}{ $f->() }igse;
$_
}
1;
__END__
=encoding utf-8
=head1 NAME
Aion::Format::Html - Perl extension for formatting HTML
=head1 SYNOPSIS
use Aion::Format::Html;
from_html "<b>!</b>" # => !
to_html "<a>" # => <a>
=head1 DESCRIPION
Perl extension for formatting HTML-documents.
=head1 SUBROUTINES
=head2 from_html ($html)
Converts html to text.
from_html "Basic is <b>superlanguage</b>!<br>" # => Basic is superlanguage!\n
=head2 to_html ($html)
Escapes html characters.
=head2 safe_html ($html)
Cuts off dangerous and unknown tags from html, and unknown attributes from known tags.
safe_html "-<em>-</em><br>-" # => -<em>-</em><br>-
safe_html "-<em onclick=' '>-</em><br onmouseout=1>-" # => -<em>-</em><br>-
safe_html "-<xx24>-</xx24>" # => --
safe_html "-< applet >-</ applet >" # => -< applet >-
=head2 split_on_pages ($html, $symbols_on_page, $by)
Breaks text into pages taking into account html tags.
[split_on_pages "Alice in wonderland. This is book", 17] # --> ["Alice in wonderland. ", "This is book"]
=head1 AUTHOR
Yaroslav O. Kosmina LL<mailto:darviarush@mail.ru>
=head1 LICENSE
⚖ B<GPLv3>
=head1 COPYRIGHT
The Aion::Format::Html module is copyright © 2023 Yaroslav O. Kosmina. Rusland. All rights reserved.