- 自然語言處理導論
- 張奇等
- 821字
- 2023-11-17 16:47:01
數學符號
數與數組
α 標量
α 向量
A 矩陣
A 張量
In n行n列單位矩陣
vw 詞w的分布式向量表示
ew 詞w的獨熱向量表示:[0,0,···,1,0,···,0],w下標處元素為1
索引
αi 向量α中索引i處的元素
α-i 向量α中除索引i之外的元素
wi:j 序列w中從第i個元素到第j個元素組成的片段或子序列
Aij 矩陣A中第i行、第j列的元素
Ai: 矩陣A中第i行
A:j 矩陣A中第j列
Aijk 三維張量 A中索引為(i,j,k)的元素
A::i 三維張量 A中的一個二維切片
集合
A 集合
R 實數集
C 復數集
{0,1,···,n} 含0和n的正整數的集合
[a,b] a到b的實數閉區間
(a,b] a到b的實數左開右閉區間
線性代數
A? 矩陣A的轉置
A⊙B 矩陣A與矩陣B的Hadamard乘積
det(A) 矩陣A的行列式
[x;y] 向量x與y的拼接
[U;V] 矩陣U與V沿行向量拼接
x·y或x?y 向量x與y的點積
微積分
y對x的導數
y對x的偏導數
▽xy y對向量x的梯度
▽Xy y對矩陣X的梯度
▽Xy y對張量 X的梯度
概率與信息論
a⊥b 隨機變量a與b獨立
a⊥b|c 隨機變量a與b關于c條件獨立
P (a) 離散變量概率分布
p(a) 連續變量概率分布
a~P 隨機變量a服從分布P
Ex~P(f(x))或E(f(x)) f(x)在分布P(x)下的期望
Var(f(x)) f(x)在分布P(x)下的方差
Cov(f(x),g(x)) f(x)與g(x)在分布P(x)下的協方差
H (f(x)) 隨機變量x的信息熵
DKL(P‖Q) 概率分布P與Q的KL散度
N(μ,Σ) 均值為μ、協方差為Σ的高斯分布
數據與概率分布
X或D 數據集
x(i) 數據集中第i個樣本(輸入)
y(i)或y(i) 第i個樣本x(i)的標簽(輸出)
函數
f:A-→B 由定義域A到值域B的函數(映射)f
f ?g f與g的復合函數
f (x;θ) 由參數θ定義的關于x的函數(也可以直接寫作f(x),省略θ)
log x x的自然對數函數
σ(x) Sigmoid函數
||x||p x的Lp范數
||x|| x的L2范數
1condition 條件指示函數:如果condition為真,則值為1;否則值為0
本書中常用寫法
? 給定詞表V,其大小為|V|
? 序列x=x1,x2,···,xn中第i個詞xi的詞向量為
? 損失函數L為負對數似然函數:L(θ)=-∑(x,y)log P(y|x1···xn)
? 算法的空間復雜度為O(mn)