<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/">
	<channel>
		<title>Vietnamese Professional - CCNP - Enterprise Core LabPro</title>
		<link>https://www.forum.vnpro.org/</link>
		<description />
		<language>vi</language>
		<lastBuildDate>Sun, 07 Jun 2026 09:48:17 GMT</lastBuildDate>
		<generator>vBulletin</generator>
		<ttl>60</ttl>
		<image>
			<url>images/misc/rss.png</url>
			<title>Vietnamese Professional - CCNP - Enterprise Core LabPro</title>
			<link>https://www.forum.vnpro.org/</link>
		</image>
		<item>
			<title>AI Prompt</title>
			<link>https://www.forum.vnpro.org/forum/cclabpro/ccnp-enterprise-core-labpro/440604-ai-prompt</link>
			<pubDate>Fri, 22 May 2026 11:55:20 GMT</pubDate>
			<description>Một ngày trong đời của một Prompt: Điều gì xảy ra khi bạn hỏi ChatGPT? 
 
 
Khi bạn gõ một câu hỏi như:  
“What is the answer to the ultimate...</description>
			<content:encoded><![CDATA[<b>Một ngày trong đời của một Prompt: Điều gì xảy ra khi bạn hỏi ChatGPT?</b><br />
<br />
<br />
Khi bạn gõ một câu hỏi như:<div style="margin-left:40px"><i>“What is the answer to the ultimate question of life, the universe and everything?”</i></div> <br />
trông có vẻ đơn giản. Nhưng phía sau là cả một pipeline tính toán rất nặng. <b>1. Prompt → Tokenize</b><br />
<br />
<br />
Máy không hiểu chữ như con người.<br />
<br />
Câu hỏi của bạn trước tiên phải được <b>chia nhỏ thành token</b>.<br />
<br />
Ví dụ:<ul><li>&quot;What&quot;</li>
<li>&quot; is&quot;</li>
<li>&quot; the&quot;</li>
<li>&quot; answer&quot;</li>
<li>...</li>
</ul><br />
Token không hẳn là từ. Có thể là một phần của từ, dấu câu, hoặc ký tự đặc biệt.<br />
<br />
Ví dụ:<br />
Artificial → Art + ificial<br />
Networking → Network + ing<br />
<br />
LLM chỉ làm việc với token, không trực tiếp với ngôn ngữ tự nhiên. <hr /> <b>2. Prefill — Giai đoạn đắt đỏ nhất lúc ban đầu</b><br />
<br />
<br />
Sau khi token hóa, toàn bộ prompt được đưa vào model.<br />
<br />
Đây gọi là <b>Prefill</b>.<br />
<br />
Model sẽ:<ul><li>đọc toàn bộ prompt</li>
<li>tính attention giữa các token</li>
<li>xây dựng context understanding</li>
<li>tạo ra <b>KV Cache</b></li>
</ul><br />
Hãy hình dung giống như:<br />
<br />
Bạn đưa cho AI một email dài 10 trang.<br />
<br />
AI phải đọc hết trước khi trả lời.<br />
<br />
Đây chính là lý do:<br />
<br />
<b>prompt càng dài → phản hồi đầu tiên càng chậm</b><br />
<br />
Trong slide có dòng:<div style="margin-left:40px">Longer prompts = longer prefill = larger KV Cache = longer TTFT</div> <br />
TTFT = <b>Time To First Token</b><br />
<br />
Tức là thời gian từ lúc bạn bấm Enter đến khi thấy ký tự đầu tiên xuất hiện. <hr /> <b>3. Model Weights — Bộ não cố định</b><br />
<br />
<br />
Phần &quot;Model Weights&quot; là tri thức đã học.<br />
<br />
Ví dụ:<ul><li>GPT learned internet text</li>
<li>coding patterns</li>
<li>reasoning structures</li>
<li>language grammar</li>
</ul><br />
Weights không đổi trong lúc inference.<br />
<br />
Inference KHÔNG phải training.<br />
<br />
Training = cập nhật weights<br />
Inference = chỉ dùng weights để suy luận <hr /> <b>4. KV Cache — Bí quyết tăng tốc</b><br />
<br />
<br />
Đây là phần cực kỳ quan trọng khi tối ưu hạ tầng AI.<br />
<br />
KV Cache = <b>Key/Value Cache</b><br />
<br />
Nó lưu attention state của các token trước đó.<br />
<br />
Nếu không có cache:<br />
<br />
Model phải đọc lại toàn bộ hội thoại mỗi lần sinh 1 token mới.<br />
<br />
Điều đó cực kỳ tốn GPU.<br />
<br />
Ví dụ:<br />
<br />
Nếu response dài 500 token:<br />
<br />
Không cache:<ul><li>đọc lại prompt 500 lần</li>
</ul><br />
Có cache:<ul><li>chỉ tính phần mới</li>
</ul><br />
=&gt; tốc độ tăng mạnh. <hr /> <b>5. Decoding Loop — AI bắt đầu &quot;nói&quot;</b><br />
<br />
<br />
Sau prefill xong, model bắt đầu sinh token từng cái một.<br />
<br />
Đây là <b>autoregressive generation</b>.<br />
<br />
Chu trình:<ul><li>dự đoán token tiếp theo</li>
<li>append vào context</li>
<li>update KV cache</li>
<li>dự đoán token kế tiếp</li>
</ul><br />
Ví dụ:<br />
&quot;The&quot;<br />
&quot;The answer&quot;<br />
&quot;The answer is&quot;<br />
&quot;The answer is 42&quot;<br />
<br />
Model không sinh cả câu cùng lúc.<br />
<br />
Nó sinh từng bước.<br />
<br />
Giống như predictive text nhưng ở quy mô khổng lồ. <hr /> <b>6. De-tokenize</b><br />
<br />
<br />
Token được chuyển ngược thành văn bản con người đọc được.<br />
<br />
Ví dụ:<br />
[1543][892][11]<br />
<br />
thành:<br />
42 <hr /> <b>Tại sao inference lại tốn GPU?</b><br />
<br />
<br />
Có người nghĩ:<div style="margin-left:40px">“Training mới tốn tiền, inference chắc nhẹ?”</div> <br />
Không hẳn.<br />
<br />
Inference production-scale cực kỳ đắt.<br />
<br />
Vì: <b>Prompt dài</b><br />
<br />
<br />
Mỗi user gửi context lớn.<br />
<br />
Ví dụ:<ul><li>RAG</li>
<li>system prompt</li>
<li>chat history</li>
<li>tool outputs</li>
</ul><br />
10K–100K tokens không hiếm. <hr /> <b>KV Cache ngốn VRAM</b><br />
<br />
<br />
Model 70B:<br />
<br />
KV cache có thể chiếm hàng chục GB.<br />
<br />
Nếu nhiều concurrent users:<br />
<br />
VRAM pressure tăng rất mạnh. <hr /> <b>Decoding là tuần tự</b><br />
<br />
<br />
Training có thể parallel hóa.<br />
<br />
Decoding thì:<br />
<br />
Token sau phụ thuộc token trước. Không thể sinh toàn bộ các trả lời (response) một lần. Đây là nút thắt cổ chai bottleneck lớn. <hr /> <b>Góc nhìn AI Infrastructure</b><br />
<br />
<br />
Nếu bạn làm AI infra, đây là lý do các kỹ thuật sau rất quan trọng:<ul><li>KV cache optimization</li>
<li>prefix caching</li>
<li>speculative decoding</li>
<li>tensor parallelism</li>
<li>pipeline parallelism</li>
<li>quantization</li>
<li>batching</li>
<li>paged attention</li>
</ul><br />
Framework phổ biến:<ul><li>vLLM</li>
<li>TensorRT-LLM</li>
<li>SGLang</li>
<li>TGI</li>
<li>LMDeploy</li>
</ul><hr /> <b>Insight thực tế</b><br />
<br />
<br />
Mỗi user request thực chất tạo ra:<ul><li>prefill riêng</li>
<li>KV cache riêng</li>
<li>decoding loop riêng</li>
</ul><br />
Tức là mỗi người dùng giống như &quot;chiếm&quot; một phần GPU. Đây là lý do serving LLM ở quy mô lớn khó hơn nhiều người tưởng. Một prompt tưởng đơn giản thực ra đi qua pipeline:<br />
<br />
<b>Prompt → Tokenize → Prefill → KV Cache → Decoding → De-tokenize</b><br />
<br />
Mục tiêu của AI infrastructure team luôn là <b>giảm memory, tăng throughput, giảm latency, tối ưu cost</b><br />
<br />
<br />
​]]></content:encoded>
			<category domain="https://www.forum.vnpro.org/forum/cclabpro/ccnp-enterprise-core-labpro">CCNP - Enterprise Core LabPro</category>
			<dc:creator>dangquangminh</dc:creator>
			<guid isPermaLink="true">https://www.forum.vnpro.org/forum/cclabpro/ccnp-enterprise-core-labpro/440604-ai-prompt</guid>
		</item>
		<item>
			<title>Khắc phục sự cố của Switch L3</title>
			<link>https://www.forum.vnpro.org/forum/cclabpro/ccnp-enterprise-core-labpro/440078-khắc-phục-sự-cố-của-switch-l3</link>
			<pubDate>Sat, 09 May 2026 22:41:21 GMT</pubDate>
			<description>Khắc phục sự cố Switched Virtual Interface (SVI) 
 
Trên router, mỗi interface sẽ được gán một địa chỉ IP để xác định subnet mà interface đó thuộc...</description>
			<content:encoded><![CDATA[<b>Khắc phục sự cố Switched Virtual Interface (SVI)</b><br />
<br />
Trên router, mỗi interface sẽ được gán một địa chỉ IP để xác định subnet mà interface đó thuộc về. Ngoài ra, địa chỉ IP này thường đóng vai trò <b>default gateway</b> cho các host nằm trong subnet kết nối với interface đó.<br />
<br />
Tuy nhiên, nếu bạn sử dụng <b>switch Layer 3</b> với nhiều cổng (access hoặc trunk) cùng thuộc về một VLAN, như minh họa trong tài liệu, thì câu hỏi đặt ra là: <b>địa chỉ IP sẽ được cấu hình ở đâu?</b><br />
<br />
Do các cổng switch Layer 2 không thể gán trực tiếp địa chỉ IP, bạn cần tạo một interface logic Layer 3 gọi là <b>Switched Virtual Interface (SVI)</b>.<br />
<br />
SVI có thể được gán địa chỉ IP giống như interface trên router. Tuy nhiên có một điểm khác biệt quan trọng:<ul><li>Trên router: một địa chỉ IP gắn với một interface vật lý.</li>
<li>Trên switch Layer 3: một SVI đại diện cho <b>toàn bộ các switchport thuộc cùng VLAN đó</b>.</li>
</ul><br />
Điều này có nghĩa:<ul><li>Thiết bị nằm trong <b>VLAN 100</b> sẽ sử dụng <b>SVI VLAN 100</b> làm default gateway.</li>
<li>Thiết bị nằm trong <b>VLAN 200</b> sẽ sử dụng <b>SVI VLAN 200</b> làm default gateway.</li>
</ul><hr /> <b>Tổng quan về SVI</b><br />
<br />
<br />
Ví dụ:<ul><li><b>SVI VLAN 100</b>: 192.168.1.1/24</li>
<li><b>SVI VLAN 200</b>: 192.168.2.1/24</li>
</ul><br />
Như vậy:<br />
<br />
Các host trong VLAN 100 phải:<ul><li>Có IP thuộc mạng 192.168.1.0/24</li>
<li>Default gateway là 192.168.1.1</li>
</ul><br />
Ví dụ:<br />
PC1<br />
IP: 192.168.1.10<br />
Mask: 255.255.255.0<br />
Gateway: 192.168.1.1<br />
<br />
Các host trong VLAN 200 phải:<ul><li>Có IP thuộc mạng 192.168.2.0/24</li>
<li>Default gateway là 192.168.2.1</li>
</ul><br />
Ví dụ:<br />
PC2<br />
IP: 192.168.2.20<br />
Mask: 255.255.255.0<br />
Gateway: 192.168.2.1 <hr /> <b>Cấu hình SVI trên switch Layer 3</b><br />
<br />
<br />
Để tạo SVI:<br />
interface vlan 100<br />
ip address 192.168.1.1 255.255.255.0<br />
<br />
Nếu SVI chưa tồn tại, lệnh này sẽ tự động tạo.<br />
<br />
Ví dụ cấu hình đầy đủ:<br />
SW1# show run<br />
!<br />
ip routing<br />
!<br />
interface GigabitEthernet0/7<br />
switchport access vlan 100<br />
switchport mode access<br />
!<br />
interface GigabitEthernet0/8<br />
switchport access vlan 100<br />
switchport mode access<br />
!<br />
interface GigabitEthernet0/9<br />
switchport access vlan 200<br />
switchport mode access<br />
!<br />
interface GigabitEthernet0/10<br />
switchport access vlan 200<br />
switchport mode access<br />
!<br />
interface Vlan100<br />
ip address 192.168.1.1 255.255.255.0<br />
!<br />
interface Vlan200<br />
ip address 192.168.2.1 255.255.255.0 <hr /> <b>Điểm cực kỳ quan trọng: bật IP Routing</b><br />
<br />
<br />
Switch Layer 3 <b>không tự động định tuyến IPv4 giữa các VLAN</b>.<br />
<br />
Muốn inter-VLAN routing hoạt động, phải bật:<br />
ip routing<br />
<br />
Nếu quên lệnh này:<ul><li>VLAN 100 ping được gateway VLAN 100</li>
<li>VLAN 200 ping được gateway VLAN 200</li>
<li>Nhưng VLAN 100 sẽ không thể giao tiếp với VLAN 200</li>
</ul><br />
Đây là lỗi rất phổ biến khi lab. <hr /> <b>Kiểm tra trạng thái SVI</b><br />
<br />
<br />
SVI muốn hoạt động phải ở trạng thái:<br />
up/up<br />
<br />
Kiểm tra nhanh: <b>1. show ip interface brief</b><br />
<br />
SW1# show ip interface brief<br />
<br />
Ví dụ:<br />
Interface IP-Address Status Protocol<br />
Vlan1 unassigned administratively down down<br />
Vlan100 192.168.1.1 up up<br />
Vlan200 192.168.2.1 up up<br />
<br />
Ý nghĩa:<ul><li><b>Status up</b> → interface đang hoạt động</li>
<li><b>Protocol up</b> → line protocol hoạt động bình thường</li>
</ul><hr /> <b>2. show interfaces vlan</b><br />
<br />
show interfaces vlan 100<br />
<br />
Ví dụ:<br />
Vlan100 is up, line protocol is up<br />
Hardware is EtherSVI<br />
address is 000d.2829.0200<br />
Internet address is 192.168.1.1/24<br />
<br />
Thông tin hữu ích:<ul><li>MAC address của SVI</li>
<li>IP address</li>
<li>MTU</li>
<li>trạng thái interface</li>
</ul><br />
MAC này rất quan trọng.<br />
<br />
Khi host muốn gửi traffic đến default gateway:<br />
192.168.1.1<br />
<br />
host sẽ gửi ARP request:<div style="margin-left:40px">Who has 192.168.1.1?</div> <br />
SVI sẽ trả lời bằng MAC:<br />
000d.2829.0200<br />
<br />
Host sau đó đóng gói frame Ethernet với destination MAC này. <hr /> <b>3. show ip interface</b><br />
<br />
show ip interface vlan 100<br />
<br />
Ví dụ:<br />
Vlan100 is up, line protocol is up<br />
Internet address is 192.168.1.1/24<br />
<br />
Lệnh này giúp xem:<ul><li>ACL inbound/outbound</li>
<li>helper-address</li>
<li>directed broadcast</li>
<li>trạng thái interface</li>
</ul><hr /> <b>Điều kiện để SVI hoạt động (up/up)</b><br />
<br />
<br />
Muốn SVI lên được, cần đủ các điều kiện sau: <b>1. VLAN phải tồn tại trên switch</b><br />
<br />
<br />
Ví dụ:<br />
<br />
Nếu tạo:<br />
interface vlan 100<br />
<br />
nhưng VLAN 100 chưa tồn tại:<br />
show vlan brief<br />
<br />
không thấy VLAN 100<br />
<br />
→ SVI sẽ không hoạt động. <hr /> <b>2. SVI không bị shutdown</b><br />
<br />
<br />
Kiểm tra:<br />
show run interface vlan 100<br />
<br />
Nếu thấy:<br />
shutdown<br />
<br />
thì phải bật lại:<br />
interface vlan 100<br />
no shutdown <hr /> <b>3. Phải có ít nhất một switchport active thuộc VLAN đó</b><br />
<br />
<br />
Điều kiện này nhiều người hay quên.<br />
<br />
Ví dụ:<br />
<br />
Bạn tạo:<br />
interface vlan 100<br />
<br />
nhưng không có port nào thuộc VLAN 100 đang hoạt động.<br />
<br />
Hoặc cable bị rút.<br />
<br />
Hoặc NIC của host down.<br />
<br />
Kết quả:<br />
Vlan100 down/down <hr /> <b>4. Port phải ở trạng thái STP forwarding</b><br />
<br />
<br />
Nếu port đang bị Spanning Tree block:<br />
blocking<br />
<br />
thì SVI cũng không lên.<br />
<br />
Kiểm tra:<br />
show spanning-tree vlan 100<br />
<br />
Nếu tất cả port VLAN 100 đều blocked:<br />
<br />
SVI sẽ down. <hr /> <b>Tổng kết nhanh</b><br />
<br />
<br />
Muốn SVI hoạt động:<br />
<br />
✔ VLAN tồn tại<br />
✔ Interface không shutdown<br />
✔ Có ít nhất 1 port up/up trong VLAN<br />
✔ Port đang forwarding trong STP<br />
✔ Nếu cần routing giữa VLAN → bật ip routing <hr /><br />
SVI là nền tảng cốt lõi của <b>inter-VLAN routing trên switch Layer 3</b>, và nắm chắc phần này là bắt buộc cho CCNA, CCNP, thậm chí cả troubleshooting ở cấp CCIE.<br />
​]]></content:encoded>
			<category domain="https://www.forum.vnpro.org/forum/cclabpro/ccnp-enterprise-core-labpro">CCNP - Enterprise Core LabPro</category>
			<dc:creator>dangquangminh</dc:creator>
			<guid isPermaLink="true">https://www.forum.vnpro.org/forum/cclabpro/ccnp-enterprise-core-labpro/440078-khắc-phục-sự-cố-của-switch-l3</guid>
		</item>
	</channel>
</rss>
