[TECHNICAL INSIGHTS] – EVENT DRIVEN STRATEGIES TẠI THỊ TRƯỜNG VIỆT NAM

Trong bài viết lần này, mình sẽ tập trung vào phân tích các chiến lược về event-driven từ 1 số strategies được các Hedge fund

[TECHNICAL INSIGHTS] – THỊ TRƯỜNG VIỆT NAM LÀ HIỆU QUẢ DẠNG GÌ? (PHẦN 3)

Phần này sẽ phân tích từng yếu tố dựa trên quan điểm của thống kê và chọn model. Phần này cũng sẽ chọn 1 sector

[TECHNICAL INSIGHTS] – THỊ TRƯỜNG VIỆT NAM LÀ HIỆU QUẢ DẠNG GÌ? (PHẦN 2)

Phần này mình sẽ đi sâu vào phân tích data và xây dựng framework để có thể đánh giá tổng quan hơn về mức độ

[TECHNICAL INSIGHTS] – THỊ TRƯỜNG VIỆT NAM LÀ HIỆU QUẢ DẠNG GÌ? (PHẦN 1)

Bài viết này sẽ dùng các quan sát sơ bộ để đánh giá mức độ hiệu quả của thị trường tại Việt Nam trước khi

[TECHNICAL INSIGHTS] – FFR VÀ ẢNH HƯỞNG ĐẾN CÁC REGIMES (PHẦN 3)

Tiếp nối phần 2, phần này mình sẽ tập trung vào forecast regimes và phân tích về vấn đề overfitting 1 cách thật kỹ theo

[TECHNICAL INSIGHTS] – FFR VÀ ẢNH HƯỞNG ĐẾN CÁC REGIMES (PHẦN 2)

Tiếp nối phần 1, trong phần này chúng ta sẽ dựa vào các biến đã quan sát và tạo 1 dashboard để quan sát biến

[TECHNICAL INSIGHTS] – FFR VÀ ẢNH HƯỞNG ĐẾN CÁC REGIMES (PHẦN 3)

Tiếp nối phần 2, phần này mình sẽ tập trung vào forecast regimes và phân tích về vấn đề overfitting 1 cách thật kỹ theo cách mình hiểu.

Mục tiêu bài viết

Tìm hiểu sơ bộ về FFR (Done).
Hiểu ngắn gọn cách tính xác suất của FED WATCH TOOLS và tạo được tool quan sát tương tự (Done).
Hiểu được các mối quan hệ của các biến và các yếu tố (Done).
Từ các quan hệ này, tìm các regimes theo ảnh hưởng của biến này tới thị trường tới các đối tượng như SP500, VNINDEX để có trade ideas (phần 3).

Kết luận

Có thể xác định được các trạng thái (regimes) về rủi ro của thị trường, bao gồm risk-on (trạng thái ổn định) và risk-off (trạng thái rủi ro cao).
Model đã tiệm cận về dự báo các regimes, tuy nhiên vẫn chưa hiệu quả (vẫn chưa thể bác bỏ được vấn đề overfitting).
Kết quả backtest cũng đồng thuận với việc overfitting cao khi cố gắng dùng strategy để trade.
Model vẫn còn tiềm năng để mining thêm khi vùng phân bổ của alpha cũng đang khá tốt so với Beta, điều này cũng cho thấy chúng ta có thể đi đúng hướng và có thể mining thêm data để có strategies tốt hơn.

Ghi chú

Bài viết sẽ đi sâu vào việc đánh giá model bị overfitting cho tài chính, trong đó sử dụng khá nhiều khái niệm kỳ lạ như (Combinatorial Purged K Fold, Hồi quy IS-Sharpe và OOS-Sharpe,…). Mình cố gắng giải thích vắn tắt nhưng không tránh khỏi thiếu sót, mình sẽ giải thích thêm các nội dung này vào một bài cụ thể sau này.
Bài viết thuần túy về nhận định và phân tích cá nhân của mình dựa trên kiến thực hạn hẹp mà mình có, nên sẽ hơi chủ quan. Rất mong nhận được sự góp ý từ mọi người!
Ngôn ngữ viết bài giống văn nói thông thường, ít học thuật đôi lúc lõm bõm tiếng anh, hi vọng mọi người thông cảm cái này.
Dữ liệu sử dụng là được truy cập và tính toán từ thư viện vnstocks (http://vnstocks.com), yfinance.
Không như 1 số nghiên cứu khoa học, mục tiêu ở đây là tìm các yếu tố ảnh hưởng để quan sát và dự báo, nên mình hạn chế tối đa các thể loại suy luận hoặc thuyết âm mưu như VNINDEX bị tác động từ SPX vì Trump, vì chính sách thuế hoặc ‘liquidity move the market’ (=]]), blabla… Tại sao?
- Đơn giản mình không muốn bị 1 số bias trong suy luận tài chính, cụ thể ở đây là anchoring bias (mỏ neo thông tin theo kiến thức hữu hạn), confirmation bias (cố gắng tìm thông tin để khẳng định lập luận của mình, vô tình hoặc cố ý bỏ sót các thông tin có ảnh hưởng ngược lại).
- Thị trường luôn thay đổi, thông tin hiện tại mình có chỉ để giải thích 1 phần biến động và nhiều khi chỉ giải thích đứng từ 1 khía cạnh quan sát. Có nghĩa là nếu quan sát theo cách khác, có thể nó vẫn tiếp tục có ý nghĩa và vẫn có thể mining được.
- Mục tiêu ở đây cũng không phải là nghiên cứu, ở đây mình đi tìm alpha, tức là đi tìm trading strategies. Do đó, quan trọng chuyện signal testing hơn!

III) MODEL DỰ BÁO

Sau khi tìm ra mối quan hệ nhân quả giữa các biến và return của VNINDEX, để tạo được model forecast với nhiều yếu tố và đáng tin cậy mình cần làm rõ các điểm sau:

Phải xác định được regimes từ các biến số đã quan sát với 1 mức độ tin cậy thống kê phù hợp.
Phải xác định được model phù hợp với mức độ overfitting thấp nhất.

2 vấn đề ở trên thực ra rất khó để giải và không có 1 đáp án chính xác hoàn toàn. Tuy nhiên theo mình, mình sẽ giải theo cách sau đây.

Vấn đề 1: Xác định Regimes

Việc xác định này liên quan đến việc gắn nhãn dữ liệu, trong đó mình phải có 1 cái tiêu chuẩn cho regimes để xác định được nó. Thực ra, việc xác định này có thể đứng từ góc nhìn vĩ mô (xác định các trạng thái vĩ mô: Expansion, Overheating, Stagflation và Deflationary) để xác định các trạng thái của GDP growth để từ đó dự báo biến động của các tài sản trong nền kinh tế mà equity là 1 trong các tài sản đó. Theo mình, việc dự báo cái này có 1 số vấn đề:

Thiếu dữ liệu: dữ liệu vĩ mô khá rời rạc, chất lượng data vĩ mô ở VN chỉ bắt đầu có kha khá nếu tính từ năm 2000 (và vẫn phải sử dụng 1 số phương pháp để lấp dữ liệu trống). Bên cạnh đó, dữ liệu cũng có bias khá mạnh, một số biến phản ánh tính kỳ vọng chu kỳ của nền kinh tế như PMI thì theo mình tìm kiếm thì hàng free chỉ bắt đầu từ năm 2013 (số liệu khảo sát của SP500) và cũng khá yếu, không mang tính đại diện kỳ vọng tổng thể.
Thời gian dự báo dài: vì dữ liệu đa phần theo quý, giá trị forecast cũng sẽ theo quý. Nếu trader chỉ quan tâm regimes trong 1 tháng thì việc forecast khá noise và không thể đong đếm được.

Vì vậy, mình cần phân loại regimes theo 1 tính chất khác và có thể dựa vào các biến mình đã quan sát. Một các chủ quan thì mình dùng thuật toán phân loại K-mean để phân loại , thuật toán này chỉ phân cụm lại các giá trị có chung đặc tính lại thôi (công thức mình không đi sâu vào, cái này mọi người có thể google để rõ hơn), thuật toán này có 1 số ưu điểm:

Tự động phân loại (unsupervised-learning): thuật toán sẽ quan tâm đến các đặc tính mình đưa vào để tự động phân nhóm (phân chia các nhóm có cùng đặc tính).
Tính toán nhanh và dễ giải thích.

Tuy nhiên nó cũng có 1 số vấn đề:

Rất dễ bị nhiễu, càng nhiều đặc tính thì càng dễ bị nhiễu, do đó cần phải lọc các đặc tính (hoặc đặc trưng) để giảm số đặc tính quan sát.
Việc lựa chọn số nhóm phân loại cũng phụ thuộc vào 1 số phương pháp khá chủ quan (elbow, silhouette,..) , do đó số nhóm cũng sẽ khá chủ quan và ít ổn định.

Vậy, để đảm bảo thuật toán của mình có thể ổn định, mình cần lọc lại các biến để giảm số chiều dữ liệu xuống nhưng vẫn đảm bảo tính giải thích và phân loại, sau đó fit vào trong thuật toán này để ra các regime phù hợp. Do vậy, mình sẽ 1 lần nữa chọn lại các biến phù hợp từ các quan sát ở bài trước, kết quả cụ thể như sau:

[TECHNICAL INSIGHTS] - FFR VÀ ẢNH HƯỞNG ĐẾN CÁC REGIMES (PHẦN 3)

Tiếp tục với Elastic Net để lựa chọn các features, tuy nhiên mình tập trung vào biến đổi cho VNINDEX nhiều hơn, kết quả cuối cùng cũng giảm số chiều quan sát xuống còn 13 biến (so với 19 biến ở phần 2). Sử dụng các biến này để chạy thuật toán phân loại K-mean với phương pháp lựa chọn là silhouette thì có kết quả như sau:

Kết quả của regimes cho thấy 2 trạng thái chính:

Risk on: trạng thái log_distance, Gold và VVIX có giá trị trung bình (sau chuẩn hóa bằng Std Scaler trong sklearn) âm và các tài sản khác đều dương. Mình gọi trạng thái này là “Risk on” vì nó cho thấy tiềm năng ổn định cao hơn trong trạng thái lãi suất (dựa vào log_distance, giá vàng giảm và biến động của biến động (VVIX) cũng giảm). Lúc này thì mình có thể bật công tắc chấp nhận rủi ro (risk on).
Risk off: trạng thái ngược lại, khi giá trị trung bình của các biến ở trên lại dương và giá trị trung bình các tài sản còn lại đều âm. Điều này có thể là hàm ý cho 1 môi trường không ổn định để trade trong ngắn hạn, và do đó không thể bật công tắc chấp nhận rủi ro (risk off).

Tuy nhiên thì vẫn cần quan sát lại xem liệu việc phân loại như thế này đã có đúng với hiện trạng biến động của VNINDEX, vậy kết hợp các regimes phân loại ở trên vào biến động của VNINDEX ta có hình này:

Regimes và VNINDEX

Regimes và Volatility

Với màu xanh là risk-on và màu vàng là risk-off. Có thể thấy, thuật toán phân loại khá ổn định khi phần lớn khi risk-on, volatility duy trì ở mức khá thấp, trend của VNINDEX cũng khá mượt và ổn định.

Vậy là phần gắn nhãn cho các regimes tạm ổn, mình sẽ move qua phần tìm model forecast các regimes này.

Vấn đề 2: Tìm model

Model Pipeline:

Tương tự như các bài trước, mình cũng sẽ sử dụng các model này với giải thích tóm tắt từ ChatGPT (=]]):

Bằng cách sử dụng Elastic Net để tìm ra các features có tính giải thích cao và ít bị đa cộng tuyến, có thể thấy việc chuẩn bị dữ liệu mình đã làm ở trên đã gần như loại bỏ các vấn đề chính của các hạn chế trong các model này. Tuy nhiên, kết quả forecast cần nhiều hơn vậy, để tăng độ chính xác, mình sẽ sử dụng 1 phương cross validation phù hợp cho dữ liệu tài chính hơn bao gồm:

Đầu tiên là sẽ sử dụng TimeseriesPurgeKFold, cái này mình sẽ sử dụng Timeseries split có sẵn của sklearn nhưng có thêm yếu tố thanh trừng (purge). Thanh trừng là gì, là loại bỏ 2 đầu mút của đoạn giao thoa (để tránh bị overfitting), cụ thể giống hình minh họa này:
Pipeline để tìm model tối ưu qua từng lần loop cụ thể như sau:
Cơ bản thì theo mình cách fit các model theo pipeline này sẽ hạn chế việc bị leakage data khi train các model để hạn chế tối đa việc overfitting. Sau đó thì loop cho từng model và mình ra kết quả với lợi thế prevalence như sau:(với lr, nb, svc, knn, xgb lần lượt là viết tắt của các model logistic regression, naive bayes, super vector classifỉer, k-nearest neighbors, xgboost)

Vậy hoa hậu phân loại lần này là model SVC với điểm số prevalence cao nhất với lợi thế tiên đoán cao hơn gần 10% so với giá trị ngẫu nhiên (prevalence là gì thì mình có đề cập trong bài các yếu tố cơ bản ảnh hưởng đến VNINDEX phần 2).

Tuy nhiên, 1 lần nữa mình cần chắc chắn rằng model của mình không bị overfitting khi sử dụng để forecast. Vậy làm sao để xác định model có bị overfitting hay không?

Overfitting

Việc chia nhỏ tệp train, test và thử nhiều lần sẽ vô tình làm mình bị 1 cái bias gọi là selection bias. Cái này là bias khi mình đã thử mô hình quá nhiều lần và cuối cùng mình sẽ chọn ra được kết quả đúng ý mình nhất chứ không phải là hiệu quả nhất. Có nghĩa là mình test càng nhiều thì mình càng có khả năng tìm ra được các chiến lược nó fit đúng cái đường PnL tốt nhất, nhưng đường PnL tốt nhất không đồng nghĩa với tín hiệu hiệu quả nhất mà có thể là vì nó khớp nhất với các giá trị trong quá khứ (không có ý nghĩa giải thích). Vậy làm sao để giải quyết vấn đề này?

Bác Lopez có đưa ra phương pháp giải quyết cái này, cụ thể:

Sử dụng dữ liệu quá khứ và thực hiện tìm Sharpe ratio trong quá khứ (hoặc trong giai đoạn training model) và fit model dự báo, sau đó tìm Sharpe ratio của model dự báo. Như vậy, ta sẽ có 1 cặp Sharpe ratio: In Sample (IS-Sharpe) cho giai đoạn training và Out-of-sample (OOS-Sharpe) cho giai đoạn dự báo.
Dữ liệu sẽ được chọn mẫu ngẫu nhiên với 1 phương pháp đặc thù cho time series gọi là “COMBINATORIAL PURGED CROSS-VALIDATION METHOD” (chi tiết chương 12 sách Advance in Machine Learning của Lopez). Thuật toán này sẽ lấy mẫu ngẫu nhiên tịnh tiến, do đó sẽ không bị vấn đề overfitting khi chọn mẫu dạng KFold truyền thống, ngoài ra cũng có thể tăng số lần chọn mẫu.
Sau đó chạy hồi quy cặp dữ liệu OOS và IS này, nếu hệ số góc (slope hoặc Beta) âm, có nghĩa là giá trị IS-Sharpe nghịch biến với OOS-Sharpe hay model có IS-Sharpe càng cao thì OOS-Sharpe càng thấp (overfitting). Do đó, một cách khách quan, chúng ta sẽ đi tìm Beta dương của cặp dữ liệu IS và OOS Sharpe này.

Lằng nhằng là vậy, nói chung mình hiểu đơn giản là chọn mẫu ngẫu nhiên tịnh tiến cho 1 tệp data set gồm train và test, sau đó fitting dữ liệu cho tệp train để huấn luyện model và predict cho tệp test. Sau đó, nếu giá trị Sharpe train và test đồng biến có nghĩa là không bị overfitting và ngược lại.

Ok! Sau khi hiểu khái niệm, bằng cách chọn mẫu ngẫu nhiên tịnh tiến theo Combinatorial ở trên với 558 lần chọn. Mình có được phân phối của OOS-Sharpe cụ thể như sau:

Có thể thấy, phân phối này khá phân bổ khá đều và gần như cân bằng với mean ~ median và mean > 0. Bên cạnh đó, xác suất của Sharpe ratio nhỏ hơn 0 cũng dưới 20%. Đây là tín hiệu khá tốt khi muốn hạn chế overfitting, mình sẽ cố gắng tìm 1 phân phối OOS-Sharpe cân bằng với trung bình dương và có negative skew (giá trị sẽ tập trung vào vùng bên phải nhiều hơn).

Kết quả hồi quy với IS Sharpe cũng cho thấy hệ số góc Beta gần như bằng 0 và đường hồi quy biến động khá ngẫu nhiên (khó xác định quỹ đạo). Tuy nhiên, p-value của slope khá cao, cũng cho thấy giá trị này hiện chưa đủ độ tin tưởng để có thể xác định rằng nó khác 0. Dựa trên kết quả này, có thể thấy vấn đề overfitting chưa được giải quyết triệt để lắm, và do đó kết quả dự báo regimes vẫn có thể phần nào khá tương đồng với giá trị ngẫu nhiên.

Backtesting

Các phân tích trên đã làm cho rõ ràng hơn phần nào, model ở đây chúng ta vẫn còn vấn đề overfitting tồn đọng, tuy nhiên thì mình vẫn thử backtest lại để nhìn rõ hơn cái vấn đề này.

VNINDEX movement

Market volatility

Khi forecast dữ liệu từ 01-01-2024 đến nay trên tệp test, có thể thấy model vẫn tiên đoán khá tốt các trạng thái rủi ro cao (vùng màu vàng) khi volatility của thị trường đang đặc biệt tăng vào các giai đoạn đó. Đặc biệt hơn, model còn tiên đoán được cả đoạn thuế (=]], nghi ngờ quá). Tuy nhiên, khi chạy với strategy là buy and hold khi risk-on và quan sát khi risk-off, kết quả không tốt lắm với:

Có thể, thấy các chỉ số Sharpe, Sortino và Calmar đều thấp hơn so với chiến lược Buy and Hold rất nhiều. Boostrapping lại các thông số này ta có kết quả như sau:

Alpha có mức độ phân bổ khá rộng và to hơn Beta đáng kể, có nghĩa là strategy này cũng có thể vẫn còn tiềm năng mining thêm. Tương tự với Sharpe và Sortino, tuy nhiên thì Sortino vùng phân bổ cũng rất rộng.

Và strategy mặc dù tưởng né được cú thuế nhưng vẫn không (=]])!

Kết luận

Có thể xác định được các trạng thái về rủi ro của thị trường, bao gồm risk-on (trạng thái ổn định) và risk-off (trạng thái rủi ro cao).
Model đã tiệm cận về dự báo các regimes, tuy nhiên vẫn chưa hiệu quả (vẫn chưa thể bác bỏ được vấn đề overfitting).
Kết quả backtest cũng đồng thuận với việc overfitting cao khi cố gắng dùng strategy để trade.
Model vẫn còn tiềm năng để mining thêm khi vùng phân bổ của alpha cũng đang khá tốt so với Beta, điều này cũng cho thấy chúng ta có thể đi đúng hướng và có thể mining thêm data để có strategies tốt hơn.

Bài viết đến đây cũng khá dài rồi, hi vọng những phân tích này sẽ hữu ích cho các bạn.

Trân trọng cảm ơn!

Khóa học Phân tích kỹ thuật – CMT Level 1

Khóa học được Green Chart thiết kế dành riêng cho các bạn thí sinh muốn học và ôn thi CMT cấp độ 1 tại Việt Nam. Nội dung chương trình học bao gồm 28 buổi học lý thuyết, luyện đề và thi thử. Học viên cũng được cung cấp miễn phí giáo trình, bộ câu hỏi và đề thi thử phục vụ cho quá trình ôn thi. Học lại miễn phí trọn đời khóa học.

Tham khảo thêm chi tiết về khóa học Tại đây.

[TECHNICAL INSIGHTS] – FFR VÀ ẢNH HƯỞNG ĐẾN CÁC REGIMES (PHẦN 3)

Mục tiêu bài viết

Kết luận

Ghi chú

III) MODEL DỰ BÁO

Vấn đề 1: Xác định Regimes

Vấn đề 2: Tìm model

Kết luận

Khóa học Phân tích kỹ thuật – CMT Level 1

Contact Us

Working Hours