본문 바로가기

BackEnd26

[DB] ElasticSearch의 Suggest API Suggest API SuggestAPI에서 사용되는 Suggester는 색인이 된 대상을 FST(유한상태 변화기)라는 데이터 구조를 만들어 In-Memory에 올려 일반 검색 API보다 훨씬 응답이 빠르다. 이때, 인메모리에 올라가니 변경이 적은 것이 좋다. FST Type을 사용하고 싶으면 mapping에서 completion type으로 지정하면 된다. Completion field type | Elasticsearch Guide [8.16] | ElasticCompletion field type edit To use the completion suggester, map the field from which you want to generate suggestions as type completion.. 2024. 11. 21.
[DB] ElasticSearch의 Search API SearchAPI란?SearchAPI는 ElasticSearch에서 데이터 검색과 필터링을 위한 API입니다. 특정 조건으로 데이터를 검색하고, 정렬, 페이징, 집계 등에 적용할 수 있습니다. 크게 두가지 방법으로 전달할 수 있습니다. 첫번째가 URI Search인데 이건 우리가 ?query=”hello” 이런식으로 REST에서 보내는 방법입니다. 간단한 검색이면 몰라도, 사실 크게 자주 쓰지 않습니다. 두번째가 Query DSL인데 아래처럼 Body에 넣어서 보내는 것입니다. 대부분 후자 방법을 이용합니다. (더 상세한 표현이 가능하고 재사용성이 좋기 때문입니다.)QueryDSL에는 위 사진과 같은 옵션을 넣을 수 있습니다. 특히, query부분이 중요한데, 이 곳에 우리가 SQL로 작성해서 DB에서 .. 2024. 11. 19.
[DB] 백엔드 개발자를 위한 효율적인 데이터베이스 선택 가이드 1. 데이터베이스의 구분데이터베이스는 크게 SQL DB와 NoSQL DB로 나눌 수 있다.   SQL DB는 스키마 기반의 테이블 구조를 가지고 있으며 ACID 특성을 보장하며, 금융 시스템과 같이 데이터 무결성과 트랜잭션 관리가 중요한 경우 사용된다. 게다가 40년 넘게 사용되고 있는 만큼 높은 안정성과 신뢰성을 자랑한다. 하지만, NoSQL DB에 비해서 확장성과 샤딩이 어렵다는 단점이 있다. 반면에, NoSQL DB는 스키마가 유연하고 대규모 데이터 분산 저장 및 처리에 최적화되어 있으며, BASE 특성을 가집니다. 또한, 빅데이터 분석을 처리하는데 탁월하며, 확장성도 훨씬 좋다. 하지만, 각각 DB마다 다르겠지만 호환성, 자료 부족 등의 문제가 있다. 실제로 위 그래프처럼, SQL DB가 거의 메.. 2024. 11. 17.
[대규모 시스템 설계] Kafka의 기초 Kafka 기본 개념 정리1. Kafka Cluster와 BrokerCluster: 여러 Kafka Broker가 모여서 이루어지는 것. Broker는 하나의 Kafka 서버를 의미.Broker: 데이터를 저장하고, Producer로부터 데이터를 받아와 Consumer에게 전달하는 역할을 수행.2. Consumer LagLag: Producer가 데이터를 추가하는 속도가 Consumer가 데이터를 소비하는 속도보다 빠를 때, 마지막으로 소비된 오프셋(offset)과 마지막으로 추가된 오프셋 간의 차이. Consumer의 상태를 파악하는 데 중요한 지표로 사용됨.3. Topic과 PartitionTopic: Kafka에서 데이터를 저장하고 관리하는 단위.Partition: Topic을 분할한 단위. 각 P.. 2024. 11. 15.
[DB] CSV 파일 데이터 DB에 업로드 CSV 파일을 사용하는 이유초기 데이터를 몇 개만 추가해야 한다면, 그냥 우리가 직접 DB 콘솔에 접속해서 하나하나 데이터를 넣거나 하면 된다. 하지만, 사실 우리가 데이터가 한두개일리가 절대 없다. 예를 들어, 공공데이터 포탈에서 데이터를 받아올 경우, 데이터가 수천, 수만건이 될 것이다. 이때, 이 데이터들을 하나씩 직접 입력하는 것은 비효율적일 뿐 아니라 시간이 많이 소요된다. 또, 만약 테이블이 통째로 삭제되는 문제가 발생한다면,수만개의 데이터를 다시 입력해야 하므로 상당한 노력이 필요하게 된다. CSV 파일을 활용하면 이런 문제를 해결할 수 있다. 한 번에 많은 데이터를 가져와 데이터베이스에 바로 삽입할 수 있기 때문에, 대량의 데이터 처리가 필요한 경우 CSV 파일 업로드는 훨씬 더 효율적이고.. 2024. 11. 13.
[개발] NGINX 기초 Nginx란?Nginx란 비동기 이벤트 기반 구조의 경량화 웹서버이다. 주로, 정적 파일을 응답해주는 웹서버로 사용하거나, Reverse Proxy Server로 활용하거나, 로드밸런서의 역할을 하거나, HTTPS 인증을 할 때 쓰인다. 시작하기 앞서, Nginx 설치에 어려움을 겪거나, 귀찮게 설치 안해보고도 테스트 해보고 싶은 분들은 Nginx를 웹에서 테스트 해볼 수 있는 Nginx Playgorund를 사용해보자.  nginx playground nginx-playground.wizardzines.comNginx를 활용할 수 있는 방안1. 정적 캐싱 서버 : Nginx의 캐싱 기능을 이용해 정적 콘텐츠(예: 이미지, CSS, JavaScript 파일 등)를 캐시함으로써 서버 부하를 줄이고 콘텐츠를.. 2024. 11. 12.
[Spring] OpenSearch를 이용한 검색어 자동완성 기능 제작 검색어 자동완성을 구현하는 가장 쉬운 방법은 RDB에서 매번 특정 칼럼에 Like문을 때리는 것이다. 그런데 이렇게 하면 문제가 있다. 첫번째, 검색어 자동완성 자체가 이벤트가 일어날 때 마다 지속적으로 api 요청을 보내는데, 거기에 Full Scan으로 검색하는 RDB Like 문으로 검색하면 DB 부하가 장난 아닐 것이다. 두번째, 모든 데이터가 영어로 보장되있다면 그나마 괜찮은데 (인덱스를 활용하면 되기 때문), 한글 데이터가 들어가는 순간, Like 문 검색은 반드시 피해야된다. 왜냐하면, 한글 특성상 DB 인덱스를 사용하기 매우 어렵기 때문이다. 한글은 자모음 분리가 가능하고, 초성 검색 등의 특수한 경우를 고려해야 하기에, 기본적인 Like 문으로는 성능이 급격히 떨어진다.  따라서, Ela.. 2024. 11. 10.