GiNZAはSudachi MeCabはMeCab
GiNZAは、ワンステップインストーラー、高速・高精度解析、文構造解析の国際対応などの特徴を持つ、オープンソースの日本語文法ライブラリです。
GiNZAには、2つのコア技術が活用されています。
spaCy 機械学習の先進的な機能を組み込んだNLPフレームワーク。
SudachiPy トークン化を行うオープンソースの形態素解析器。
これらの基盤技術の利点をパイプライン設計に活かすことで、GiNZAは産業用途でも十分な処理速度と解析精度を提供することができます。
GiNZAにはすでに相当数のフォロワーがいる。しかし、GiNZAの解析モデル学習に使用しているUD日本語BCCWJデータセットのライセンスが公開されていないため、貢献者が直接改良することができません。
UD日本語GSDデータセットの再構築が完了したら、商用利用可能なCreative Commons Attribution-ShareAlike (CC BY-SA) ライセンスの下で公開する予定です。